Элементы искусственного интеллекта на портале BelNET - наши планы 3. Алгоритмы векторизации в рамках семантических технологий Начало статьи см. здесь и здесь. Для организации текстов в структуру используются методы классификации [1] и кластерного анализа. Это требует подбора подходящих метрик сравнения текстов по похожести с учетом особенностей контента документов предметной области. Необходимо отметить, что подходы классификации и кластерного анализа значительно отличаются между собой. Классификация оперирует заранее заданной структурой для организации текстов – глоссарием. И соответствующий алгоритм должен соотнести текст с этой структурой и определить место текста в структуре: к какому классу (или классам) следует отнести исследуемый текст. Кластерный анализ (или кластеризация) – это метод анализа данных, который разделяет объекты на группы (кластеры) на основе их сходства [2]. Цель состоит в том, чтобы объекты внутри одного кластера были как можно более похожими, а объекты из разных кластеров – как можно более разными. Это задача обучения без учителя, поскольку нет заранее заданных меток для объектов. Другими словами, кластерный анализ основан на алгоритмах, которые формируют перечень классов в процессе работы с конкретным множеством документов, автоматически группируя документы по степени похожести. При этом перечень групп заранее неизвестен.
В качестве примера можно привести перспективную идею группировать результаты полнотекстового поиска при большом числе документов. Это позволит пользователю исключать из рассмотрения группы документов и обращать внимание на интересующие группы. При этом оба подхода используют векторизацию. На основе указанных алгоритмов формируются интеллектуальные инструменты для автоматического семантического анализа содержания текстов и классификации научных публикаций по различным категориям (дисциплинам, типам исследований, уровням значимости) с целью обеспечения качественной навигации по ресурсам портала, извлечение ключевых терминов и концептов, анализа цитирований и установления авторского вклада, помощи в принятии этических решений, предварительной обработки материалов портала на предмет выявления генерации материала с помощью того или иного инструмента ИИ, контроль уникальности и оригинальности публикуемых материалов. Это в совокупности является реализацией принципов комплексной методологии цифровой интеграции ядерных знаний с использованием искусственного интеллекта и семантических технологий. Отметим, что разработанные за 10 лет функционирования портала BelNET оригинальные материалы контента портала (корпус текстов) (препринты, рукописи, специально созданные для контента портала научные, новостные и учебные материалы, включая лекции и лабораторные работы с тестами к ним) являются хорошей основой, на которой будет обучаться создаваемая большая языковая модель.
1. Efficient Estimation of Word Representations in Vector Space / T. Mikolov [et al.] // Proc. Int. Conf. on Learning Representations, 2013. – Mode of access: https://arxiv.org/abs/1301.3781v3. – Date of access 11.07.2025. – 12 p.
|



