BelNET logo

Belarusian Nuclear Education and Training Portal - BelNET

eng

rus

Material of portal nuclear knowledge BelNET
article / document resource request "7019"
2026-01-13
Элементы искусственного интеллекта на портале BelNET - наши планы
3. Алгоритмы векторизации в рамках семантических технологий
С.Н.Сытова

Начало статьи см. здесь и здесь.

Для организации текстов в структуру используются методы классификации [1] и кластерного анализа. Это требует подбора подходящих метрик сравнения текстов по похожести с учетом особенностей контента документов предметной области. Необходимо отметить, что подходы классификации и кластерного анализа значительно отличаются между собой. Классификация оперирует заранее заданной структурой для организации текстов – глоссарием. И соответствующий алгоритм должен соотнести текст с этой структурой и определить место текста в структуре: к какому классу (или классам) следует отнести исследуемый текст.

Кластерный анализ (или кластеризация) – это метод анализа данных, который разделяет объекты на группы (кластеры) на основе их сходства [2]. Цель состоит в том, чтобы объекты внутри одного кластера были как можно более похожими, а объекты из разных кластеров – как можно более разными. Это задача обучения без учителя, поскольку нет заранее заданных меток для объектов. Другими словами, кластерный анализ основан на алгоритмах, которые формируют перечень классов в процессе работы с конкретным множеством документов, автоматически группируя документы по степени похожести. При этом перечень групп заранее неизвестен.


Рисунок с сайта Pixabay

В качестве примера можно привести перспективную идею группировать результаты полнотекстового поиска при большом числе документов. Это позволит пользователю исключать из рассмотрения группы документов и обращать внимание на интересующие группы. При этом оба подхода используют векторизацию.

На основе указанных алгоритмов формируются интеллектуальные инструменты для автоматического семантического анализа содержания текстов и классификации научных публикаций по различным категориям (дисциплинам, типам исследований, уровням значимости) с целью обеспечения качественной навигации по ресурсам портала, извлечение ключевых терминов и концептов, анализа цитирований и установления авторского вклада, помощи в принятии этических решений, предварительной обработки материалов портала на предмет выявления генерации материала с помощью того или иного инструмента ИИ, контроль уникальности и оригинальности публикуемых материалов. Это в совокупности является реализацией принципов комплексной методологии цифровой интеграции ядерных знаний с использованием искусственного интеллекта и семантических технологий.

Отметим, что разработанные за 10 лет функционирования портала BelNET оригинальные материалы контента портала (корпус текстов) (препринты, рукописи, специально созданные для контента портала научные, новостные и учебные материалы, включая лекции и лабораторные работы с тестами к ним) являются хорошей основой, на которой будет обучаться создаваемая большая языковая модель.

1. Efficient Estimation of Word Representations in Vector Space / T. Mikolov [et al.] // Proc. Int. Conf. on Learning Representations, 2013. – Mode of access: https://arxiv.org/abs/1301.3781v3. – Date of access 11.07.2025. – 12 p.
2. Jain, A. Data Clustering: A Review / A. Jain A., M. Murty, P. Flynn // ACM Computing Surveys. – 1999. – Vol. 31, №. 3. – P. 1–69.

Download:
technology-AI-icon.jpg70806image/jpeg2026-01-10 11:14:21
Sign In