Статьи и другие материалы BelNET

Navigation

Material of portal nuclear knowledge BelNET

article / document resource request "7019"

2026-01-13
Элементы искусственного интеллекта на портале BelNET - наши планы

3. Алгоритмы векторизации в рамках семантических технологий

С.Н.Сытова

Начало статьи см. здесь и здесь.

Для организации текстов в структуру используются методы классификации [1] и кластерного анализа. Это требует подбора подходящих метрик сравнения текстов по похожести с учетом особенностей контента документов предметной области. Необходимо отметить, что подходы классификации и кластерного анализа значительно отличаются между собой. Классификация оперирует заранее заданной структурой для организации текстов – глоссарием. И соответствующий алгоритм должен соотнести текст с этой структурой и определить место текста в структуре: к какому классу (или классам) следует отнести исследуемый текст.

Кластерный анализ (или кластеризация) – это метод анализа данных, который разделяет объекты на группы (кластеры) на основе их сходства [2]. Цель состоит в том, чтобы объекты внутри одного кластера были как можно более похожими, а объекты из разных кластеров – как можно более разными. Это задача обучения без учителя, поскольку нет заранее заданных меток для объектов. Другими словами, кластерный анализ основан на алгоритмах, которые формируют перечень классов в процессе работы с конкретным множеством документов, автоматически группируя документы по степени похожести. При этом перечень групп заранее неизвестен.

Рисунок с сайта Pixabay

В качестве примера можно привести перспективную идею группировать результаты полнотекстового поиска при большом числе документов. Это позволит пользователю исключать из рассмотрения группы документов и обращать внимание на интересующие группы. При этом оба подхода используют векторизацию.

На основе указанных алгоритмов формируются интеллектуальные инструменты для автоматического семантического анализа содержания текстов и классификации научных публикаций по различным категориям (дисциплинам, типам исследований, уровням значимости) с целью обеспечения качественной навигации по ресурсам портала, извлечение ключевых терминов и концептов, анализа цитирований и установления авторского вклада, помощи в принятии этических решений, предварительной обработки материалов портала на предмет выявления генерации материала с помощью того или иного инструмента ИИ, контроль уникальности и оригинальности публикуемых материалов. Это в совокупности является реализацией принципов комплексной методологии цифровой интеграции ядерных знаний с использованием искусственного интеллекта и семантических технологий.

Отметим, что разработанные за 10 лет функционирования портала BelNET оригинальные материалы контента портала (корпус текстов) (препринты, рукописи, специально созданные для контента портала научные, новостные и учебные материалы, включая лекции и лабораторные работы с тестами к ним) являются хорошей основой, на которой будет обучаться создаваемая большая языковая модель.

1. Efficient Estimation of Word Representations in Vector Space / T. Mikolov [et al.] // Proc. Int. Conf. on Learning Representations, 2013. – Mode of access: https://arxiv.org/abs/1301.3781v3. – Date of access 11.07.2025. – 12 p.
2. Jain, A. Data Clustering: A Review / A. Jain A., M. Murty, P. Flynn // ACM Computing Surveys. – 1999. – Vol. 31, №. 3. – P. 1–69.

Download:

technology-AI-icon.jpg

70806

image/jpeg

2026-01-10 11:14:21

Initiators of BelNET development

	Research Institute for Nuclear Problems of Belarusian State University
	Physics Department of Belarusian State University
	Chemical Department of Belarusian State University
	State Scientific Institution "THE JOINT INSTITUTE FOR POWER AND NUCLEAR RESEARCH - SOSNY"

User
Password
	Refresh