BelNET logo

Belarusian Nuclear Education and Training Portal - BelNET

eng

rus

Material of portal nuclear knowledge BelNET
article / document resource request "5576"
2024-10-13
Нобелевская премия по физике 2024. Так где же физика?
Барткевич А.Р.

Мы уже отмечали, что обоснование решения о присуждении премии по физике за фундаментальные работы в области нейросетей и машинного обучения Нобелевский комитет строит на неоднократном упоминании того, что идеи развиваемых методов лауреаты почерпнули именно из аналогий с процессами в реальном физическом мире. Предлагаем полный перевод той части текста Scientifc Background to the Nobel Prize in Physics 2024: “For foundational discoveries and inventions that enable machine learning with artificial neural networks”, которая аппелирует к физическим идеям и моделям (ссылки на статьи ищите в оригинальном англоязычном варианте). Полагаем, что русскоязычный текст (даже несмотря на возможные погрешности перевода) для большинства читателей будет более удобной основой формирования собственных выводов.

Занятное чтение Scientific background предварим небольшими пояснениями российских ученых.

Главный научный сотрудник Балтийского центра нейротехнологий и искусственного интеллекта Балтийского федерального университета имени И. Канта (РФ), Александр Храмов рассказывает: «Джон Хопфилд известен созданием «сети Хопфилда». В ее основе изящный математический подход, близкий физике. Он заключается в том, что, когда на вход нейросети подают данные, она старается перейти в состояние с минимальной энергией. Это похоже на ассоциативную память. Например, если мы обучим сеть изображению и потом подадим его в искаженном виде, программа, стремясь к «покою», исправит ошибки в картинке».

Заведующий кафедрой теоретической ядерной физики НИЯУ МИФИ Сергей Попруженко добавляет, что Хопфилд предложил особенный тип нейронной сети, «сконструированной» из частиц, спиновые моменты которых могут взаимодействовать друг с другом. «Оказалось, что минимизируя свою энергию (энергию взаимодействия спинов), такие сети могут находить решения сложных задач, например, задач по распознанию образов, используя заправочные образы-подсказки, далекие от оригинала. Одна из главных идей, лежащих в основе функционирования такой сети – минимизация энергии – пришла из физики».

«В 1985 году Джеффри Хинтон придумал «машину Больцмана» – дальнейшее развитие сети Хопфилда, способное искать абсолютный минимум энергии, а не локальный, и, значит, с большей вероятностью находить верное, а не «похожее на верное» решение задачи. При программной реализации такой машины используется алгоритм имитации отжига – физического процесса, происходящего при затвердевание расплавленных веществ. Постепенно понижая значение некоторого параметра, который можно назвать аналогом физической «температуры», такой алгоритм позволяет приблизиться к конфигурации системы, при которой ее энергия минимальна. «Таким образом, и здесь идея реализации вычислительного процесса связана с физическим эффектом – затвердением сплава», – констатирует ученый.

Далее читайте в Подробнее. Там же приведен перевод главы "The 1980s" Scientifc Background to the Nobel Prize in Physics 2024 “For foundational discoveries and inventions that enable machine learning with artificial neural networks”.

«Несмотря на то, что физика и машинное обучение кажутся разными областями науки, они обе опираются на статистические подходы. При разработке нейросетей Хопфилда и Хинтона использовали базовый физический принцип — минимизацию энергии. То, что запоминание, оказывается, связано с понятием энергии — это один из основных результатов, за который и дали премию», — обобщил директор лаборатории «Когнитивные системы ИИ» Института Искусственного интеллекта AIRI, ведущий научный сотрудник Федерального исследовательского центра «Информатика и управление» РАН Александр Панов.

Scientifc Background to the Nobel Prize in Physics 2024 “For foundational discoveries and inventions that enable machine learning with artificial neural networks”: The 1980s

В 1982 году Хопфилд опубликовал динамическую модель ассоциативной памяти, основанную на простой рекуррентной нейронной сети. Коллективные явления часто возникают в физических системах, например, домены в магнитных системах или вихри в потоках жидкости. Хопфилд задался вопросом, могут ли возникающие коллективные явления в большом наборе нейронов привести к появлению «вычислительных» способностей.

Заметив, что коллективные свойства многих физических систем устойчивы к изменениям в деталях модели, Хопфилд применил эту особенность для нейронной сети с бинарными узлами (0 или 1). Динамика была асинхронной с обновлением пороговых значений отдельных узлов в случайные моменты времени. Новое значение узла определялось взвешенной суммой по всем остальным узлам,

,

и устанавливалось равным , если , в противном случае (с порогом, равным нулю) . Связи предполагались симметричными и отражающими парные корреляции между узлами в хранимых воспоминаниях, что называется правилом Хебба. Симметрия весов гарантирует стабильную динамику. Стационарные состояния были определены как воспоминания, распределенные по узлам в нелокальном хранилище. Кроме того, сети присваивается энергия , определенная следующим образом

.

Она является монотонно убывающей функцией в зависимости от динамики сети. Примечательно, что связь между миром физики и ИНС была очевидна уже из этих двух уравнений. Первое уравнение можно использовать для представления молекулярного поля Вейсса (в честь французского физика Пьера Вейсса), которое описывает выравнивание атомных магнитных моментов в твердом теле. Второе же уравнение часто используется для оценки энергии магнитной конфигурации, например, ферромагнетика. Хопфилд, естественно, хорошо знал, как эти уравнения используются для описания магнитных материалов.

Образно говоря, динамика приводит систему с узлами к впадинам -мерного энергетического ландшафта, в котором находятся стационарные состояния. Стационарные состояния представляют собой обученную по правилу Хебба память. Изначально объем памяти, который можно было хранить в динамической модели Хопфилда, был ограничен. Методы, позволяющие решить эту проблему, были разработаны в более поздних работах.

Хопфилд использовал свою модель как ассоциативную память или как метод исправления ошибок (или дополнение шаблона). Система, инициализированная неправильным шаблоном, возможно, неправильно написанным словом, притягивается к ближайшему локальному энергетическому минимуму в его модели, в результате чего происходит исправление. Модель получила дополнительный импульс, когда стало ясно, что ее основные свойства, такие как объем памяти, можно описать аналитически, используя методы из теории спинового стекла.

В то время возник закономерный вопрос, не являются ли свойства этой модели артефактом ее грубой бинарной структуры. Хопфилд ответил на этот вопрос, создав аналоговую версию модели, динамика которой в непрерывном времени задается уравнениями некоторого электрического контура. Анализ аналоговой модели показал, что двоичные узлы могут быть заменены аналоговыми без потери эмерджентных коллективных свойств исходной модели. Стационарные состояния аналоговой модели соответствовали среднеполевым решениям бинарной системы при эффективной регулируемой температуре и приближались к стационарным состояниям бинарной модели при низкой температуре.

Тесное соответствие между аналоговой и бинарной моделями было впоследствии использовано Хопфилдом и Дэвидом Танком для разработки метода решения сложных задач дискретной оптимизации на основании динамики непрерывного времени (continuous-time dynamics) аналоговой модели. Здесь решаемая оптимизационная задача, включая ограничения, кодируется в параметрах взаимодействия (весах) сети. Исследователи решили использовать динамику аналоговой модели, чтобы получить более «мягкий» энергетический ландшафт и тем самым облегчить поиск. Вышеупомянутая эффективная температура аналоговой системы постепенно снижалась, как при глобальной оптимизации с помощью алгоритма имитации отжига. Оптимизация происходит путем интегрирования уравнений для электрического контура. В ходе этой процедуры узлы эволюционируют без "инструкций" от центрального узла. Этот подход представляет собой пионерский пример использования динамической системы для поиска решений сложных задач дискретной оптимизации. Более поздним примером является метод квантового отжига.

Создав и исследовав вышеупомянутые динамические модели, основанные на физике, - не только основную модель ассоциативной памяти, но и последующие, - Хопфилд внес фундаментальный вклад в наше понимание вычислительных возможностей нейронных сетей.

В 1983-1985 годах Джеффри Хинтон вместе с Терренсом Сейновски и другими коллегами разработал стохастическое расширение модели Хопфилда 1982 года, названное машиной Больцмана. Здесь каждому состоянию сети приписывается вероятность, задаваемая распределением Больцмана

, ,

где ― фиктивная температура, а ― смещение или локальное поле.

Машина Больцмана ― это генеративная модель. В отличие от модели Хопфилда, она фокусируется на статистических распределениях паттернов, а не на отдельных паттернах. Она содержит видимые узлы, соответствующие изучаемым паттернам, а также дополнительные скрытые узлы, которые включаются для моделирования более общих вероятностных распределений.

Параметры веса и смещения сети, определяющие энергию , устанавливаются таким образом, чтобы статистическое распределение видимых паттернов, генерируемых моделью, минимально отклонялось от статистического распределения заданного набора обучающих паттернов. Хинтон и его коллеги разработали формально элегантный алгоритм градиентного обучения для определения параметров, однако каждый шаг алгоритма требует временных затрат на моделирование равновесия для двух различных ансамблей.

Интересная с теоретической точки зрения, машина Больцмана на практике изначально имела ограниченное применение. Однако ее уменьшенная версия с меньшим количеством весов, названная ограниченной машиной Больцмана (restricted Boltzmann machine), превратилась в универсальный инструмент.

И модель Хопфилда, и машина Больцмана ― это рекуррентные нейронные сети. В 1980-х годах также был достигнут значительный прогресс в области сетей прямого распространения (feedforward networks). Ключевым достижением стала демонстрация Дэвидом Румельхартом, Хинтоном и Рональдом Уильямсом в 1986 году того, как архитектуры с одним или несколькими скрытыми слоями могут быть обучены классификации с помощью алгоритма, известного как обратное распространение (backpropagation). Здесь задача заключается в минимизации среднего квадратичного отклонения между выходом сети и обучающими данными методом градиентного спуска. Для этого необходимо вычислить частные производные по всем весам в сети. Румельхарт, Хинтон и Уильямс заново изобрели схему для этого, которая ранее применялась для решения смежных задач другими авторами. Кроме того, что более важно, они продемонстрировали, что сети со скрытым слоем могут быть обучены с помощью этого метода для выполнения задач, которые, как известно, не могут быть решены без такого слоя. Кроме того, они прояснили функцию скрытых узлов.

Sign In