2024-05-05 Искусственный интеллект. Словарь для физиков Продолжаем публиковать перевод статей Symmetry, посвященных Искусственному интеллекту. В этот раз читатель сможет познакомиться с краткой историей искусственного интеллекта в физике частиц и астрофизике, а также немного подробнее узнать о некоторых методах обучения, основных типах и архитектурах искусственных нейронных сетей, формах генеративного искусственного интеллекта. Искусственный интеллект Искусственный интеллект - это устройство, обладающее такими способностями, как восприятие, обучение, рассуждение и решение задач. Впервые предложенный в 1956 году, термин "искусственный интеллект" (ИИ) стал общим наименованием широкого спектра мощных вычислительных технологий, таких как машинное обучение и нейронные сети, которые продолжают трансформировать науку и общество. Например, в 2022 году было объявлено о следующем прорыве: ИИ помог исследователям предсказать форму сотен миллионов белков из почвы, морской воды и человеческого тела, сократив время, необходимое для идентификации и понимания этих молекул, на несчетное количество лет. ИИ также играет все более значительную роль в физике частиц и астрофизике, позволяя ученым управлять ускорителями частиц с беспрецедентной точностью и практически мгновенно анализировать огромные объемы данных с детекторов частиц и телескопов. Определение понятия «искусственный интеллект» менялось с течением времени, говорит Дэниел Ратнер, руководитель инициативы по машинному обучению в Национальной ускорительной лаборатории SLAC. «Думаю, в прошлом люди использовали термин „искусственный интеллект“ для обозначения футуристического обобщенного интеллекта, в то время как машинное обучение относилось к конкретным алгоритмам». По словам Ратнера, он предпочитает более широкое определение ИИ, охватывающее все от глубоких нейронных сетей до статистических методов и науки о данных, «потому что все они связаны друг с другом как части более крупной экосистемы ИИ». Машинное обучение Машинное обучение - это вид искусственного интеллекта, который выявляет закономерности в больших массивах данных, а затем использует эти закономерности для прогнозирования и улучшения последующих итераций анализа. Все машинное обучение основано на алгоритмах, которые в машинном обучении представляют собой правила анализа данных с помощью статистики. Система машинного обучения применяет свои алгоритмы к наборам обучающих данных и учится тому, как анализировать подобные данные в будущем. Машинное обучение стало огромным благом для науки, поскольку оно значительно ускоряет процесс открытий и позволяет находить решения, которые человек считает неинтуитивными. «Я каждый день использую ИИ в очень малых масштабах», - говорит Чихуэй Чанг, доцент кафедры астрономии и астрофизики Чикагского университета. «В большинстве случаев это даже не супернавороченные технологии, а просто часть инструментария». ИИ ускоряет поиск новых материалов, небесных объектов и редких частиц, а также повышает производительность таких сложных установок, как ускорители частиц, рентгеновские лазеры и телескопы. «Некоторые вычисления настолько медленны, что если не использовать ИИ для их ускорения, то научная работа станет невозможной», - говорит Чанг. Физики используют машинное обучение уже несколько десятилетий, говорит Нхан Тран, физик из Национальной ускорительной лаборатории Ферми, координатор проекта Fermilab AI и исследовательского коллектива Fast Machine Learning. «Но то, насколько сильно ИИ теперь может воздействоать на почти каждую часть эксперимента - не только на анализ данных, но и на операции или моделирование, или даже на управление самими данными, - это действительно захватывающе». Далее читайте в Подробнее. Деревья решений с усилением Физики используют деревья решений с 1970-х годов. Алгоритмы деревьев решений работают, прогоняя данные через ряд точек принятия решений. В каждой точке алгоритм решает, сохранить или отклонить часть данных, основываясь на критериях, запрограммированных в системе. Представьте этот процесс как обрезку дерева: одни ветви остаются и ведут к меньшим ветвям и листьям, а другие удаляются. Деревья решений с усилением работают так же, как и деревья решений, за исключением того, что данные прогоняются не через одно, а через несколько деревьев, прежде чем решить, какие данные следует отбросить. Информация из каждого дерева используется для модификации каждого последующего до тех пор, пока разница между сигналом и шумом не станет очевидной. Деревья хорошо работают с данными, представленными в виде строк и столбцов. А поскольку каждое решение является бинарным - «оставить» или «отклонить», - понять, как работают деревья решений, довольно просто. «Физики долгое время не доверяли машинному обучению», - говорит Хавьер Дуарте, профессор физики из Калифорнийского университета в Сан-Диего. «Именно поэтому нам понравились методы, основанные на деревьях. Они принимают решения так, как это обычно делаем мы». Эксперимент MiniBooNE в Фермилабе был одним из первых, где были применены деревья решений с усилением (начало 2000-х годов). Они использовались для изучения нейтринных осцилляций. Но деревья решений с усилением, вероятно, наиболее известны благодаря их вкладу в открытие бозона Хиггса в 2012 году. Команды из экспериментов CMS и ATLAS на Большом адронном коллайдере CERN использовали деревья решений с усилением для классификации событий столкновений и отделения сигналов от фонового шума. «Это показало, что мы можем использовать эти методы для поиска новых частиц хорошо откалиброванным и понятным нам способом», - говорит Линдси Грей, ученый из Фермилаба. «Это стало грандиозной вехой и привело к бурному росту использования этих алгоритмов в последующее десятилетие.» Обучение с подкреплением Обучение с подкреплением в вычислительной технике появилось в 1980-х годах. Этот метод машинного обучения оптимизирует процесс принятия решений, поощряя желаемое поведение и наказывая нежелательное. Алгоритмы обучаются, исследуя окружающую среду и действуя методом проб и ошибок, получая «сигналы вознаграждения» за определенное поведение. Этот метод лучше всего подходит для последовательного принятия решений в ситуациях реального времени, например, для обучения алгоритма игре или для наделения автономного транспортного средства способностью планировать маршрут и воспринимать окружающую обстановку. Беспрецедентная победа компьютерной программы AlphaGo над человеком в настольной игре Go в 2015 году была отчасти обусловлена обучением с подкреплением. Тренировка алгоритмов обучения с подкреплением занимает много времени и является сложной задачей, поскольку модель должна имитировать все факторы окружающей среды. «В физике элементарных частиц этот метод пока используется не так часто, поскольку он очень сложен», - говорит Дуарте. Обучение с подкреплением применяется для управления и повышения производительности ускорителей частиц и для анализа струй частиц, образующихся при столкновениях, путем отсечения нежелательного излучения. Астрономы использовали указанный метод для поиска наиболее эффективного способа сбора данных с помощью телескопов и оптимизации систем адаптивной оптики, улучшающих обзор телескопа. А в квантовой информатике обучение с подкреплением применяется для управления квантовыми процессами, измерения квантовых устройств и управления квантовыми затворами в квантовых компьютерах. Нейронные сети Нейронная сеть представляет собой тип машинного обучения, который в общих чертах напоминает человеческий мозг. После обучения нейронной сети на большом наборе данных - будь то столкновения частиц или астрономические снимки - она может автоматически анализировать другие сложные наборы данных, причем практически мгновенно и с высокой точностью. Нейронная сеть может состоять из сотен или триллиона взаимосвязанных вычислительных узлов. Данные проходят через узлы в одном направлении: каждый из них принимает сигналы от узлов, расположенных выше него, и передает информацию узлам, расположенным ниже него. Узлы нейронной сети собирают поступающие сигналы и присваивают каждому из них «вес» в зависимости от того, насколько он важен. Как только взвешенные сигналы объединяются, узел обрабатывает информацию и выдает результат. Такая система позволяет сети обучаться на примерах. Когда нейронная сеть обучается, веса, которые отдельные сигналы накапливают по мере прохождения от узла к узлу, и пороговые веса, которых они должны достичь для срабатывания, первоначально задаются случайным образом. Эти веса и пороговые значения постоянно корректируются, пока данные не дадут согласованные результаты. Обучаемые нейронные сети были впервые предложены в 1950-х годах и пережили несколько циклов бурного роста и спада интереса со стороны научного сообщества. На протяжении 1990-х и в начале 2000-х годов исследователи в области физики высоких энергий использовали нейронные сети для низкоуровневого распознавания образов в детекторах и для определения свойств событий. Все изменилось примерно в 2012 году, говорит Бенджамин Нахман, руководитель группы машинного обучения для фундаментальной физики в Национальной лаборатории Лоуренса Беркли. «Произошел переход», - говорит он. «Стали доступны инструменты, которых раньше не было. Мы использовали нейронные сети с 90-х годов, но нейронные сети 90-х - это не нейронные сети сегодняшнего дня. Сейчас мы можем делать то, что раньше было просто немыслимо». Часть изменений произошла благодаря введению выпрямленной линейной функции активации (также известной как ReLU, ключевое нововведение в методе обучения нейронных сетей), а часть - благодаря внедрению электронных схем, называемых графическими процессорами. Изначально графические процессоры были разработаны для ускорения воспроизведения графики в видеоиграх за счет параллельного выполнения множества процессов. Но интеграция их в нейронные сети позволила ученым увеличить вычислительную мощность и выполнить то, что они назвали «глубоким обучением». Примерно в то же время физики начали генерировать огромные массивы данных, необходимые для обучения нейросетей. Сегодня ученые используют нейронные сети для анализа треков, оставленных нейтрино, света, искаженного скрытыми явлениями в космосе, и энергии, преобразованной в материю на Большом адронном коллайдере. Свёрточные нейронные сети Вдохновленные зрительной корой головного мозга животных, свёрточные нейронные сети (Convolutional neural networks, CNN) используют несколько слоев нейронных сетей для поиска особенностей в изображениях. Первые слои находят такие признаки, как цвет и края. Последующие слои распознают более сложные элементы изображения, например, образы, соответствующие лицам. В последнее десятилетие компьютерное зрение - широкий термин для обозначения технологий, позволяющих компьютерам идентифицировать объекты и людей на изображениях и видео - получило развитие благодаря CNN. Одно из главных преимуществ CNN заключается в том, что они могут узнавать особенности необработанных изображений непосредственно из данных без участия человека. Они хорошо работают с данными, которые могут быть представлены в двух измерениях, например, с фотографиями и отображением событий, связанных с частицами, а также могут классифицировать аудиоданные. «Компьютерное зрение стало толчком к развитию глубокого обучения в физике, - говорит Майкл Каган, ведущий научный сотрудник SLAC. Сегодня CNN широко используются в астрофизике, где изображения ночного неба дают огромные объемы данных. CNN помогли ученым найти гравитационные линзы и определить возраст, массу и размеры звездных скоплений. В физике высоких энергий ученые использовали CNN еще в 2015 году для маркировки и классификации струй частиц, образующихся при столкновениях частиц высоких энергий на LHC. Первоначальный ажиотаж по поводу CNN со временем уступил место ажиотажу по поводу других методов, включая графовые нейронные сети, которые больше подходят для тех типов данных, которые получают эксперименты в физике высоких энергий. Графовые нейронные сети Графовые нейронные сети (Graph neural networks, GNN) - это набор геометрических алгоритмов глубокого обучения, которые обучаются на графах. Граф представляет собой набор узлов (фрагментов данных) и связей между ними, называемых ребрами. Хотя GNN появились в начале 2000-х годов, физики начали использовать их для анализа экспериментальных данных только в 2019 году. GNN оказались полезны для отслеживания попаданий в детектор, классификации струй частиц и понимания событий в детекторе с участием нескольких частиц. В отличие от сверточных нейронных сетей, которые работают только с данными, представленными в виде регулярной сетки, GNN могут анализировать наборы данных, имеющие нерегулярные 3D-геометрические формы. Это делает GNN отличным инструментом для физики частиц, где наборы данных с ускорителей частиц часто поступают от нескольких детекторов, которые отслеживают частицы разными способами. GNN широко используются для идентификации струй, классификации взаимодействий частиц, определения космического происхождения частиц и поиска бозонов Хиггса, распадающихся на нижние кварки. По словам Грея, GNN будут приобретать все большее значение по мере того, как LHC будет работать с более высокой светимостью, а взаимодействия частиц, которые реконструируют ученые, будут становиться все более сложными. «Как только мы поймем, насколько глубоко можно использовать этот инструмент, мы сможем извлечь еще больше интересной науки из наших детекторов, поскольку мы сможем делать более качественные реконструкции в условиях повышенной загруженности», - говорит он. «Это полностью изменило наш подход к данным и их анализу». Базовые модели По мере того как сообщество машинного обучения продолжает внедрять инновации, физики также начали работать с архитектурами, еще более совершенными, чем CNN и GNN, - «прежде всего с трансформером, который находится в центре самых современных приложений ИИ в промышленности», - говорит Нахман. «Это основа большинства базовых моделей». Основанные на сложных нейронных сетях, базовые модели могут идентифицировать и генерировать изображения, отвечать на вопросы на естественном языке и предсказывать следующий элемент в последовательности. Разница между базовыми моделями и общими нейронными сетями глубокого обучения заключается в масштабе: Фундаментальные модели обучаются на более массивных наборах данных, чем те, которые были доступны в прошлом, а также часто обучаются без каких-либо предварительных знаний о том, что содержится в данных. Базовые модели стали популярны в 2022 году, когда OpenAI выпустила большую языковую модель под названием ChatGPT, которая пишет ответы на естественном языке как реакцию на подсказки. Другие базовые модели, например DALL-E, генерируют изображения. Физики, за которыми вскоре последовали астрофизики, работают над генеративными моделями с 2017 года. Базовые модели требуют огромных объемов данных, но позволяют повысить эффективность ИИ при решении многих задач, связанных с обработкой естественного языка и компьютерным зрением. Их можно использовать для написания нового текста, краткого изложения научной статьи, программирования кода и идентификации изображения. Однако создание и обучение базовых моделей требует огромного количества вычислительного времени и огромных массивов данных. К тому же современные базовые модели печально известны своей ненадежностью: например, большие языковые модели часто дают неверный ответ, и эту проблему специалисты в данной области называют «галлюцинацией». Поскольку эта парадигма так нова, физики все еще играют с ней, пытаясь понять, как она может помочь им в таких вещах, как создание кода для экспериментов или поиск галактик с определенными характеристиками. Они также пытаются разработать базовые модели, основанные на общих чертах различных физических систем, таких как законы сохранения. Будущее может быть за гибридной моделью, которая сочетает в себе мощь фундаментальных моделей и структурированные знания физики. «Многие люди думают о том, как интегрировать наши знания с этими большими моделями», - говорит Каган, который входит в группу физиков, разрабатывающих новые, адаптированные для физики методы ИИ. Гибридные системы могут помочь нам в проектировании будущих детекторов, анализе данных или даже, в далеком будущем, в создании гипотез». Это захватывающее время для разработки ИИ для конкретных задач физики высоких энергий». |