English
!

Доклады

Применение статистической механики для сетей глубокого доверия

Рудаменко Р.А., Перепелкин Е.Е.1, Полякова Р.В.2, Иноземцева Н.Г., Садовников Б.И..

Физический факультет Московского государственного университета им. М.В. Ломоносова

1ОИЯИ

2ЛИТ ОИЯИ

Люди и другие животные могут понимать концепции лишь на нескольких примерах, в то время как стандартные алгоритмы машинного обучения требуют большого количества примеров для извлечения скрытых особенностей. Неподконтрольное обучение - это процедура выявления скрытых особенностей из немаркированных данных.

При обучении глубоких нейронных сетей предварительная подготовка данных без подбора увеличивает конечную точность алгоритма за счет уменьшения начального пространства параметров, с которого начинается тонкая настройка. Однако теоретических работ, посвященных подробному описанию обучения без наблюдения, очень мало. Решающей причиной является то, что процесс обучения без контроля в глубоких нейронных сетях обычно сложен. Поэтому понимание его механизма в элементарных моделях играет важную роль.

Больцмановские машины являются базовой единицей для разработки глубоких нейронных сетей. Благодаря своей способности выявлять скрытые внутренние представления и решать сложные комбинаторные задачи, они используются в машинном обучении и выводе статистических закономерностей. Больцмановские машины представляют собой нейронные сети с симметрично соединенными слоями, которые делятся на две категории - видимые и скрытые. В данной работе мы рассматриваем ограниченную машину Больцмана (Restricted Boltzmann machine, RBM), со связями между нейронами разных слоев, но без внутренних.

Для решения вычислительных задач машина сначала проходит обучение, где ее параметры - пороги активации нейронов θ и веса на ребрах ξ, стохастически изменяются в соответствии с выбранными алгоритмами. После этого видимый слой инициализируется заданным состоянием, и система эволюционирует к стационарному распределению. Наконец, выходной слой представляет собой решение задачи.

При работе с глубокими сетями часто возникает проблема потери интерпретации полученных характеристик, т.е. потери физической сущности.

Несмотря на успех в практических приложениях, строгое математическое описание машин Больцмана остается сложной задачей. В исследованиях коэффициенты весов на ребрах считаются фиксированными, а их распределение извлекается при обучении. Изучение RBM можно проводить с помощью статистической механики, в развитие которой внес вклад известный советский ученый Н.Н. Боголюбов. Свойство симметрии матрицы весов и равенство главной диагонали определяют сходство машины Больцмана с физической моделью спиновых стекол. МРБ с бинарными связями эквивалентна двухчастичному спиновому стеклу с переменными слоями различной природы. Видимый слой состоит из бинарных спинов Изинга, а скрытый слой - из вещественных гауссовых спинов.

Целью данной работы является физическое описание ОМБ и исследование его технологических режимов аналитическими и численными методами.

Работа выполнена при поддержке РФФИ № 18-29-10014. Исследование выполнено при поддержке Междисциплинарной научно-образовательной школы Московского университета "Фотонные и квантовые технологии. Цифровая медицина".

Материалы доклада

© 2004 Дизайн Лицея Информационных технологий №1533