уровня игрока среднего уровня, ни разу не получив инструкций от человека. Поскольку он учился в изоляции, он также разрабатывал стратегии, не опробованные людьми (которые, как правило, под влиянием игрового процесса друг друга придерживаются определенного набора ходов). В итоге необычные ходы TD-Gammon повлияли на теорию и понимание самой игры в нарды.
В 2013 году в прессе появилось еще одно применение метода обучения временным различиям, на этот раз в видеоиграх. Ученые из компании DeepMind, занимающейся исследованиями в области искусственного интеллекта, создали компьютерную программу, которая научила себя играть в несколько игр из аркадной системы Atari 1970-х годов. Этот искусственный геймер получил полный опыт игры в Atari. Единственными входными данными для алгоритма были пиксели на экране - ему не было дано никаких специальных знаний о том, что некоторые из этих пикселей могут представлять собой космические корабли, биты для пинг-понга или подводные лодки. Действия, которые он мог выполнять, включали в себя стандартные кнопки: вверх, вниз, влево, вправо, A, B; а наградой для модели служила оценка, которую давала игра, в которую она играла. Поскольку в этом случае перед алгоритмом ставилась более сложная задача, чем в нардах, где, по крайней мере, понятия фигур и расположения заложены в исходные данные модели, исследователи объединили обучение временной разности с глубокими нейронными сетями (метод, с которым мы уже сталкивались в главе 3). Одна из версий этой глубокой нейронной сети насчитывала около 20 000 искусственных нейронов и после нескольких недель обучения достигла производительности на уровне человека в 29 из 49 протестированных игр. Поскольку этот алгоритм Atari также обучался асоциально, в итоге у него появились некоторые интересные причуды, в том числе он обнаружил хитроумный трюк для прохода сквозь стену в игре Breakout, где нужно разрушать кирпичи.
Игры - это яркий и забавный способ продемонстрировать возможности такого подхода, но на этом его применение не закончилось. После того как в 2014 году компания Google приобрела DeepMind, она поставила перед алгоритмами обучения с подкреплением задачу минимизировать энергопотребление в своих огромных центрах обработки данных. В результате было достигнуто 40-процентное снижение потребления энергии для охлаждения центров и, вероятно, экономия в сотни миллионов в течение нескольких лет. Алгоритмы обучения с подкреплением, ориентированные на достижение поставленной цели, находят творческие и эффективные решения сложных задач. Таким образом, эти инопланетные разумы могут помочь разработать планы, до которых человек никогда бы не додумался.
Пути последовательного принятия решений и павловского обусловливания представляют собой победу конвергентной научной эволюции. Пути Беллмана и Павлова начинаются с отдельных и существенных проблем, каждая из которых кипит своими требовательными деталями. Как больнице составить график работы медсестер и врачей, чтобы обслужить наибольшее количество пациентов? Что заставляет собаку выделять слюну, когда в ее ушах раздается звук зуммера? Казалось бы, эти вопросы не имеют ничего общего. Но если отбросить груз конкретики, оставив лишь голые кости проблемы, становится понятна их взаимосвязь. В этом и заключается одна из задач математики: поместить вопросы, не связанные между собой в физическом мире, в одно и то же концептуальное пространство, в котором может проявиться их глубинное сходство.
Таким образом, история обучения с подкреплением - это история успешного междисциплинарного взаимодействия. Она показывает, что психология, инженерия и информатика могут работать вместе, чтобы добиться прогресса в решении сложных проблем. Она демонстрирует, как математика может быть использована для понимания и воспроизведения способности животных и людей учиться у окружающей среды. Эта история и так была бы замечательной, если бы на этом закончилась. Но она на этом не заканчивается.
* * *
Октопамин - это молекула, содержащаяся в нервной системе многих насекомых, моллюсков и червей. Он назван так из-за того, что был обнаружен в слюнных железах осьминога в 1948 году. В мозге пчелы октопамин высвобождается при попадании нектара. В начале 1990-х годов Терри Сейновски, профессор Института Солка в Сан-Диего (Калифорния), и два сотрудника его лаборатории, Рид Монтегю и Питер Даян, задумались об октопамине. В частности, они построили модель - компьютерную симуляцию поведения пчел, - в центре которой находился нейрон в мозге пчелы, выделяющий октопамин. Они предположили, что выбор пчелы, на какие цветы садиться или избегать, можно объяснить с помощью модели обучения Рескорла-Вагнера, а нейронная цепь, включающая октопаминовый нейрон, может быть аппаратным обеспечением, реализующим эту модель. Но пока они решали эту октопаминовую головоломку, команда узнала о другом исследовании, проведенном примерно в 6000 миль от них немецким профессором по имени Вольфрам Шульц, посвященном химическому родственнику октопамина - дофамину.
Возможно, вы знакомы с допамином. В популярной культуре он пользуется определенной репутацией. В бесчисленных новостных статьях его называют "химическим веществом нашего мозга, связанным с удовольствием и вознаграждением" или рассказывают о том, что такие повседневные действия, как поедание кекса, вызывают "всплеск химического вещества допамина, способствующего вознаграждению, в области мозга, где принимаются решения". Его называют "молекулой удовольствия", и нередко под этим мощным названием продаются товары. Поп-звезды называют в его честь альбомы и песни. Дофаминовые диеты" утверждают (без доказательств), что продукты, повышающие уровень дофамина, помогают сохранить стройность. А технологический стартап Dopamine Labs пообещал повысить вовлеченность пользователей в телефонные приложения за счет нейротрансмиттера. Это бедное химическое вещество знаменитостей также очень сильно задело - его называют источником всех зависимостей и дезадаптивных форм поведения. Появились онлайн-сообщества вроде The Dopamine Project, цель которых - обеспечить "лучшую жизнь через осознание дофамина". А некоторые жители Силиконовой долины даже пытались устраивать "дофаминовые голодания", чтобы отдохнуть от постоянного переизбытка стимуляции.
Хотя это правда, что выброс дофамина может сопровождать вознаграждение, это далеко не вся история. В частности, в исследовании Шульца был показан случай, когда нейроны, выделяющие дофамин, молчали, когда получали вознаграждение.
В частности, Шульц обучал обезьян протягивать руку вперед, чтобы получить немного сока. Во время обучения он регистрировал активность группы дофамин-выделяющих нейронов, расположенных в нижней части мозга. Шульц заметил, что в конце обучения - когда животные знали, что получат сок, протянув руку, - эти нейроны вообще никак не реагировали на выдачу вознаграждения в виде сока.
Когда Шульц впервые опубликовал эти результаты, у него не было четкого объяснения, почему дофаминовые нейроны ведут себя именно так, но у членов лаборатории Сейновски оно было. И они обратились к Шульцу, чтобы начать сотрудничество, в ходе которого была бы проверена гипотеза о том, что дофаминовые нейроны кодируют ошибки предсказания, необходимые для обучения по временной разнице. Это стало началом того, что Сейновски назвал "одним из самых захватывающих научных периодов в моей жизни
Даян и Монтегю