2. При условии, что функция полезности этого ИИ не совсем примитивна. Например, очень легко создать агента, который всегда выбирает действие, максимизирующее ожидаемую полезность в случае, если функция полезности, например, константа: U(w) = 0. При такой функции полезности каждое действие одинаково хорошо максимизировало бы ожидаемую полезность.
3. Вероятно, мы забыли ту цветовую мешанину, которую наблюдали в раннем младенчестве, когда мозг еще не научился интерпретировать поступающую в него визуальную информацию.
4. См. также: [Yudkowsky 2011] и [Muehlhauser, Helm 2012] — см. обзор в части пятой.
5. Вполне возможно, что прогресс в области программирования в конечном счете поможет преодолеть и эти сложности. Используя современные инструменты, один-единственный программист может создавать такие продукты, которые не снились целой команде, вынужденной писать сразу в машинном коде. Сегодня разработчики ИИ могут пользоваться такими выразительными возможностями, как высококачественные библиотеки для машинного обучения и научных вычислений, позволяющие легко собрать, например, приложение для подсчета людей с помощью веб-камеры из библиотек, написать которое с чистого листа мало кому по силам. Благодаря накоплению целого пласта «многоразового» программного обеспечения, созданного специалистами, но доступного неспециалистам, у будущих программистов будет огромный выбор выразительных средств. Например, разработчики роботов смогут воспользоваться стандартными библиотеками изображений лиц, коллекциями типичных офисных объектов, специальными библиотеками траекторий движения и многими другими инструментами, еще недоступными в настоящее время.
6. См.: [Dawkins 1995, p. 132] — хотя речь не о том, что страданий в мире больше, чем радости.
7. Однако размер популяций всегда был эффективным, поэтому — несмотря на все страдания, войны и смерти — среднее число особей в нашей популяции стабильно обеспечивало передачу свойственных ей генов от поколения к поколению. Вопреки всему наши предки не выродились и не погибли; см.: [Shulman, Bostrom 2012].
8. Безусловно, с моральной точки зрения было бы намного справедливее, если мы смогли бы легко добиваться подобных результатов, не заставляя страдать множество невинных существ. Но если имитационным моделям все-таки придется претерпевать бессмысленные страдания, то эту несправедливость мы попробуем возместить, сохранив их файлы, а много позже, при более благоприятных условиях — когда человечество обеспечит себе полную безопасность — запустить их снова. В каком-то смысле это возрождение будет напоминать религиозную идею загробной жизни с последующим воскрешением — вполне в духе теологической концепции, пытающейся примирить нашу бренную жизнь с существованием зла.
9. Один из ведущих специалистов в области обучения с подкреплением Ричард Саттон определяет этот вид обучения не с методологической точки зрения, а в категориях проблематики самого подхода: по его мнению, любой способ, пригодный для решения этой проблемы, является методом обучения с подкреплением [Sutton, Barto 1998, p. 4]. Напротив, наше обсуждение напрямую касается методов, в которых конечной целью агента является стремление получать максимальное совокупное вознаграждение (в том смысле, что «совокупное вознаграждение» представляет собой восприятие общей ценности всех видов поощрения). Например, решить проблему обучения с подкреплением возможно и таким образом: обучить агента с совершенно иными конечными целями имитировать в самых разных ситуациях поведение агента, стремящегося к максимизации вознаграждения, — в соответствии с мнением Саттона и такой прием допустимо считать «методом обучения с подкреплением», но только в этом случае он не приведет к возникновению эффекта самостимуляции. Однако замечание Саттона верно по отношению к большинству приемов, которые используют в своей практике специалисты в области обучения с подкреплением.
10. Даже если удастся каким-то образом создать машинный интеллект «человеческого типа», совсем не обязательно, что его конечные цели начнут напоминать конечные цели человека. Разве только условия воспитания цифрового дитя будут близки к условиям воспитания обычного ребенка. Не представляю, как это можно обеспечить, но предположим, кому-то удалось. И все равно результат не будет гарантирован, поскольку даже небольшая разница во врожденных способностях приведет к совершенно иным реакциям на события. Однако вполне допускаю, что в будущем для цифрового разума человеческого типа разработают более надежный механизм ценностного приращения (с использованием новых лекарственных препаратов, имплантатов или их цифровых эквивалентов).
11. Невольно возникает вопрос: почему мы, люди, похоже, никогда не пытаемся «отключить механизм», иногда вынуждающий нас изменять своей прежней системе ценностей? Видимо, роль играют многие факторы. Во-первых, человеческая система мотивации пока плохо описана в качестве алгоритма, отстраненно вычисляющего максимум функции полезности. Во-вторых, у нас может не быть подходящих средств видоизменять пути, которыми мы приобретаем ценности. В-третьих, у нас могут быть инструментальные причины (связанные, в частности, с социальными сигналами, о которых мы говорили в главе 7) иногда приобретать новые конечные цели, поскольку окружающие способны догадываться о наших намерениях, и тогда нам приходится в собственных интересах пересматривать свои цели. В-четвертых, встречаются моменты, когда мы действительно активно сопротивляемся чьему-то тлетворному влиянию, заставляющему нас пересмотреть свою систему ценностей. В-пятых, есть вероятный и довольно любопытный вариант: мы наделяем некоторыми конечными ценностями своего рода агента, способного приобретать новые конечные ценности обычным человеческим способом.
12. Или попытаться создать такую систему мотивации, чтобы ИИ был индифферентен к замене целей; см.: [Armstrong 2010].
13. Мы опираемся на объяснения, данные Дэниелом Дьюи [Dewey 2011]. Использованы также идеи из работ: [Hutter 2005; Legg 2008; Yudkowsky 2001; Hay 2005].
14. Чтобы избежать ненужного усложнения, мы остановимся на агентах с детерминированным поведением, которые не дисконтируют будущее вознаграждение.
15. С математической точки зрения поведение агента можно формализовать при помощи агентской функции, ставящей в соответствие каждой возможной истории взаимодействий свое действие. Явно задать агентскую функцию в табличном виде невозможно за исключением случаев самых простых агентов. Вместо этого агенту дается возможность вычислить, какое действие лучше выполнять. Поскольку способов вычисления одной и той же агентской функции может быть много, это ведет к индивидуализации агента в виде агентской программы. Агентская программа — это такая программа или алгоритм, которая вычисляет действие, соответствующее каждой истории взаимодействий. Хотя часто удобнее и полезнее — с математической точки зрения — считать, что агент взаимодействует с другими в некоторой формально определенной среде, важно помнить, что это является идеализацией. На реальных агентов действуют реальные физические стимулы. Это означает не только, что агент взаимодействует со средой посредством датчиков и исполнительных механизмов, но также, что «мозг» или контроллер агента сам является частью физической реальности. Поэтому на его поведение, в принципе, могут воздействовать физические помехи извне (а не только объекты восприятия, или перцепты, полученные с датчиков). То есть с какого-то момента становится необходимым считать агента реализацией агента. Реализация агента — это физическая структура, которая в отсутствие влияния среды выполняет агентскую функцию. (Определения даны в соответствии с работой Дэниела Дьюи [Dewey 2011].)
16. Дьюи предлагает следующее определение оптимальности для агента, обучающегося ценностям:
Здесь P1 и P2 — две вероятностные функции. Вторая сумма располагает в определенном порядке некоторый подходящий класс функций полезности по всем возможным историям взаимодействия. В версии, представленной в тексте, мы явно выделили некоторые зависимости, а также упростили обозначение возможных миров.
17. Нужно заметить, что набор функций полезности U должен быть таким, чтобы полезность можно было сравнивать и усреднять. В принципе, это непросто, кроме того, не всегда очевидно, как представлять различные этические теории в терминах количественно выраженной функции полезности. См., например: [MacAskill 2010].