смысле наши цели и желания всегда недостаточно конкретны {253}. Мы никогда не представляем себе всех возможных вариантов. Мы никогда не формулируем все нюансы, исключения и оговорки. Мы просто не способны перекрыть все пути для хака. Любая цель, которую мы укажем, обязательно будет неполной.
Это приемлемо в человеческих отношениях, потому что люди понимают контекст и обычно действуют добросовестно. Мы все социализированы и в процессе становления познаем, что значит здравый смысл в отношении людей и окружающего мира. Мы заполняем любые пробелы в нашем понимании контекстом и доброй волей.
Философ Эбби Эверетт Жак, в то время руководитель проекта MIT по этике ИИ, объяснил это так: «Если бы я попросил вас принести мне кофе, вы, вероятно, пошли бы к ближайшему кофейнику и наполнили чашку, а может быть, дошли бы до кофейни на углу. Вы бы не привезли мне грузовик с сырыми кофейными зернами. И не купили бы кофейную плантацию в Коста-Рике. Вы также не стали бы вырывать из рук чашку кофе у первого попавшегося человека. Холодный кофе недельной давности или грязную салфетку, пропитанную искомым напитком, вы бы тоже не принесли. Мне не нужно было бы все это уточнять в своей просьбе. Вы и так прекрасно понимаете, что значит "принести кофе"».
Точно так же, если я попрошу вас разработать технологию, которая при прикосновении превращает вещи в золото, вы не станете создавать ее такой, чтобы она морила меня голодом. Мне не нужно было бы указывать это, вы бы это просто знали.
Мы не можем полностью указать цели для ИИ, а ИИ не сможет полностью понять контекст. В своем выступлении на TED исследователь ИИ Стюарт Рассел пошутил о гипотетическом ИИ-помощнике {254}, который, для того чтобы оправдать опоздание своего хозяина на званый ужин, устраивает сбой в компьютерной системе самолета, в котором тот летит. Аудитория оценила шутку, но ведь на самом деле откуда компьютерной программе знать, что вмешательство в работу систем летящего самолета не является адекватным ответом на подобную просьбу? Возможно, она обучилась на данных отчетов о пассажирах, пытавшихся сделать нечто подобное {255}. (В 2017 г. в интернете ходила шутка. Джефф Безос: «Алекса, купи мне что-нибудь в Whole Foods». Алекса: «ОК, покупаю Whole Foods».)
В 2015 г. компания Volkswagen была уличена в мошенничестве с тестами на выбросы. Компания не подделывала их результаты; вместо этого она разработала для своих автомобилей бортовые компьютеры, которые бы обманывали контрольные устройства. Инженеры запрограммировали их таким образом, чтобы они определяли, когда автомобиль проходит тест на выбросы. Компьютер включал систему контроля выбросов на время теста и отключал ее по его окончании. На самом же деле автомобили Volkswagen, демонстрирующие превосходные ходовые качества, выбрасывали до 40 раз больше допустимого количества оксида азота, но только тогда, когда за этим не следило Агентство по охране окружающей среды США (EPA).
История Volkswagen не связана с искусственным интеллектом – обычные инженеры запрограммировали обычную компьютерную систему на обман, – но тем не менее она хорошо иллюстрирует проблему. Более десяти лет компании сходило с рук мошенничество только потому, что компьютерный код сложен и трудно поддается анализу. Непросто понять, что именно он делает, и точно так же непросто было понять, что делает автомобиль. До тех пор пока программисты хранят свой секрет, подобный хак, скорее всего, будет оставаться необнаруженным. Единственная причина, по которой сегодня мы знаем об уловке Volkswagen, заключается в том, что группа ученых из Университета Западной Вирджинии неожиданно проверила выбросы автомобилей на дорогах с помощью системы, отличной от системы EPA. Поскольку программное обеспечение было разработано для обхода системы EPA, ученым удалось провести измерение выбросов незаметно для бортового компьютера.
Если бы я попросил вас разработать программное обеспечение для управления двигателем автомобиля, чтобы обеспечить максимальную производительность и при этом пройти тесты на выбросы, вы бы не стали разрабатывать его, понимая, что это обман. Для ИИ это не является проблемой. Он не воспринимает абстрактную концепцию обмана на инстинктивном уровне. Он будет мыслить «нестандартно» просто потому, что не обладает представлением об ограничениях человеческих решений. Он также не понимает абстрактных этических концепций. Он не поймет, что решение Volkswagen нанесло вред другим людям, что оно подрывает сам замысел тестов на выбросы или что решение компании было незаконным, если только данные, на которые опирается ИИ, не включают законы, касающиеся выбросов. ИИ даже не поймет, что взламывает систему. И благодаря проблеме объяснимости мы, люди, тоже можем этого не понять.
Если ИИ-программисты не укажут, что система не должна менять свое поведение при тестировании, ИИ тоже сможет додуматься до такого обмана. Программисты будут довольны. Бухгалтеры будут в восторге. И никто, скорее всего, не поймает его с поличным. Теперь, когда скандал с Volkswagen подробно задокументирован, программисты могут четко поставить цель избежать конкретно этого хака. Однако рано или поздно возникнут новые непредвиденные действия ИИ, которые программисты не смогут предугадать. Урок джинна заключается в том, что так будет всегда.
58
Защита от хакеров с искусственным интеллектом
Очевидные хаки не единственная проблема. Если навигационная система вашего беспилотного автомобиля решает задачу поддержания высокой скорости за счет того, что автомобиль просто носится по кругу, программисты заметят такое поведение и соответствующим образом скорректируют цель ИИ. Но на дороге мы никогда не увидим подобного поведения. Наибольшее беспокойство вызывают менее очевидные взломы, которых мы даже не замечаем.
Многое было написано о рекомендательных системах {256} – первом поколении тонких хаков ИИ – и о том, как они подталкивают людей к поляризованному контенту. Они не были запрограммированы на это изначально. Такое свойство системы приобрели естественным образом, постоянно пробуя что-то, оценивая результаты, а затем модифицируя себя, чтобы действовать, повышая вовлеченность пользователей. Алгоритмы рекомендаций YouTube и Facebook научились предлагать пользователям более экстремальный контент, потому что он вызывает сильные эмоциональные реакции, и именно это заставляет людей проводить больше времени на платформе. Довольно простая автоматизированная система сама нашла этот хак. И большинство из нас в то время не осознавали, что происходит.
Аналогичным образом в 2015 г. ИИ научился играть в аркадную видеоигру 1970-х гг. Breakout. ИИ ничего не сообщали о правилах или стратегии игры. Ему просто дали управление и награждали за набор максимального количества очков. То, что он научился играть, неудивительно: все и так этого ожидали. Однако ИИ самостоятельно открыл и оптимизировал до не досягаемого людьми уровня тактику «туннелирования» сквозь кирпичную стену, чтобы отбивать мяч от ее обратной стороны.
Ничто из сказанного здесь не станет новостью для исследователей ИИ, и многие из них в настоящее время рассматривают способы защиты от взлома ради цели. Одним из решений является обучение ИИ контексту. Наряду с проблемой согласования целей исследователи рассматривают проблему согласования ценностей, чтобы создать ИИ, который лучше бы понимал человека. Решение этой проблемы можно представить как две крайности. С одной стороны, мы можем в форме прямых указаний закачать в ИИ наши ценности. В какой-то мере это можно сделать уже сегодня, но такой подход уязвим для всех описанных выше хаков. С другой стороны, мы можем создать ИИ, который изучит наши ценности, возможно наблюдая за людьми в действии или взяв в качестве входных данных человеческую историю, литературу, философию и т. д. Это проект на много лет вперед, и, вероятно, именно такой подход задаст ряд свойств общему ИИ. Большинство же современных исследований колеблется между этими двумя крайностями.
Несложно представить себе вопросы, которые возникнут, когда ИИ придет в соответствие с человеческими ценностями. Чьи ценности он должен будет отражать? Сомалийского мужчины? Сингапурской женщины? Или нечто среднее между ними, что бы это ни значило? Люди часто придерживаются противоречивых ценностей и бывают непоследовательны, пытаясь жить в соответствии с ними. Ценности отдельно взятого человека могут быть иррациональными, аморальными или основанными на ложной информации. История, литература и философия тоже полны иррациональности, безнравственности и ошибок. Люди в принципе далеки от собственных идеалов.