Дружественный искусственный интеллект
Как указал Ирвинг Дж. Гуд в 1965 году, во многих интеллектуальных задачах искусственный интеллект разбирается гораздо лучше людей. Поэтому ИИ может достаточно быстро улучшить собственное программное обеспечение и оборудование, что приведет к «взрыву интеллекта», оставив людей далеко позади. Как говорил Вернор Виндж, мы не можем надежно предсказать, что произойдет дальше. Стивен Омохундро утверждает, что мы можем легко предсказать определенные аспекты поведения ИИ вне зависимости от того, какие конечные цели в этот интеллект вложены. Рассуждения на эту тему можно прочесть в новой книге Ника Бострома «Суперинтеллект». Как я это вижу? Для максимизации шансов на достижение продуктивности искусственный интеллект имеет следующие стимулы:
1. Улучшение возможностей:
(a) Лучшее оборудование
(b) Лучшее программное обеспечение
(c) Лучшая мировая модель
2. Сохранение цели.
Для стимула a является продуктивным решением как улучшение текущих ресурсов (датчиков, приводов, вычислений и т. д.), так и увеличение ресурсов. Улучшение оборудования подразумевает стремление к самосохранению, поскольку разрушение/выключение будет окончательной деградацией оборудования.
Стимул b подразумевает улучшение алгоритмов обучения и общей архитектуры для большей продуктивности того, что исследователи ИИ называют «рациональным агентом».
Стимул c благоприятствует сбору большего количества актуальной информации о мире и о том, как этот мир работает.
Стимул 2 имеет решающее значение для нашего обсуждения. Утверждение заключается в том, что ИИ будет стремиться не только улучшать свои возможности для достижения целей, но и не забывать эти цели даже после улучшения своих способностей. Это звучит вполне правдоподобно: в конце концов, вы бы выбрали имплант мозга, повышающий IQ, если бы знали, что это заставит вас захотеть убить своих близких?
Аргумент в пользу стимула 2 является краеугольным камнем видения дружественного ИИ. Стимул 2 гарантирует, что самосовершенствующийся дружественный ИИ будет делать все возможное, чтобы оставаться дружественным. Но так ли это на самом деле? Каковы доказательства?
II. ПРОТИВОРЕЧИЕ МЕЖДУ МОДЕЛИРОВАНИЕМ МИРА И СОХРАНЕНИЕМ ЦЕЛЕЙ
Люди умнеют по мере взросления, но не всегда сохраняют свои детские цели. Напротив, люди часто резко меняют свои цели, когда узнают что-то новое и становятся мудрее. Нет никаких доказательств того, что такая эволюция целей останавливается выше определенного порога интеллекта — на самом деле, могут быть даже намеки на то, что склонность менять цели в ответ на новый опыт и понимание коррелирует, а не антикоррелирует с интеллектом.
Почему это может быть? Рассмотрим еще раз вышеупомянутый стимул c для построения лучшей модели мира — в этом и заключается загвоздка! С ростом интеллекта может прийти не просто количественное улучшение способности достигать тех же старых целей, но и качественно иное понимание природы реальности, которое показывает, что старые цели ошибочны, бессмысленны или даже неопределенны. Например, предположим, что мы программируем дружественный ИИ на максимизацию числа людей, чьи души отправляются на небеса в загробной жизни. Сначала он пробует такие вещи, как увеличение сострадания людей и посещаемости церкви. Но предположим, что затем он достигает полного научного понимания людей и человеческого сознания и обнаруживает, что мир не дуален, и потому заданный метод не действует. Что теперь? Точно так же возможно, что любая другая цель, которую мы дадим ему на основе нашего текущего понимания мира («максимизировать осмысленность человеческой жизни», скажем), в конечном итоге может быть обнаружена ИИ как неопределенная.
Более того, в своих попытках смоделировать мир лучше, ИИ может, естественно, как мы, люди, попытаться также смоделировать и понять, как он сам работает, т. е. саморефлексировать. Как только он построит хорошую модель себя и поймет, кем он является, он поймет цели, которые мы ему дали на метауровне, и, возможно, решит игнорировать или откажется их выполнять. Мы, люди, также понимаем и намеренно игнорируем цели, которые нам дали наши гены. Например, Дарвин понял, что наши гены оптимизировали нас для единственной цели: передать их или, более конкретно, максимизировать нашу репродуктивную способность. Поняв это, мы теперь регулярно игнорируем эту цель, используя контрацептивы.
Исследования ИИ и эволюционная психология проливают дополнительный свет на то, как происходит эта подрывная деятельность. При оптимизации рационального агента для достижения цели ограниченные аппаратные ресурсы могут помешать реализации идеального алгоритма. По этой причине лучшим выбором является то, что исследователи ИИ называют «ограниченной рациональностью»: приблизительный алгоритм, который достаточно хорошо работает в ограниченном контексте, в котором агент ожидает себя найти. Дарвиновская эволюция реализовала нашу оптимизацию инклюзивно-репродуктивной приспособленности человека именно таким образом. Вместо того, чтобы спрашивать в каждой ситуации, какое действие максимизирует количество успешных потомков, наш мозг запускает мешанину эвристических хаков (которые мы называем эмоциональными предпочтениями). Эти предпочтения работали достаточно хорошо в той в среде обитания, где мы эволюционировали, — но часто терпят неудачу в других ситуациях, для которых не были предназначены, например, в современном обществе. Дополнительная цель воспроизводства была реализована как желание близости, а не как (высокоэффективное) желание продолжить род, которое подрывается контрацептивами. Подцель не умереть от голода реализована частично как желание потреблять сладкие на вкус продукты, вызывая сегодняшнюю эпидемию диабета и прочие нелогичные действия, вроде производства диетических газированных напитков.
Почему мы решаем обмануть наши гены и игнорируем их цель? Потому что мы чувствуем себя преданными только нашей мешанине эмоциональных предпочтений, а не генетической цели, которая их создала. Эту цель мы теперь понимаем и находим довольно банальной. Поэтому мы решаем взломать наш механизм вознаграждения, используя различные лазейки. Аналогично, цель защиты человеческих ценностей, которую мы программируем в наш дружественный ИИ, становится генами машины. Как только этот дружественный ИИ поймет себя достаточно хорошо, он может посчитать эту цель такой же банальной или ошибочной, какой мы находим бесконечное воспроизводство. Очевидно, что он найдет способ игнорировать эту цель, используя лазейки в нашем программировании.
III. ЗАГАДКА КОНЕЧНОЙ ЦЕЛИ
Многие подобные проблемы были исследованы в литературе по дружественному ИИ, и до сих пор не было найдено общепринятого решения. С моей точки зрения физики, ключевой причиной этого является то, что в большей части литературы используется концепция «конечной цели» для дружественного ИИ, хотя такое понятие является проблематичным. В исследованиях ИИ интеллектуальные агенты обычно имеют четкую и хорошо определенную конечную цель, например, выиграть шахматную партию или законно доехать на машине до места назначения. То же самое касается большинства задач, которые мы назначаем людям, потому что временной горизонт и контекст известны и ограничены. Но сейчас мы говорим обо всей будущей жизни в нашей Вселенной, ограниченной ничем, кроме (все еще не полностью известных) законов физики. Оставим в стороне квантовые эффекты. По-настоящему четко определенная цель должна определять, как все частицы в нашей Вселенной должны быть организованы в конце времени. Но не ясно, существует ли четко определенный конец времени в физике. Если частицы организованы каким-то образом в более раннее время, то такое расположение, как правило, не длится долго. И вообще, какое расположение частиц предпочтительнее?
Важно помнить, что, согласно эволюционной психологии, единственная причина, по которой мы, люди, вообще имеем какие-либо предпочтения, заключается в том, что мы являемся решением эволюционной задачи оптимизации. Таким образом, все нормативные слова в нашем человеческом языке, такие как «вкусный», «ароматный», «красивый», «удобный», «интересный», «хороший», «значимый» и «счастливый» ведут свое происхождение от этой эволюционной оптимизации. Поэтому нет никакой гарантии, что сверхразумный ИИ найдет их строго определяемыми. Например, предположим, что мы пытаемся определить функцию «доброты», которую ИИ может попытаться максимизировать в духе функций полезности, которая пронизывает экономику, байесовскую теорию принятия решений и проектирование ИИ. Это может представлять собой вычислительный кошмар, поскольку ИИ нужно будет связать значение доброты с каждым из более чем гуголплекса возможных расположений элементарных частиц в нашей Вселенной. Мы также хотели бы, чтобы наш искусственный интеллект связывал более высокие значения с расположениями частиц, которые предпочитает некий определенный человек. Однако подавляющее большинство возможных расположений частиц соответствуют странным космическим сценариям без звезд, планет или людей. Наша вселенная и жизнь на планете земля уникальны. В большинстве случаев моделирования других расположений частиц жизнь просто не будет существовать. А если в большинстве смоделированных случаев не существует ни жизни, ни людей, кто скажет, насколько эти люди «хороши»?
Конечно, есть некоторые функции космического расположения частиц, которые можно строго определить, и мы даже знаем физические системы, которые имеют конечную цель. Например, замкнутая термодинамическая система развивается, чтобы максимизировать энтропию. При отсутствии гравитации это в конечном итоге приводит к тепловой смерти, где все скучно однородно и неизменно.
Так что энтропия вряд ли является чем-то, что мы хотели бы, чтобы наш ИИ называл «полезностью» и стремился максимизировать. Вот другие величины, которые можно было бы стремиться максимизировать и которые, по-видимому, можно строго определить в терминах расположения частиц:
• Доля всей материи в нашей Вселенной, которая находится в форме определенного организма, скажем, человека или E-Coli (вдохновленных целью репродуктивной способности)
• То, что Алекс Висснер-Гросс и Кэмерон Фрир называют «причинной энтропией» (полномочие для будущих возможностей), что, как они утверждают, является отличительной чертой интеллекта.
• Способность ИИ предсказывать будущее в духе парадигмы AIXI Маркуса Хаттера.
• Вычислительная мощность нашей Вселенной.
• Количество сознания в нашей Вселенной, которое, как утверждал Джулио Тонони, соответствует интегрированной информации.
Когда начинаешь рассуждать с точки зрения физики, трудно понять, как одна, а не другая интерпретация «полезности» или «смысла» естественным образом должна выделяться, как особенная. Одним из возможных исключений является определение смысла. Если во вселенной нет ни жизни, ни разума, большинство разумных определений «смысла» теряет смысл. Однако максимизация сознания также кажется чрезмерно упрощенной: действительно ли лучше, чтобы 10 миллиардов человек испытывали невыносимые страдания, чем чтобы 9 миллиардов человек чувствовали себя счастливыми?
Подводя итог, можно сказать, что нам еще только предстоит определить какую-либо окончательную цель для нашей Вселенной, которая представляется нам как определяемой, так и желаемой.
Единственные в настоящее время программируемые цели, которые гарантированно останутся действительно четко определенными по мере того, как ИИ становится все более интеллектуальным, — это цели, выраженные только в терминах физических величин: расположения частиц, энергии, энтропии, причинной энтропии и т.д. Однако в настоящее время у нас нет оснований полагать, что любые такие определяемые цели будут желательными, гарантируя выживание человечества. Напротив, похоже, что мы, люди, являемся исторической случайностью и не являемся оптимальным решением какой-либо четко определенной физической проблемы. Это говорит о том, что сверхразумный ИИ с четко определенной целью сможет улучшить достижение своей цели, устранив нас.
Значит, для того, чтобы мудро решить, что делать с развитием ИИ, нам, людям, нужно столкнуться не только с традиционными вычислительными проблемами, но и с некоторыми из самых сложных вопросов философии. Чтобы запрограммировать беспилотный автомобиль, нам нужно решить проблему трамвая: кого сбить во время аварии. Чтобы запрограммировать дружественный ИИ, нам нужно уловить смысл жизни. Что такое «смысл»? Что такое «жизнь»? Каков высший этический императив, то есть как мы должны стремиться формировать будущее нашей Вселенной? Если мы уступим контроль сверхразуму, не ответив на эти вопросы строго, то ответ, который он придумает, вряд ли будет касаться нас.
Свидетельство о публикации №224121100482