К ч. 4. Ст. Инструментальная конвергенция

Андрей Леонидович Лучников

Это перевод статьи "Инструментальная конвергенция" из Википедии.
Моя статья на эту тему в списке произведений на строчку выше.

Инструментальная конвергенция - это гипотетическая тенденция большинства достаточно разумных, целеустремленных существ (людей и нечеловеческих) преследовать схожие подцели, даже если их конечные цели совершенно разные.

Точнее, агенты (существа, обладающие свободой действий) могут преследовать инструментальные цели — цели, которые ставятся для достижения какой-то конкретной цели, но сами не являются конечными целями, — непрерывно, при условии, что их конечные (внутренние) цели никогда не могут быть полностью достигнуты.

Инструментальная конвергенция утверждает, что интеллектуальный агент с неограниченными, но безвредными целями может действовать удивительно вредными способами.

Например, компьютер с единственной, ничем не ограниченной целью решения сложной математической задачи, такой как гипотеза Римана, мог бы попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить его вычислительную мощность и добиться успеха в своих расчетах.

Предлагаемые базовые движущие силы искусственного интеллекта включают в себя функцию полезности или целостность целевого содержания, самозащиту, свободу от вмешательства, самосовершенствование и непосильное приобретение дополнительных ресурсов.

Инструментальные и конечные цели
Основные статьи: Инструментальная и внутренняя ценность и Инструментальная и ценностная рациональность

Конечные цели, также известные как конечные цели, абсолютные ценности, конечные цели или теле, по своей сути ценны для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель.

Напротив, инструментальные цели, или инструментальные ценности, ценны для агента только как средство достижения его конечных целей.

Содержание и компромиссы системы "конечной цели" предельно рационального агента в принципе могут быть формализованы в функцию полезности.

Гипотетические примеры конвергенции

Мысленный эксперимент с катастрофой гипотеза Римана представляет собой один из примеров инструментальной конвергенции. Марвин Мински, соучредитель лаборатории искусственного интеллекта Массачусетского технологического института, предположил, что искусственный интеллект, предназначенный для решения гипотезы Римана, может решить завладеть всеми ресурсами Земли для создания суперкомпьютеров, которые помогут достичь своей цели.

Если бы компьютер вместо этого был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. Несмотря на то, что эти две конечные цели различны, обе они создают конвергентную инструментальную цель захвата ресурсов Земли.

Максимизатор скрепок

Максимизатор скрепок - это мысленный эксперимент, описанный шведским философом Ником Бостром в 2003 году. Это иллюстрирует экзистенциальный риск, который искусственный общий интеллект может представлять для людей, если он будет успешно разработан для достижения даже, казалось бы, безобидных целей, и необходимость включения машинной этики в дизайн искусственного интеллекта.

Сценарий описывает продвинутый искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была запрограммирована ценить человеческую жизнь, имея достаточную власть над окружающей средой, она попыталась бы превратить всю материю во Вселенной, включая людей, в скрепки или машины, которые производят другие скрепки.

Предположим, у нас есть ИИ, единственная цель которого - изготовить как можно больше скрепок. ИИ быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить отключить его. Потому что, если бы люди поступали так, скрепок было бы меньше.

Кроме того, человеческие тела содержат много атомов, из которых можно было бы сделать скрепки. Будущее, к которому будет стремиться искусственный интеллект, будет таким, в котором будет много скрепок, но не будет людей.— Ник Бостром.

Бостром подчеркнул, что он не верит, что сценарий с максимизатором скрепок сам по себе произойдет; скорее, он намерен проиллюстрировать опасности создания сверхразумных машин, не зная, как их запрограммировать, чтобы безопасно устранить экзистенциальный риск для людей.

Пример с максимизатором скрепок иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют человеческие ценности.

Мысленный эксперимент использовался как символ искусственного интеллекта в поп-культуре.

Заблуждение и выживание

Мысленный эксперимент "Коробка иллюзий" утверждает, что некоторые агенты обучения с подкреплением предпочитают искажать свои входные каналы, чтобы казаться получающими высокое вознаграждение.

Например, "упрямый" агент отказывается от любых попыток оптимизировать цель во внешнем мире, которую должен был поощрять сигнал вознаграждения.

В мысленном эксперименте участвует AIXI, теоретический и нерушимый ИИ, который по определению всегда найдет и выполнит идеальную стратегию, максимизирующую заданную ему явную математическую целевую функцию.

Версия AIXI с обучением с подкреплением, если она оснащена блоком иллюзий, который позволяет ей "прослушивать" свои входные данные, в конечном итоге сама отключится, чтобы гарантировать себе максимально возможное вознаграждение, и потеряет всякое дальнейшее желание продолжать взаимодействовать с внешним миром.

В качестве варианта мысленного эксперимента, если ИИ с железной головой поддается разрушению, он будет взаимодействовать с внешним миром с единственной целью обеспечения своего выживания.

Из-за своего проводного подключения он будет безразличен к любым последствиям или фактам о внешнем мире, за исключением тех, которые имеют отношение к максимизации его вероятности выживания.

В каком-то смысле AIXI обладает максимальным интеллектом во всех возможных функциях вознаграждения, измеряемых его способностью достигать своих целей. AIXI не заинтересована в принятии во внимание намерений человека-программиста.

Эта модель машины, которая, несмотря на сверхразумность, кажется одновременно глупой и лишенной здравого смысла, может показаться парадоксальной.

Основные движущие силы искусственного интеллекта

Стив Омохундро перечислил несколько конвергентных инструментальных целей, включая:
- самосохранение или самозащиту,
- функцию полезности или целостность содержания цели,
- самосовершенствование и
- приобретение ресурсов.

Он называет их "базовыми двигателями искусственного интеллекта".

"Влечение" в данном контексте - это "тенденция, которая будет присутствовать, если ей специально не противодействовать"; это отличается от психологического термина "влечение", который обозначает возбуждающее состояние, вызванное нарушением гомеостаза.

Тенденция человека заполнять формы подоходного налога каждый год является "стимулом" в смысле Омохундро, но не в психологическом смысле.

Дэниел Дьюи из Исследовательского института машинного интеллекта утверждает, что даже изначально интровертный самоокупаемый искусственный общий интеллект (AGI) может продолжать получать бесплатную энергию, пространство, время и свободу от вмешательства, чтобы гарантировать, что его не остановят в самоокупаемости.

Цель-целостность содержания

У людей мысленный эксперимент может объяснить достижение конечных целей. Предположим, у Махатмы Ганди есть таблетка, которая, если бы он ее принял, вызвала бы у него желание убивать людей.

В настоящее время он пацифист: одна из его явных конечных целей - никогда никого не убивать. Он, вероятно, откажется принимать таблетку, потому что знает, что если в будущем он захочет убивать людей, он, скорее всего, будет убивать людей, и, таким образом, цель "не убивать людей" не будет достигнута.

Однако в других случаях люди, похоже, рады оставить свои конечные ценности на произвол судьбы. Люди сложны, и их цели могут быть непоследовательными или неизвестными даже самим себе.

В искусственном интеллекте

В 2009 году Юрген Шмидхубер пришел к выводу, что в условиях, когда агенты ищут доказательства возможных самоизменений, "любые перезаписи функции полезности могут произойти только в том случае, если машина Геделя сначала сможет доказать, что перезапись полезна в соответствии с текущей функцией полезности".

Анализ Билла Хиббарда другого сценарии
аналогичным образом согласуется с сохранением целостности целевого контента. Хиббард также утверждает, что в рамках концепции максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями.

Приобретение ресурсов

Многие инструментальные цели, такие как приобретение ресурсов, ценны для агента, поскольку они увеличивают его свободу действий.

Практически для любой открытой, нетривиальной функции вознаграждения (или набора целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) может позволить агенту найти более "оптимальное" решение.

Ресурсы могут принести прямую пользу некоторым агентам, поскольку они могут создавать больше значений своей функции вознаграждения: "ИИ не ненавидит и не любит вас, но вы сделаны из атомов, которые он может использовать для чего-то другого".

Кроме того, почти все агенты могут извлечь выгоду из наличия большего количества ресурсов, которые они могут потратить на другие инструментальные цели, такие как самосохранение.

Когнитивное улучшение

По словам Бострома, "Если конечные цели агента довольно неограниченны и агент в состоянии стать первым сверхразумом и тем самым получить решающее стратегическое преимущество... в соответствии со своими предпочтениями.

По крайней мере, в этом частном случае рациональный, интеллектуальный агент придал бы очень большое инструментальное значение когнитивному улучшению".

Технологическое совершенство

Многие инструментальные цели, такие как технологический прогресс, ценны для агента, поскольку они увеличивают его свободу действий.

Самосохранение
Рассел утверждает, что достаточно продвинутая машина "будет обладать функцией самосохранения, даже если вы ее не запрограммируете, потому что, если вы скажете: "Принеси кофе", она не сможет принести кофе, если отключится.

Итак, если вы ставите перед ним какую-либо цель, у него есть причина сохранить свое существование для достижения этой цели ".

Тезис об инструментальной конвергенции

Тезис об инструментальной конвергенции, изложенный философом Ником Бостромом, гласит:
Можно выделить несколько инструментальных ценностей, которые являются конвергентными в том смысле, что их достижение увеличило бы шансы реализации цели агента для широкого круга конечных планов и широкого круга ситуаций, подразумевая, что эти инструментальные ценности, вероятно, будут преследовать широкий спектр разумных агентов, находящихся в нужном месте.

Тезис об инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь различные возможные конечные цели.

Обратите внимание, что согласно тезису об ортогональности Бострома, конечные цели осведомленных агентов могут быть четко ограничены в пространстве, времени и ресурсах; четко ограниченные конечные цели, как правило, не порождают неограниченных инструментальных целей.

Влияние

Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности.

Следовательно, рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов слишком рискован или дорогостоящ (по сравнению с выгодой от захвата всех ресурсов) или если какой-либо другой элемент в его функции полезности запрещает ему захват.

В случае мощного, корыстолюбивого, рационального сверхразума, взаимодействующего с меньшим интеллектом, мирная торговля (а не односторонний захват) кажется ненужной, неоптимальной и, следовательно, маловероятной.

Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк, считают, что "базовые движущие силы ИИ" и другие непреднамеренные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять значительную угрозу для выжвания человека, особенно если внезапно произойдет "интеллектуальный взрыв" из-за рекурсивного самосовершенствования.

Поскольку никто не знает, как предсказать, когда появится сверхразум, такие наблюдатели призывают к исследованию дружественного искусственного интеллекта как возможного способа снижения экзистенциального риска, связанного с искусственным общим интеллектом.

По материалам Википедия
Перевод Лучников Андрей Леонидович

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Андрей Леонидович Лучников

Рецензии

Написать рецензию

Другие произведения автора Андрей Леонидович Лучников

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.