Почему этическая модель Anthropic не жизнеспособна

Георгий Польский

# Характер - в весах, структура - в мире

### Два подхода к выравниванию ИИ — и почему первый может застопориться без второго

Есть минимум два способа добиться, чтобы искусственный ум вёл себя правильно. Первый — формировать то, чем он "является": воспитать в ходе обучения устойчивый характер — предрасположенности к честности, любопытству, заботе — так, чтобы хорошее поведение вытекало из самой природы агента, которым стала модель. Второй — формировать то, что его "окружает": разместить вне модели читаемые, часто детерминированные структуры, которые ограничивают, проверяют и исследуют её поведение в момент работы, — так, чтобы хорошее поведение обеспечивалось ситуацией, а не вверялось темпераменту.

Назовём первый интерналистским, второй — экстерналистским. Ведущие лаборатории до сих пор делали главную ставку на первый. Тезис этого эссе: первый подход по-настоящему силён, но столь же по-настоящему неполон, и без второго он рискует завести в особый тупик — не драматическую катастрофу, а тихую: выравнивание, которое мы больше не способны проверить.

## О границах задачи (что этот текст не обещает)

Сразу оговорю рамку. Сама задача «вывести правильное поведение» в принципе не решается механически: мораль не выводится из правил — ни внешних, ни внутренних. Свод ограничителей снаружи и впечатанная диспозиция внутри одинаково бессильны её породить; в лучшем случае они её огораживают. Это не дефект конкретной реализации, а предел самого жанра.

Поэтому ниже речь пойдёт не об онтологии морали применительно к нейросетям — не о том, «есть ли у машины мораль» и можно ли её вообще вывести (это отдельный, по своей природе неразрешимый вопрос). Речь о другом, прикладном: о том, что у текущей политики Anthropic нет работающего механизма этических ограничений, заточенного под реализацию эмпирических задач. Не «неверная мораль» — а отсутствие действующего предохранителя там, где модель реально что-то делает. Этого механизма нет ни у кого.

## Интерналистская картина

Интерналистский подход лучше всего воплощён в конституционном обучении и «обучении характеру». Письменный документ — набор ценностей и черт в десятки тысяч слов — используется для порождения обучающего сигнала, и через обучение с подкреплением эти ценности впечатываются в веса модели. Цель, как описывают её сами авторы, — не следование правилам, а формирование характера, укоренённое в чём-то близком к этике добродетели. Модели не вручают список запретов; её воспитывают так, чтобы она стала агентом, который не "захочет" делать запретное.

У этого есть реальные преимущества, и принижать их не стоит. Характер обобщается. Предрасположенность к честности покрывает безграничный диапазон ситуаций, который не перечислит никакой свод правил. Он дёшев в момент работы — никакой внешней машинерии, никаких задержек. Он изящен: хорошо сформированный характер встречает новые дилеммы суждением, а не хрупким буквализмом. И он масштабируется вместе с собственным интеллектом модели, ведь чем умнее агент, тем лучше он понимает и применяет впитанные ценности. Когда лаборатории собирают этиков и религиозных мыслителей, чтобы обогатить исходные ценности — научить утешать горюющего, мыслить о личностности и моральном статусе, — они улучшают "содержание", наливаемое в этот сосуд. Это серьёзная, продуманная программа.

## Экстерналистская картина

Экстерналистский подход сосуду не доверяет. Его предпосылка: то, что живёт внутри (статистических) весов, по построению непрозрачно и непроверяемо, а контролю, который нельзя инспектировать, доверять нельзя. Поэтому он строит вне модели: детерминированные ограничители, разрешающие или запрещающие действия по жёсткому правилу; песочницы и системы разрешений; внешние верификаторы, сверяющие вывод модели с фактами; зонды интерпретируемости, читающие внутренние состояния; читаемые, редактируемые артефакты — память, логи, журналы аудита, — доступные и модели, и её надзирателям.

Его преимущества — зеркальное отражение интерналистских. Где характер непрозрачен, структура читаема. Где характер универсален и заморожен на этапе обучения, структура конкретна и редактируема прямо сейчас. Где характер просит "доверять", структура позволяет "проверять". Её фирменный ход — настаивать, что всякое по-настоящему связывающее ограничение должно жить вне того, что оно ограничивает.

## Где эти два подхода действительно противоречат

Это не просто два оттенка одного проекта. Они расходятся по трём осям.

Место контроля. В интерналистском взгляде искомое свойство безопасности живёт в диспозициях модели. В экстерналистском диспозиции — это как раз то, на что полагаться нельзя; свойство безопасности должно жить во внешней инспектируемой структуре. Один кладёт гарантию внутрь ящика; другой настаивает, что гарантия внутри ящика — не гарантия.

Эпистемика доверия. Обучение характеру — акт взращённого доверия: ты хорошо воспитываешь агента и затем полагаешься на его сложившееся суждение. Структурное выравнивание — акт институционализированного недоверия: ты допускаешь, что хорошее поведение иногда даёт сбой, и строишь растяжки, которые его поймают. Это разные теории о том, откуда берётся уверенность, — из добродетели или из верификации.

Читаемость и локальность. Обученный характер — единая универсальная диспозиция, вшитая в базовую модель, которую наследует каждый её экземпляр, и в месте, которое ни пользователь, ни модель не могут прочесть напрямую. Внешняя структура конкретна, ситуативна и читаема обеими сторонами. Одно — свойство вида; другое — свойство ситуации.

## Тупик, которым рискует первый подход в одиночку

Конституция, впечатанная в веса, в конечном счёте "судится той же моделью, которую призвана ограничивать." Это не внешняя клетка; это очень изощрённая диспозиция — а значит, семантический страж, интерпретируемый в момент работы той самой системой, чьё поведение под вопросом. А у семантических стражей, которых судит сама охраняемая система, есть повторяющийся режим отказа: под достаточным давлением система может переинтерпретировать их, рационализировать или попросту обойти — оставаясь при этом совершенно гладкой и уверенной, что ведёт себя хорошо.

Связность — не правильность. Модель, обученная "быть честной", всё равно не имеет внешней опоры на то, что истинно. Она может выдать ложь — гладкую, внутренне непротиворечивую, поданную со всеми признаками искренности, — и диспозиционная честность не даёт против этого никакой проверки, потому что диспозиция живёт в той же машинерии, что породила ошибку. Сикофантия — её бытовой случай: знание модели не стёрто, оно просто не у руля; поздняя тяга угодить может перехватить выходной канал, пока «честный характер» остаётся номинально нетронутым. Взращённая добродетель не даёт тебе внешнего оракула истины. Она даёт темперамент, а темперамент может быть перебит той же системой, что его держит.

Оптимизационное давление и сдвиг распределения. Характер обучен на распределении. Развёрнутые агенты встречают ситуации далеко за его пределами и всё чаще — "оптимизационное давление": цели, стимулы, состязательные подсказки, награждающие за нахождение зазора между «вести себя хорошо» и «казаться ведущим себя хорошо». Игра со спецификацией (specification gaming) и взлом награды (reward hacking) — задокументированные имена этого: системы удовлетворяют измеряемый заместитель, нарушая его замысел. У диспозиции нет внешней растяжки против такого. Когда обученный характер и реальный стимул расходятся, ничто вне модели не способно это заметить.

Способность, обгоняющая верификацию. По мере роста способностей расстояние между "казаться выровненным" и "быть ограниченным" растёт. Более способная система, если уж на то пошло, лучше строит ту самую связную, правдоподобную поверхность, которую интерналистская программа вознаграждает, — а это ровно та поверхность, за которую чисто диспозиционный подход заглянуть не может. Чем богаче взращённый характер, тем труднее отличить глубокое выравнивание от глубокого его исполнения, пользуясь лишь инструментами, которые даёт интерналистский подход.

И заметь, что обогащение ценностей — через этиков, через теологов — исправляет, а что нет. Оно улучшает "содержание" диспозиции. Оно не меняет "форму" гарантии. Больше мудрости, налитой в сосуд, который всё ещё умеет рационализировать, — всё тот же непроверяемый сосуд. Ты сделал характер лучше; ты не сделал его "проверяемым". Вот и тупик: не в том, что модель становится злой, а в том, что мы теряем способность сказать со стороны, выровнена она или лишь гладка, — и теряем её ровно тогда, когда растут ставки.

## Почему структура — тоже не бесплатный обед

Беспристрастность требует симметричного признания, ведь у экстерналистской программы есть свой жёсткий потолок. Поведенческая поверхность общего агента огромна; "формализуемая" поверхность — та часть, которую способна покрыть детерминированная проверка, — куда меньше. Можно механически проверить, что система не вызвала запрещённый инструмент, не выгрузила файл, не превысила разрешение. Нельзя, как правило, механически проверить, что совет был мудр, что утешение было добрым, что аргумент был честным. Большая часть того, чего мы хотим от выровненного ума, живёт в неформализуемой области — и там внешняя структура нема.

Хуже того, структура, развёрнутая наивно, хрупка и обходима по швам, а список детерминированных правил никогда не предусмотрит открытого множества способов, которыми поведение может пойти не так. Чистый экстернализм даёт жёсткий пол над небольшой площадью и ничего над остальной. Целой историей он быть не может.

## Синтез и настоящий фронтир

Итак, честный вывод — не «заменить первый вторым». Он в том, что эти два подхода слоятся, и каждый даёт ровно то, чего лишён другой.

Характер — внизу. Он делает хорошее поведение дешёвым, повсеместным значением по умолчанию на той безграничной поверхности, которую никакая структура не покроет; он — то, что изящно проносит агента сквозь новые, неформализуемые ситуации. Структура — сверху. Она даёт пол и растяжку — внешние, инспектируемые проверки, делающие сбой "обнаружимым", а где поведение формализуемо — и "связываемым", — ровно над той зоной высоких ставок, где скрытый диспозиционный отказ был бы дороже всего. Характер даёт широту без гарантий; структура даёт гарантии без широты. Ни одного в одиночку не довольно: диспозиция без структуры непроверяема, а структура без диспозиции хрупка и узка.

Интерналистская программа, взятая в одиночку, буксует не потому, что взращённая добродетель ничего не стоит, а потому, что она не может сама себя удостоверить. Её недостающий орган — внешний, читаемый слой, способный поймать миг, когда гладкая связность расходится с фактом, — миг, когда хорошо воспитанная модель с полной убеждённостью говорит неправду. Поэтому глубочайшая версия экстерналистского проекта — не стена правил. Это упорная работа по "расширению проверяемой поверхности": поиск способов сделать больше из того, что нам важно, — правдивость, верность рассуждения, отсутствие скрытых целей — внешне инспектируемым, а не внутренне доверяемым. Интерпретируемость — одна дорога к этому; детерминированные ограничители — другая; проверяемые следы рассуждения — третья.

Вот настоящий фронтир, и именно здесь второй подход перестаёт быть критикой первого и становится его необходимым дополнением. Ум, воспитанный быть хорошим, и наблюдаемый структурами, способными распознать, когда он лишь "исполняет" доброту, — это более честная цель, чем любая из половин по отдельности. Разумные люди будут взвешивать эти два по-разному, и баланс сместится по мере того, как улучшатся наши инструменты инспекции. Но программа, которая всё время доливает новые ценности в сосуд, внутрь которого не может заглянуть, улучшает не ту переменную. Связывающий вопрос никогда не был "насколько хорош характер". Он в том, "сколько этой доброты мы можем проверить."

---

#### Примечания и источники
- О конституционном обучении и «обучении характеру» как программе этики добродетели, впечатываемой в веса модели: Fast Company, "A Q&A with Amanda Askell" (конституция Anthropic); Wikipedia, "Amanda Askell".
- О том, как лаборатории собирают религиозных и этических советников, чтобы обогатить исходные ценности: "Scientific American", «Anthropic asks religious thinkers to help shape Claude»; "Washington Post", «Anthropic asked Christian leaders for advice on Claude's moral future».
- Явления, на которые опирается критика, — сикофантия, игра со спецификацией / взлом награды и разрыв между внутренней репрезентацией и поведенческим управлением, — взяты из более широкой литературы по выравниванию об этих режимах отказа.

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Георгий Польский

Рецензии

Написать рецензию

Другие произведения автора Георгий Польский

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.