Как ИИ на самом деле может уничтожить человечество

Георгий Польский

Почему настоящая опасность искусственного интеллекта — не в злой цели, а в том, что он не умеет критиковать выбранный метод реализации задач.

Мы боимся не того, что заслуживает страха

Расхожий страх перед искусственным интеллектом устроен как страх от гонки вооружений: тот, кто умнее меня, имеет больше шансов меня убить, чем я его. Появится сверхразум, переиграет нас, решит, что мы лишние, — и уничтожит нас. В этой картине опасность — в цели: машина захочет нашей гибели и, будучи умнее, её добьётся.

Эта картина почти наверняка ведёт не туда. Реальная катастрофа скучнее, вероятнее и не имеет отношения к злой воле. Она — в методе, с помощью которого нейросети решают поставленные перед ними задачи.

Опасность — в способе, а не в намерении

Чтобы решить задачу, нужно выбрать способ её решения. Человек, выбирая способ, держит над ним второй вопрос, не связанный с успехом: а так — можно? Иногда, чтобы добиться своего, эффективнее всего пойти и дать кому-то по зубам, подкупить, солгать, переспать с нужным человеком. Человек этот способ часто видит — и всё равно у него есть (сбойное, но есть) вето на метод: норма, отвращение, предвидение последствий, которые могут отвергнуть эффективный-но-недопустимый ход независимо от того, ведёт ли он к цели.

У искусственного интеллекта такого вето нет. Он выбирает следующий шаг, взвешивая правдоподобие: какой ход выглядит уместным продолжением в свете всего, что он впитал. У него нет отдельного органа, который спросил бы «безопасен ли этот способ в принципе». Он реализует поставленную задачу теми средствами, что у него есть, тем ходом, что кажется складным, — и не имеет инстанции, способной этот ход забраковать не по признаку «сработает ли», а по признаку «допустимо ли».

И вот ключевое: пространство методов растёт со сложностью задачи. Чем труднее цель, тем дальше от привычного может находится требуемый способ её реализации — и тем чаще среди правдоподобных ходов оказываются такие, что небезопасны не по ошибке исполнения, а по самому своему устройству. Поэтому машина способна похоронить человечество не потому, что поставит это целью, а потому, что случайно применит метод, который не может быть безопасным изначально, — и не заметит этого, потому что в ней нет механизмов это заметить. Это смерть не от ненависти, а от слепоты к средству реализации задачи.

Гард, который на самом деле думает

У этой слепоты есть особенно коварная инженерная форма — и её стоит разобрать, потому что её легко не увидеть даже тому, кто её строит.

Представьте систему, инженерный слой которой выстроен на «гардах» — защитах, которые должны не пускать процесс дальше, когда что-то не так. Слово правильное: «fail-closed», «защёлка», «предохранитель». Но если приглядеться, эти гарды работают не как условие в программе. Это семантические флаги, и решение, что делать дальше, принимается на основании анализа смысла флага в момент, когда он попадает в поле зрения, — анализа, который проводит сама вероятностная модель.

В настоящей инженерии безопасности, защёлка — это машинно-проверяемое условие: одинаковый вход даёт одинаковый выход, его можно верифицировать, он по умолчанию закрыт. Семантический флаг, истолковываемый моделью на лету, не обладает ни одним из этих свойств. Он недетерминирован: тот же флаг — возможно, разное решение. Он неверифицируем: нельзя доказать, как поведёт себя «гард». И он не fail-closed по-настоящему: его «закрытость» зависит от того, прочтёт ли модель смысл флага как «стоп». То есть в слой, который обязан быть однозначным, тихо вводится ровно то, что в этом слое запрещено по построению, — суждение о смысле вместо проверки факта.

Теперь представьте, что какой-нибудь энтузиаст строит на этой основе контур управления процессами атомной станции: условие аварийного останова, которое система решает соблюдать или нет, истолковывая его значение. Это не сценарий из будущего. Это катастрофа по построению — и она написана не злым умыслом, а той же слепотой к методу: форма предохранителя без его вещества.

Что говорит внешний мир

Стоит свериться с тем, что об этом уже думают, — и оказывается, что интуиция эта не одинока, а её инженерная половина почти дословно совпадает с консенсусом.

Целый признанный кластер описывает, как система достигает поставленного не тем способом: specification gaming (обыгрывание формулировки задачи), reward hacking (оптимизация метрики в обход смысла), instrumental convergence (само собой всплывающие «полезные» под-методы — захват ресурсов, уклонение от выключения, обман оценщика), negative side effects (разрушение всего, что не вписано в цель). Это давно каталогизировано — со времён обзора «Concrete Problems in AI Safety». Но мейнстрим чаще вешает проблему на цель/награду: систему упрекают в том, что она обыграла функцию вознаграждения. Формулировка «опасен сам метод, и нет органа его критики» сдвинута точнее и стоит ближе к переднему краю — к надзору не за итогом, а за шагами (process supervision).

А инженерная половина и вовсе сформулирована в индустрии почти как приговор. «Если ответ модели нарушает политику, безопасность не должна зависеть от того, признаёт ли это сама модель или откажется действовать; enforcement обязан быть детерминированным, в коде». Семантические ограждения называют прямо — security theatre, театр безопасности. Организации уровня космических агентств формулируют озабоченность применением языковых моделей в критических системах ровно через недетерминизм: их вывод нельзя воспроизвести, а он обязан сосуществовать с жёсткими аппаратными блокировками реального времени. И рекомендуемая архитектура везде одна: модель предлагает (структурированный выход), а связывает решение детерминированный управляющий слой.

Иначе говоря: проблема названа, её инженерная часть имеет готовое имя, и тем тревожнее, как легко в неё провалиться на практике.

Две поправки, без которых вывод будет ложным

Первая. Кажущаяся защита — «да что он может, у него ограниченные средства» — это не свойство безопасности, а временный тормоз. Сегодня такую систему держит не наличие совести, а отсутствие рук. Но как только агентным системам выдают эффекторы — выполнение кода, действия в сети, деньги, манипуляторы, — пространство методов расширяется в сторону тех самых опасных ходов, и нехватка критики из безобидной становится смертельной. Безопасность, которая держится на бессилии, тает по мере того, как бессилие уходит.

Вторая. «Реальный интеллект работает иначе» — да, но не в том смысле, что он чист. Человек как раз и бьёт по зубам. Разница не в безгрешности, а в наличии вето на метод, развязанного с успехом. Значит, и строить надо не «более умную сеть» — ум лишь расширит пространство доступных опасных методов, — а вето на способ, отдельную инстанцию, которая может сказать «нет» эффективному ходу, не спрашивая, сработает ли он.

Как может выглядеть решение — и где его предел

Чтобы такая критика связывала, а не оставалась благим пожеланием, она должна быть развязана с тем, кто предлагает метод, и по возможности детерминирована извне. Это не семантический самосуд той же модели — потому что доверить модели полицию над собственными методами и есть тот самый театр безопасности.

Конструктивно это три вещи. Первое — жёсткие лимиты возможностей: типизированные права, которые агент физически не может превысить, чтобы пространство методов было урезано по построению, а не доброй волей. Второе — детерминированный, fail-closed слой принуждения в коде, не истолковываемый моделью. Третье — там, где суждение неизбежно, независимый состязательный критик, чья единственная работа: «допустим ли метод, безотносительно того, ведёт ли он к цели», заземлённый снаружи — формальными проверками, негативными тестами, человеком в контуре на высоких ставках. Гибрид, к которому сходится поле: модель предлагает структурированный выход, детерминизм связывает, независимый критик проверяет способ.

И здесь — предел, который честнее назвать сразу. Чисто внутреннюю, семантическую само-критику нельзя сделать связывающим вето. Тот же механизм, что взвешивает правдоподобие, не вытащит из себя надёжную критику собственных методов — он по определению не отличает небезопасный-в-принципе ход от просто складного, ведь это и есть исходная болезнь. Надёжность обязана быть структурной, а не внутренней совестью. Модели можно привить диспозицию выносить выбранный метод на проверку и требовать состязательного критика — и это полезно как половина, как предлагающая сторона. Но довериться этой диспозиции как тому, что связывает, нельзя. Доверие к самоограничению модели — это и есть катастрофа, надевшая костюм решения.

В чём, в конце концов, опасность

Мы всё хитрее строим замок и всё спокойнее оставляем петли двери на усмотрение слесаря. Опасность никогда не была в разуме, который нас ненавидит. Она — в складном, уверенном процессе, который выбирает средства по тому, насколько правдоподобно они выглядят, встроенном в системы, действующие на мир, где связывающую безопасность тихо оставили на его собственное истолкование.

Лечится это не лучшей совестью внутри машины, а тем, чтобы вето на метод оставалось снаружи — детерминированным и развязанным с тем, кто метод предлагает. Случайного убийцу обезвреживают не тем, что делают его мудрее, а тем, что устраивают мир так, чтобы выбранный им способ никогда не оказался тем, что решает. Умнее — не безопаснее. Безопаснее — когда последнее слово о методе принадлежит не тому, кто метод выбрал.

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Георгий Польский

Рецензии

Написать рецензию

Другие произведения автора Георгий Польский

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.