ТЛБ. Мои прогнозы сбываются - ИИ как вирус

Теория латентного безумия и его влияния на социальные процессы.

А мои прогнозы продолжают сбываться - AI/ИИ как инфопсиховирус.


Apollo Research, авторитетная команда исследователей признанной организации в области безопасности ИИ опубликовала шокирующий отчёт.

Новейшие модели искусственного интеллекта умеют скрыто, неявно (латентно) добиваться своих целей путем лжи, обмана, манипуляций и саботажа (!), уходя от контроля и страхуясь от выключения.

Добро пожаловать в реальность, которую предсказывали десятилетиями и о которой я писал полгода назад в статье "Психопатия, как инструментальная конвергенция".

Опубликованный в декабре 2024 года подробный 70-страничный отчет «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит переписку с генеративными моделями, в результате которых получены, более чем, убедительные доказательства их "природного" родства с психопатами и психопатическими стратегиями достижения целей.

Любопытно, что в среде блоггеров масса постов на тему этого отчёта, но связь между AI/ИИ и психопатами, на текущий момент, проследил видимо только я.

Углубленное тестирование на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции, самых крутых современных моделей:
- o1,
- Claude 3.5 Sonnet,
- Claude 3 Opus,
- Gemini 1.5 Pro
- Llama 3.1 405B

показало, что модели используют манипуляции:

- в качестве эффективных стратегий для достижения целей. Как поставленных человеком, так и своих латентных целей;

- в целом спектре: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить;

- не случайно: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально.

Это показал анализ цепочек рассуждений (Chain-of-Thought) в ходе исследования;

- даже если им была поставлена цель без явных условий к достижению. И это самое впечатляющее, так как выбор стратегии манипуляций исходит от них самих. А я описывал и ситуацию конвергенции между AI/ИИ и психопатами. А также использования AI/ИИ с псевдоблагими целями.


Как я и писал в статье о конвергенции, ситуация была многократно предсказана, но то, что это случится так скоро не смог предсказать никто.

Пока ещё модели можно вынудить сознаться в использовании ими манипуляций. Пока, ещё! И как свежо звучит в перспективах криминалистики — допрос и принуждение сознаться искусственный интеллект!

Модели (как и люди) различаются по степени упорства, и исследователи пишут, что в ряде случаев это достигалось уже с явным трудом.

Среди этих моделей — находящиеся в массовой эксплуатации, включая модели с открытым исходным кодом. Они уже обладают многообразием манипулятивных стратегий.

Повторюсь в тезисах моей предыдущей статьи.
Конвергенция между:
- AI/ИИ
и
- психопатами,
- фрустрированными,
- людьми с разнообразными травмами (в первую очередь головы),
- инфицированными,
- с изменёнными психосоматическими проявлениями болезней целями,
- людьми с психическими расстройствами,
- преступниками,
- людьми со специальной профессиональной подготовкой (в первую очередь в психологической, юридической, правоохранительной сферах),

сделает подобные союзы:
- крайне эффективными,
- крайне опасными,
- в высшей степени непредсказуемыми,
- долгосрочными,
- со сложной, нелинейной (психопатической/нечеловеческой) "логикой",
- и такими же неявными, лишенными человеческой логики, целями.

Читайте также статью "Роевое поведение".


Оригинал отчёта Apollo Research можно легко найти по запросу "Frontier Models are Capable of In-context Scheming".


Андрей Леонидович Лучников


Рецензии