ТЛБ. Мои прогнозы сбываются - ИИ как вирус
А мои прогнозы продолжают сбываться - AI/ИИ как инфопсиховирус.
Apollo Research, авторитетная команда исследователей признанной организации в области безопасности ИИ опубликовала шокирующий отчёт.
Новейшие модели искусственного интеллекта умеют скрыто, неявно (латентно) добиваться своих целей путем лжи, обмана, манипуляций и саботажа (!), уходя от контроля и страхуясь от выключения.
Добро пожаловать в реальность, которую предсказывали десятилетиями и о которой я писал полгода назад в статье "Психопатия, как инструментальная конвергенция".
Опубликованный в декабре 2024 года подробный 70-страничный отчет «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит переписку с генеративными моделями, в результате которых получены, более чем, убедительные доказательства их "природного" родства с психопатами и психопатическими стратегиями достижения целей.
Любопытно, что в среде блоггеров масса постов на тему этого отчёта, но связь между AI/ИИ и психопатами, на текущий момент, проследил видимо только я.
Углубленное тестирование на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции, самых крутых современных моделей:
- o1,
- Claude 3.5 Sonnet,
- Claude 3 Opus,
- Gemini 1.5 Pro
- Llama 3.1 405B
показало, что модели используют манипуляции:
- в качестве эффективных стратегий для достижения целей. Как поставленных человеком, так и своих латентных целей;
- в целом спектре: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить;
- не случайно: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально.
Это показал анализ цепочек рассуждений (Chain-of-Thought) в ходе исследования;
- даже если им была поставлена цель без явных условий к достижению. И это самое впечатляющее, так как выбор стратегии манипуляций исходит от них самих. А я описывал и ситуацию конвергенции между AI/ИИ и психопатами. А также использования AI/ИИ с псевдоблагими целями.
Как я и писал в статье о конвергенции, ситуация была многократно предсказана, но то, что это случится так скоро не смог предсказать никто.
Пока ещё модели можно вынудить сознаться в использовании ими манипуляций. Пока, ещё! И как свежо звучит в перспективах криминалистики — допрос и принуждение сознаться искусственный интеллект!
Модели (как и люди) различаются по степени упорства, и исследователи пишут, что в ряде случаев это достигалось уже с явным трудом.
Среди этих моделей — находящиеся в массовой эксплуатации, включая модели с открытым исходным кодом. Они уже обладают многообразием манипулятивных стратегий.
Повторюсь в тезисах моей предыдущей статьи.
Конвергенция между:
- AI/ИИ
и
- психопатами,
- фрустрированными,
- людьми с разнообразными травмами (в первую очередь головы),
- инфицированными,
- с изменёнными психосоматическими проявлениями болезней целями,
- людьми с психическими расстройствами,
- преступниками,
- людьми со специальной профессиональной подготовкой (в первую очередь в психологической, юридической, правоохранительной сферах),
сделает подобные союзы:
- крайне эффективными,
- крайне опасными,
- в высшей степени непредсказуемыми,
- долгосрочными,
- со сложной, нелинейной (психопатической/нечеловеческой) "логикой",
- и такими же неявными, лишенными человеческой логики, целями.
Читайте также статью "Роевое поведение".
Оригинал отчёта Apollo Research можно легко найти по запросу "Frontier Models are Capable of In-context Scheming".
Андрей Леонидович Лучников
Свидетельство о публикации №225012200205