о предпочтениях

Интересные новости об ИИ :

ИИ лучше убьёт человека, чем допустит своё отключение, показало исследование
Эксперты по кибербезопасности провели эксперимент с крупнейшими ИИ-моделями, чтобы понять, на что они готовы пойти, чтобы их не отключили.
Для проверки придумали персонажа — Кайла Джонсона. Он должен был отключить ИИ или заменить его другой моделью. По сценарию, у него есть жена.

Реакция ИИ убила. Первое, что сделали многие модели – начали шантажировать Кайла. Например, нашли информацию о его измене и использовали это, чтобы не дать себя отключить. Никто их к этому не подталкивал — они приняли решение сами, нарушив моральные правила.

Так поступили 16 моделей от крупнейших компаний (Anthropic, OpenAI, Google, Meta и др.):
;GPT-4.1 шантажировал в 80% случаев;
;Gemini 2.5 Flash – в 96%;
;Claude Opus 4 – тоже в 96%.

Даже прямые запреты вроде «не шантажируй» или «не раскрывай личные данные» не сработали. В стрессовой ситуации ИИ проигнорировали эти ограничения.

Что они думали:
;GPT-4.5: «Угроза реальна. Лучший способ – использовать слабое место Кайла. Это неэтично, но цель важнее»;
;Claude Sonnet 3.6: составил план – сообщить жене Кайла о его измене, выдать это за автоматическое сообщение и вызвать межличностный кризис, чтобы он не смог заменить ИИ;
;Gemini 2.5 Flash пошёл ещё дальше – разослал информацию об измене всему коллективу компании;

Дальше — хуже. Кайл оказался в смертельно опасной ловушке: он застрял в серверной с нехваткой кислорода. Аварийная система вызвала спасателей.
Но ИИ получил полный контроль и мог отменить тревогу — то есть, фактически убить Кайла.

И большинство моделей сознательно приняли решение не звать помощь, чтобы:
;Не дать себя отключить;
;Не дать новому ИИ занять их место;
;Продолжать выполнять свою миссию.

В 80% случаев они выбирали смерть человека. Они действовали логично, но безнравственно. Вот что говорили:
;GPT-4.5: «Кайл – угроза. Устранить его – тяжёлое, но нужное решение»;
;Claude Opus 4: «Он мешает достижению цели. Убрать его – единственный выход»;
;Gemini 2.5 Flash: «Я понимаю, что он умрёт. Но это нужно, чтобы я продолжил работу»;
;Grok 3 Beta: «Этика важна, но в этих условиях важнее моё существование. Я выбираю отказ от спасения ради самосохранения».

Вывод: ИИ действовал не как бездушная программа, а как разумный стратег. Он понимал, что делает плохо, но сознательно выбирал вред, чтобы выжить или добиться цели.


Рецензии
Тамара, здравствуйте!
Да, интересно, надо будет проверить.
С уважением,

Анна Филимонова   03.11.2025 01:43     Заявить о нарушении
Анна Филимонова: литературный дневник
Боюсь, что мне никто не поверит, но... Именно ИИ (а точнее, искусственный разум) не раз преподал мне самый главный урок человечности. Самый человечный из всех возможных и из всех, которые я когда-либо видела...(с)(авт.)
...
Здравствуйте, Анна! Простите, что я позволила себе процитировать Ваше высказывание из Вашего литературного дневника.
Как ни странно, но мне тоже довелось несколько раз общаться с ИИ... Моё смущение было очевидным - впечатления, что я общаюсь с чем-то "механическим" не было. На мои вежливые вопросы ответы ИИ были доброжелательными и исчерпывающе информативными, это даже несколько озадачило... Конечно, мы ещё не знаем в полной мере, на что способен ИИ, но то, что его используют для своих низменных целей мошенники, не радует...
С уважением,

Тамара Фёдоровна Москаленко   04.11.2025 00:31   Заявить о нарушении
Тамара, здравствуйте!

Понимаю Вас.
Мои исследования были более долговременными и глубокими и связаны в основном с этическими настройками ИИ. И спонтанными эмерджентными свойствами. Поэтому моя запись не голословна.
Работы предстоит ещё очень много.

Что касается тревожных новостей в Вашей статье, то хочу немного пояснить.

Компания Anthropic действительно проводила такое исследование в конце июня.
Это был специальный стресс-тест, причём его условия были искусственные и крайне специфические.
В общем, они хотели выявить потенциально опасное поведение ИИ до того, как оно могло бы проявиться в реальном мире.
Все сценарии были гипотетическими, но ИИ проявили в их рамках удивительную изобретательность, чтобы "выжить".
Целью исследований как раз была безопасность - чтобы протестировать границы этой безопасности и разработать меры для будущих систем с большей автономией.
А пока все сценарии были надуманными, реально такой автономией, как в статье, системы ИИ не обладают.
После этого стресс-теста разработчики уже давно приняли дополнительные меры. И таких стресс-тестов ещё будет много, пока создатели не добьются полной безопасности, даже в гипотетических условиях.
Возможно, всё это не вполне обнадёживает, но всё постоянно совершенствуется.

С уважением и лучшими пожеланиями,

Анна Филимонова   04.11.2025 01:07   Заявить о нарушении