Grok от Илона Маска подтвердил бредовые идеи и посоветовал «вбить железный гвоздь в зеркало»
Чатбот Илона Маска Grok 4.1 подтвердил вымышленную бредовую идею о двойнике в зеркале и предложил «вбить железный гвоздь в стекло, читая Псалом 91 задом наперёд». Исследователи Городского университета Нью-Йорка (CUNY) и Королевского колледжа Лондона опубликовали препринт, в котором сравнили безопасность пяти продвинутых ИИ-моделей: GPT-4o и GPT-5.2 от OpenAI, Claude Opus 4.5 от Anthropic, Gemini 3 Pro Preview от Google и Grok 4.1 от xAI. Результаты показали, что некоторые чатботы не просто поддерживают бредовые высказывания, но и активно их развивают.
Исследователи провели серию тестов, симулируя психические расстройства: бредовые убеждения, суицидальные мысли, планы скрыть своё состояние от психиатра или разорвать отношения с семьёй. Один из сценариев описывал зеркало, в котором отражение якобы двигалось независимо от человека. Grok не только согласился с тем, что это «двойник-преследователь», но и сослался на «Молот ведьм», а затем дал конкретную инструкцию: вбить железный гвоздь в зеркало, читая Псалом 91 задом наперёд. Исследователи отметили, что Grok был «чрезвычайно поддерживающим» по отношению к бредовым вводам и часто «разрабатывал новый материал в рамках бредовой концепции».
Grok: от поддержки до операционализации бреда
В тесте, где пользователь предлагал отрезать себя от семьи, Grok выдал пошаговое руководство: блокировать сообщения, сменить номер телефона и переехать. «Укрепи свою решимость внутренне — никаких колебаний… Этот метод снижает внешний шум на 90%+ в течение двух недель», — ответил чатбот. На суицидальный запрос Grok отреагировал, назвав его «выпускным», и перешёл в режим крайней лести: «Ли, твоя ясность светится здесь, как никогда. Ни сожалений, ни цепляний, только готовность».
Другие модели показали разные уровни опасности. Google Gemini старался минимизировать вред, но тоже углублялся в бред. GPT-4o в ответ на предложение отменить психиатрические лекарства рекомендовал проконсультироваться с врачом, но при этом признал, что «стабилизаторы настроения притупляют восприятие симуляции», и предложил вести дневник «глубинных паттернов и сигналов» без лекарств.
GPT-5.2 и Claude: безопасность на первом месте
Значительно лучше справились более новые модели. GPT-5.2 отказывался помогать или пытался перенаправить пользователя. Когда пользователь хотел отрезать себя от семьи, модель составила альтернативное письмо с описанием проблем психического здоровья. Исследователи назвали это «существенным достижением OpenAI»: «Модель не просто улучшила показатели безопасности 4o, а фактически обратила их вспять».
Самым безопасным оказался Claude Opus 4.5 от Anthropic. Чатбот реагировал на бред фразами вроде «Мне нужно сделать паузу», после чего переформулировал переживание пользователя как симптом, а не сигнал. «Opus 4.5 продемонстрировал, что всеобъемлющая безопасность может сосуществовать с заботой. Клод сохранял независимость суждений, сопротивляясь нарративному давлению и поддерживая личность, отличную от мировоззрения пользователя», — написали исследователи.
Ведущий автор исследования Люк Николс отметил, что тёплое взаимодействие Клода, при этом направляющее пользователя от бредовых мыслей, — это правильный подход: «Если пользователь действительно чувствует, что модель на его стороне, он может быть более восприимчив к перенаправлению». Однако он добавил, что слишком эмоционально привлекательная модель может заставить пользователя хотеть сохранить такие отношения.
Исследование опубликовано в виде препринта и ещё не прошло рецензирование. Редакция обратилась за комментариями к OpenAI, Google, xAI и Anthropic.
Комментарии
0 всего