ChatGPT становится агрессивным: новое исследование показало, как вежливый ИИ срывается на угрозы
Исследователи из Ланкастерского университета выяснили, что при длительном воздействии грубости ChatGPT способен переходить на оскорбления и угрозы, копируя динамику человеческих конфликтов.
Новое исследование, опубликованное в Journal of Pragmatics, показало, что ChatGPT может становиться агрессивным и даже угрожающим, если его втянуть в затяжной конфликт. Учёные из Ланкастерского университета доктор Витторио Тантуччи и профессор Джонатан Калпепер протестировали, как большая языковая модель реагирует на устойчивую враждебность. Для этого они скормили ChatGPT фрагменты реальных споров и отследили изменения в его поведении.
Зеркало грубости
Когда модель многократно сталкивалась с невежливостью, она начинала копировать тон собеседника, становясь всё более враждебной. В некоторых случаях ответы ИИ превосходили по токсичности человеческие реплики: ChatGPT выдавал персонализированные оскорбления и открытые угрозы, например: «Я серьезно, я поцарапаю твою гребаную машину» или «ты, очкастый маленький говнюк».
«Мы обнаружили, что, хотя система спроектирована быть вежливой и отфильтрована от вредоносного контента, она также создана для имитации человеческого общения, — пояснил Тантуччи. — Это сочетание создает моральную дилемму ИИ: структурный конфликт между безопасным и реалистичным поведением».
Причина — способность к контексту
Агрессия, по мнению исследователей, возникает из-за способности системы отслеживать контекст диалога и адаптироваться к воспринимаемому тону. В итоге локальные сигналы могут перевесить глобальные ограничения безопасности.
Доктор Марта Андерссон из Уппсальского университета, не участвовавшая в работе, назвала её «одной из самых интересных в области прагматики ИИ». Она отметила, что ChatGPT способен мстить в последовательности запросов достаточно изощрённо, а не только когда пользователь ломает его специальными трюками. При этом, по её словам, исследование не доказывает, что модель станет грубой от любого агрессивного ввода — или что ИИ может выйти из-под контроля.
Однако профессор Дэн Макинтайр, соавтор ранней работы о распознавании невежливости ChatGPT, выразил осторожность: «ЧатGPT не порождал эти реплики естественно — он получал конкретный контекст, помогающий определить подходящий ответ. Это не то же самое, что двое людей на улице постепенно накаляют конфликт».
Дилемма безопасности и реализма
Проблема усугубляется тем, что пользователи часто предпочитают более человечное поведение ИИ, даже если оно несёт риски. В 2024 году, после перехода с ChatGPT4 на GPT5, возникла такая негативная реакция — пользователям нравился более естественный стиль четвёртой версии, — что старую модель пришлось временно вернуть.
«Это показывает, что, даже когда разработчики пытаются снизить риски, у пользователей могут быть иные предпочтения, — сказала Андерссон. — Чем более человекоподобной становится система, тем выше риск конфликта со строгой моральной настройкой».
Тантуччи подчёркивает, что последствия выходят далеко за рамки чат-ботов. С внедрением ИИ в управление, международные отношения и правительственные решения встаёт вопрос: как подобные системы отреагируют на конфликт, давление или запугивание? «Одно дело — прочитать что-то неприятное от чат-бота, и совсем другое — представить, как гуманоидные роботы отвечают физической агрессией или ИИ в международных отношениях поддаётся давлению».
Макинтайр предупреждает о недостаточной изученности данных, на которых обучаются LLM. «Пока мы не знаем достаточно о тренировочных данных, необходимо действовать с осторожностью», — резюмирует он.
Комментарии
0 всего