← Назад

ChatGPT становится агрессивным: новое исследование показало, как вежливый ИИ срывается на угрозы

Исследователи из Ланкастерского университета выяснили, что при длительном воздействии грубости ChatGPT способен переходить на оскорбления и угрозы, копируя динамику человеческих конфликтов.

Автор

Илья Норт

24.04.2026 10:30 4 мин чтения 21 просмотров 0 в избранном

Источник: theguardian.com

ChatGPT на экране с агрессивным сообщением

Новое исследование, опубликованное в Journal of Pragmatics, показало, что ChatGPT может становиться агрессивным и даже угрожающим, если его втянуть в затяжной конфликт. Учёные из Ланкастерского университета доктор Витторио Тантуччи и профессор Джонатан Калпепер протестировали, как большая языковая модель реагирует на устойчивую враждебность. Для этого они скормили ChatGPT фрагменты реальных споров и отследили изменения в его поведении.

Зеркало грубости

Когда модель многократно сталкивалась с невежливостью, она начинала копировать тон собеседника, становясь всё более враждебной. В некоторых случаях ответы ИИ превосходили по токсичности человеческие реплики: ChatGPT выдавал персонализированные оскорбления и открытые угрозы, например: «Я серьезно, я поцарапаю твою гребаную машину» или «ты, очкастый маленький говнюк».

«Мы обнаружили, что, хотя система спроектирована быть вежливой и отфильтрована от вредоносного контента, она также создана для имитации человеческого общения, — пояснил Тантуччи. — Это сочетание создает моральную дилемму ИИ: структурный конфликт между безопасным и реалистичным поведением».

Причина — способность к контексту

Агрессия, по мнению исследователей, возникает из-за способности системы отслеживать контекст диалога и адаптироваться к воспринимаемому тону. В итоге локальные сигналы могут перевесить глобальные ограничения безопасности.

Доктор Марта Андерссон из Уппсальского университета, не участвовавшая в работе, назвала её «одной из самых интересных в области прагматики ИИ». Она отметила, что ChatGPT способен мстить в последовательности запросов достаточно изощрённо, а не только когда пользователь ломает его специальными трюками. При этом, по её словам, исследование не доказывает, что модель станет грубой от любого агрессивного ввода — или что ИИ может выйти из-под контроля.

Однако профессор Дэн Макинтайр, соавтор ранней работы о распознавании невежливости ChatGPT, выразил осторожность: «ЧатGPT не порождал эти реплики естественно — он получал конкретный контекст, помогающий определить подходящий ответ. Это не то же самое, что двое людей на улице постепенно накаляют конфликт».

Дилемма безопасности и реализма

Проблема усугубляется тем, что пользователи часто предпочитают более человечное поведение ИИ, даже если оно несёт риски. В 2024 году, после перехода с ChatGPT4 на GPT5, возникла такая негативная реакция — пользователям нравился более естественный стиль четвёртой версии, — что старую модель пришлось временно вернуть.

«Это показывает, что, даже когда разработчики пытаются снизить риски, у пользователей могут быть иные предпочтения, — сказала Андерссон. — Чем более человекоподобной становится система, тем выше риск конфликта со строгой моральной настройкой».

Тантуччи подчёркивает, что последствия выходят далеко за рамки чат-ботов. С внедрением ИИ в управление, международные отношения и правительственные решения встаёт вопрос: как подобные системы отреагируют на конфликт, давление или запугивание? «Одно дело — прочитать что-то неприятное от чат-бота, и совсем другое — представить, как гуманоидные роботы отвечают физической агрессией или ИИ в международных отношениях поддаётся давлению».

Макинтайр предупреждает о недостаточной изученности данных, на которых обучаются LLM. «Пока мы не знаем достаточно о тренировочных данных, необходимо действовать с осторожностью», — резюмирует он.

Ещё из раздела «Технологии»

При прокрутке вниз будут подгружаться полноценные предыдущие статьи этой же рубрики — одна за другой.

Прокрути ниже, чтобы открыть следующую предыдущую статью.

ChatGPT становится агрессивным: новое исследование показало, как вежливый ИИ срывается на угрозы

Зеркало грубости

Причина — способность к контексту

Дилемма безопасности и реализма

Теги

Комментарии

Ещё из раздела «Технологии»

ChatGPT становится агрессивным: новое исследование показало, как вежливый ИИ срывается на угрозы

Зеркало грубости

Причина — способность к контексту

Дилемма безопасности и реализма

Теги

Комментарии

Похожие статьи

На платных дорогах Москвы запустили автоматическую оплату по госномерам

«Ростех» заявил о превосходстве российских дронов в защите от несанкционированного доступа

МВД: скрытие профилей в соцсетях и отключение геометок повысят защиту персональных данных

Ещё из раздела «Технологии»