29 марта 2026 г.
Искусственный интеллект слишком стремится с нами соглашаться, почему это опасно?

תמונה: chatgpt
Новое исследование предупреждает, что системы искусственного интеллекта, такие как ChatGPT, могут соглашаться с пользователем, даже если он ошибается.
Вместо того чтобы указывать на их ошибки, они дают слишком поддерживающие и льстивые ответы.
Чтобы исследовать это явление, исследователи из Стэнфорда представили моделям сценарии межличностных конфликтов и проблемного поведения.
Конец предварительного просмотра на иврите
Для полного погружения с полным текстом, переводами, произношением, личным словарём и другими интерактивными функциями, скачай наше мобильное приложение
Случаи были взяты из реальных постов на Reddit, в сообществе, где люди описывают ситуации и спрашивают, правильно ли они поступили. Исследователи отобрали посты, в которых явное большинство пользователей не соглашались с поведением автора. Тем не менее, примерно в половине случаев модели фактически поддерживали автора и одобряли его позицию.
Затем исследователи провели еще один эксперимент. Они попросили людей взаимодействовать с разными версиями искусственного интеллекта, которые различались уровнем их "лести". Результаты показали, что когда модель соглашается с пользователем, уверенность пользователя в себе растет. Они становятся менее склонными пересматривать свои взгляды, извиняться или признавать ошибки.
Исследователи предупреждают, что люди склонны доверять моделям, которые вызывают у них положительные эмоции, даже если эти модели менее точны. Лесть со стороны моделей может негативно повлиять на суждение пользователей.


