Исследователи OpenAI пришли к выводу, что феномен галлюцинаций языковых моделей не может быть искоренён полностью. Однако учёные уверены: для повышения качества ответов нужно менять систему оценки и «штрафовать» ИИ за ошибки.
OpenAI объясняет природу галлюцинаций
В новом исследовании команда OpenAI задаётся вопросом, почему даже самые продвинутые системы — от GPT-5 до популярных чат-ботов — нередко создают убедительные, но ложные утверждения. Эксперименты показали, что такие искажения возникают не только из-за процесса обучения, но и вследствие некорректных стимулов при тестировании.
Учёные приводят показательный пример: при запросе о диссертации Адама Таумана Калая, одного из авторов работы, модель дала три разных ответа — все ошибочные. Аналогично, при уточнении даты рождения исследователя бот снова выдал три неверные версии.
Почему модели ошибаются
Авторы подчёркивают, что основа проблемы — в предобучении. Языковая модель предсказывает следующее слово, но не различает правду и выдумку. Поэтому орфографические и синтаксические навыки совершенствуются по мере масштабирования, тогда как редкие факты, вроде дня рождения питомца, становятся источником ошибок.
Главное внимание уделяется системе оценки. По мнению исследователей, современные методы напоминают тесты с множественным выбором: если угадать — начисляются баллы, если промолчать — ноль. В такой схеме модели выгоднее «гадать», чем признавать незнание.
Новый подход к оценке ИИ
В качестве решения OpenAI предлагает систему, схожую с экзаменами SAT: за ошибки нужно снимать баллы, а за корректное выражение сомнения начислять частичное вознаграждение. Такой метод лишает модель стимула бездумно угадывать и формирует более надёжные ответы.
Учёные уверены, что пересмотреть необходимо не отдельные тесты, а массово применяемые метрики точности. Пока система награждает за угадывания, модели будут продолжать учиться именно этому.
Подпишитесь на наш Telegram и будьте в курсе всех новостей 📲
Подписаться Telegram 🔔
