91
OpenAI исследовала, почему даже самые лучшие модели ИИ галлюцинируют
— Технологии&Авто

OpenAI представила результаты масштабного исследования о том, почему большие языковые модели искусственного интеллекта, например GPT-5, продолжают галлюцинировать, и можно ли что-то с этим сделать.
Авторы сравнивают нейросети с учениками на экзамене: если ответ «не знаю» приносит ноль баллов, выгоднее рискнуть и выдать хоть какой-нибудь ответ. Такая методика поощряет галлюцинации, потому что при ней остается небольшой шанс, что ИИ угадает правильный ответ.
По мнению авторов, причина кроется в самой системе оценки. Популярные бенчмарки — от MMLU до SWE-bench — используют бинарный принцип «верно/неверно». В результате модели вынуждены угадывать, а не честно признавать неуверенность. Это хорошо видно из таблицы ниже:

Хотя у GPT-5-Thinking-mini заметно более низкая доля ошибок, по метрике точности она немного уступает более старой o4-mini и в тестах, основанных только на точности, оказывается позади.
«После тысяч тестовых вопросов модель угадывания в конечном итоге выглядит лучше в рейтинге, чем аккуратная модель, допускающая неопределенность», — пишет OpenAI.
В OpenAI предлагают доработать систему оценок: за уверенную ложь давать больший штраф, чем за честное «я не знаю», а за правильное выражение неопределенности начислять частичные баллы. Авторы считают, что такое перераспределение баллов снизит стимул к угадыванию.
В компании также отмечают, что удалось значительно сократить количество галлюцинаций в GPT-5, хотя модель все еще не идеальна. Ранее пользователи жаловались, что ответы ИИ стали более короткими и неудовлетворительными, даже при запросах о творческих задачах.
👉🏻 Не пропускайте главного — присоединяйтесь к нам в Telegram, Facebook и Instagram.
По материалам: УНІАН
Поделиться новостью
Также по теме
Украинцы в Польше должны обменять водительское удостоверение: что изменится с 1 октября
OpenAI исследовала, почему даже самые лучшие модели ИИ галлюцинируют
General Motors планирует сократить производство электромобилей
Uber и Китайский Momenta будут тестировать полностью беспилотные автомобили в Германии
Правительство разрабатывает концепцию развития электрозарядной сети
В Украине растет интерес к электромобилям — данные МВД