3296
OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують
— Технології&Авто

OpenAI представила результати масштабного дослідження про те, чому великі мовні моделі штучного інтелекту, як-от GPT-5, продовжують галюцинувати, і чи можна щось із цим зробити.
Автори порівнюють нейромережі з учнями на іспиті: якщо відповідь «не знаю» приносить нуль балів, вигідніше ризикнути і видати хоч якусь відповідь. Така методика заохочує галюцинації, тому що при ній залишається невеликий шанс, що ШІ вгадає правильну відповідь.
На думку авторів, причина криється в самій системі оцінювання. Популярні бенчмарки — від MMLU до SWE-bench — використовують бінарний принцип «вірно/невірно». У результаті моделі змушені вгадувати, а не чесно визнавати невпевненість. Це добре видно з таблиці нижче:

Хоча у GPT-5-Thinking-mini помітно нижча частка помилок, за метрикою точності вона трохи поступається старішій o4-mini та в тестах, заснованих тільки на точності, опиняється позаду.
«Після тисяч тестових запитань модель вгадування в кінцевому підсумку має кращий вигляд у рейтингу, ніж акуратна модель, яка допускає невизначеність», — пише OpenAI.
У OpenAI пропонують доопрацювати систему оцінок: за впевнену брехню давати більший штраф, ніж за чесне «я не знаю», а за правильне вираження невизначеності нараховувати часткові бали. Автори вважають, що такий перерозподіл балів знизить стимул до вгадування.
У компанії також зазначають, що змогли значно скоротити кількість галюцинацій у GPT-5, хоча модель все ще не ідеальна. Раніше користувачі скаржилися, що відповіді ШІ стали коротшими і незадовільними, навіть при запитах про творчі завдання.
👉🏻 Не пропускайте головного — приєднуйтесь до нас у Telegram, Facebook та Instagram.
За матеріалами: УНІАН
Поділитися новиною
Також за темою
Електрокар чи автомобіль з ГБО: що вигідніше
У Каліфорнії відкрили хаб із 40 зарядками для електромобілів та сонячними панелями
Чому автовиробники радять міняти моторну оливу рідше
Microsoft видаляє гарячі клавіші Copilot у Windows 11
Kia почне використовувати гуманоїдних роботів Boston Dynamics на виробництві
Показали рендери рестайлінгу Renault Kangoo
