0 800 307 555
0 800 307 555

OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

Технології&Авто
125
OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують
OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують
OpenAI представила результати масштабного дослідження про те, чому великі мовні моделі штучного інтелекту, як-от GPT-5, продовжують галюцинувати, і чи можна щось із цим зробити.
Автори порівнюють нейромережі з учнями на іспиті: якщо відповідь «не знаю» приносить нуль балів, вигідніше ризикнути і видати хоч якусь відповідь. Така методика заохочує галюцинації, тому що при ній залишається невеликий шанс, що ШІ вгадає правильну відповідь.
На думку авторів, причина криється в самій системі оцінювання. Популярні бенчмарки — від MMLU до SWE-bench — використовують бінарний принцип «вірно/невірно». У результаті моделі змушені вгадувати, а не чесно визнавати невпевненість. Це добре видно з таблиці нижче:
OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують
Хоча у GPT-5-Thinking-mini помітно нижча частка помилок, за метрикою точності вона трохи поступається старішій o4-mini та в тестах, заснованих тільки на точності, опиняється позаду.
«Після тисяч тестових запитань модель вгадування в кінцевому підсумку має кращий вигляд у рейтингу, ніж акуратна модель, яка допускає невизначеність», — пише OpenAI.
У OpenAI пропонують доопрацювати систему оцінок: за впевнену брехню давати більший штраф, ніж за чесне «я не знаю», а за правильне вираження невизначеності нараховувати часткові бали. Автори вважають, що такий перерозподіл балів знизить стимул до вгадування.
У компанії також зазначають, що змогли значно скоротити кількість галюцинацій у GPT-5, хоча модель все ще не ідеальна. Раніше користувачі скаржилися, що відповіді ШІ стали коротшими і незадовільними, навіть при запитах про творчі завдання.

👉🏻 Не пропускайте головного — приєднуйтесь до нас у Telegram, Facebook та Instagram.

За матеріалами:
УНІАН
Якщо Ви помітили помилку, виділіть необхідний текст і натисніть Ctrl+Enter , щоб повідомити про це.

Поділитися новиною

Підпишіться на нас