499
Дослідники створили систему, яка знаходить помилки у відповідях ШІ
— Технології&Авто
![Дослідники створили систему, яка знаходить помилки у відповідях ШІ](https://resizer.finance.ua/a31b41a7168ab823bfab6864b43dae3d533187ce.jpg?url=https://finance-news-media.fra1.cdn.digitaloceanspaces.com/prod/3/b/3b512e5356d8c9a426c12eb0843177f2&fit=cover&w=382.5&h=)
Дослідники з Google DeepMind і Стенфордського університету представили нову систему автоматизованого оцінювання SAFE, яка аналізує відповіді, надані штучним інтелектом, і шукає помилкові.
Перевірка відповідей чат-ботів зі штучним інтелектом — вкрай непростий процес, який покладається значною мірою на живих людей — анотаторів. SAFE, розроблена вченими у сфері ШІ, не тільки дає змогу легко масштабувати процес перевірки, а й демонструє кращу продуктивність, йдеться в статті дослідників, доступній на arXiv.
У рамках дослідження фахівці використовували до тринадцяти мовних моделей, що охоплюють чотири сімейства моделей, включно з Gemini, GPT, Claude і PaLM-2. Процес перевірки передбачав складну багатоетапну систему міркування, у якій оцінювали кожен факт, наданий ШІ, у контексті результатів пошуку.
За допомогою цих великих мовних моделей (LLM) дослідники сформували набір даних з близько 16 тисяч окремих фактів. Потім кожен факт незалежно перевірявся на точність за допомогою Пошуку Google. Також перевірялася релевантність окремих фактів наданому запиту. У 72% випадків оцінки відповідей від SAFE збігалися з оцінками людей-анотаторів. У цілеспрямованому аналізі 100 суперечливих фактів визначення SAFE були правильними у 76% випадків.
За допомогою такої перевірки вдалося значно підвищити точність моделей. Зокрема, GPT-4-Turbo досяг рівня фактичної точності в 95%. Ця система також дає змогу підвищувати правдивість і надійність інформації, створеної LLM, зменшуючи витрати на цей процес. За словами дослідників, система у 20 разів дешевша за анотації, створені людьми.
За матеріалами: ua.news
Поділитися новиною