549
Исследователи создали систему, которая находит ошибки в ответах ИИ
— Технологии&Авто

Исследователи из Google DeepMind и Стэнфордского университета представили новую систему автоматизированной оценки SAFE, которая анализирует ответы, предоставленные искусственным интеллектом, и ищет ошибочные.
Проверка ответов чат-ботов с искусственным интеллектом — крайне непростой процесс, который полагается в значительной степени на живых людей — аннотаторов. SAFE, разработанная учеными в области ИИ, не только позволяет легко масштабировать процесс проверки, но и демонстрирует лучшую производительность, говорится в статье исследователей, доступной на arXiv.
В рамках исследования специалисты использовали до тринадцати языковых моделей, охватывающих четыре семейства моделей, включая Gemini, GPT, Claude и PaLM-2. Процесс проверки предусматривал сложную многоэтапную систему рассуждения, в которой оценивали каждый факт, предоставленный ИИ, в контексте результатов поиска.
С помощью этих крупных речевых моделей (LLM) исследователи сформировали набор данных из около 16 тысяч отдельных фактов. Затем каждый факт независимо проверялся на точность с помощью поиска Google. Также проверялась релевантность отдельных фактов по данному запросу. В 72% случаев оценки ответов SAFE совпадали с оценками людей-аннотаторов. В целенаправленном анализе 100 спорных фактов определения SAFE были правильными в 76% случаев.
Посредством такой проверки удалось значительно повысить точность моделей. В частности, GPT-4-Turbo достиг уровня фактической точности в 95%. Эта система также позволяет повышать правдивость и надежность информации, созданной LLM, уменьшая затраты на этот процесс. По словам исследователей, система в 20 раз дешевле аннотаций, созданных людьми.
По материалам: ua.news
Поделиться новостью
Также по теме
В 2026 году Neuralink начнет массово производить мозговые импланты
Porsche отзывает более 170 тысяч автомобилей в США
Эксперты назвали 4 кроссовера 2025 года, на которые стоит обратить внимание
LG представила робота CLOiD, который может выполнять ряд бытовых задач
Что нужно проверить перед покупкой подержанного автомобиля
Почему сенсорные экраны опасны для водителей: исследование
