642
Каждый десятый ответ ИИ-обзоров Google ошибочный — исследование
— Технологии&Авто

Эксперимент с функцией AI Overviews в поиске Google показал, что искусственный интеллект выдает точные ответы в 90% случаев. Однако ключевой нюанс состоит в том, что по крайней мере 1 из 10 ответов ложный. Учитывая количество запросов, можно говорить о миллионах «ложных ответов» в час.
Об этом говорится в исследовании The New York Times и стартапа Oumi.
Результаты тестирования
AI Overviews — это функция поисковой системы Google, использующая искусственный интеллект (Gemini) для создания автоматических и кратких ответов на запрос пользователя. Впервые ее запустили в 2024 году, а с мая прошлого года она получила широкое распространение, в том числе и в Украине.
С момента внедрения Google AI Overviews вызвали массу споров и жалоб, но со временем и запуском новых моделей Gemini стали лучше. В новом эксперименте The New York Times попыталось оценить точность ответов ИИ на это время: оказалось, что они верны в 90% случаев, то есть как минимум 1 из 10 ответов ошибочный.
Эксперимент проводился совместно с ИИ-стартапом Oumi, а для проверки ответов использовали SimpleQA — стандартный тест для моделей из 4 тысяч вопросов, созданный OpenAI в 2024 году. Первые тесты Oumi провела в прошлом году, когда была актуальна модель Gemini 2.5. — тогда точность AI Overviews составила 85%. После обновления до Gemini 3 она повысилась до 91%. В то же время, если экстраполировать уровень ошибок на все поисковые запросы, можно говорить о миллионах обманчивых ответов в час и сотни тысяч ежеминутно.
Примеры ошибок
В отчете приводятся примеры ошибок. В частности, в запросе о том, когда бывший дом Боба Марли стал музеем, Google AI Overviews привел три источника: два вообще без дат, а третий — из Википедии — с ошибкой. Другой запрос в бенчмарке предлагал указать дату, когда виолончелист Йо-Йо Ма попал в Зал славы классической музыки — ИИ сказал, что такого зала не существует, хотя сам сослался на официальный сайт организации.
Реакция Google
Ожидалось, в Google раскритиковали методологию. Спикер Нед Адрианс заявил, что SimpleQA может содержать неточности. Компания использует собственный текст SimpleQA Verified, основанный на меньшей, но более тщательно проверенной выборке.
«Это исследование имеет серьезные пробелы», — сказал Адрианс NYT. — Оно не отражает то, что люди действительно ищут в Google".
Оценка ИИ остается сложной задачей. Каждая из компаний имеет собственный способ демонстрации возможностей, хотя проверка усложняется и тем, что модели могут давать разные ответы на один и тот же вопрос.
Еще одна особенность состоит в том, что AI Overviews не является единственной моделью. Google в комментарии для Ars Technica сообщила, что система выбирает «самую подходящую» для каждого запроса. Самые точные ответы могла бы обеспечить Gemini 3.1 Pro, но она медленная и дорогостоящая, поэтому чаще используются модели Gemini Flash.
По материалам: mezha.media
Поделиться новостью
Также по теме
Электрокар или автомобиль с ГБО: что выгоднее
В Калифорнии открыли хаб с 40 зарядками для электромобилей и солнечными панелями
Почему автопроизводители советуют менять моторное масло реже
Microsoft удаляет горячие клавиши Copilot в Windows 11
Kia начнет использовать гуманоидных роботов Boston Dynamics на производстве
Показали рендеры рестайлинга Renault Kangoo
