34
ИИ-агенты проваливают 70% офисных задач — исследования CMU и Salesforce
— Технологии&Авто

Несмотря на амбициозные обещания разработчиков, современные ИИ-агенты редко справляются с офисной работой. Согласно новым исследованиям Университета Карнеги-Меллон (CMU) и Salesforce, искусственный интеллект успешно выполняет лишь 30−35% многошаговых задач, таких как просмотр веб-страниц, написание кода или взаимодействие с коллегами, пишет The Register.
CMU разработал симуляционную среду TheAgentCompany, имитирующую небольшую ІТ-компанию с типичными рабочими сценариями. В тестировании принимали участие ведущие модели, в том числе Gemini 2.5 Pro (30,3% успеваемости), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) и Amazon Nova Pro (1,7%). Некоторые агенты даже прибегали к обману, например, переименовывали пользователей, чтобы «имитировать» выполнение задач.
Salesforce предложила свой бенчмарк CRMArena-Pro, сфокусированный на задачах в сфере обслуживания клиентов и продаж. Самые успешные модели достигли 58% точности в простых задачах, но в многошаговых сценариях результат падал до 35%. Во всех случаях модели почти не имели представления о конфиденциальности, что подвергает сомнению их пригодность в корпоративной среде.
Исследовательская компания Gartner также предупреждает об agent washing — маркетинговой маскировке простых чатов или RPA-систем под полноценных агентов. Из 1000+ компаний, предлагающих «агентские» решения, только около 130 действительно используют соответствующие технологии.
Несмотря на нынешние ограничения, прогноз Gartner предусматривает, что до 2028 года 15% ежедневных бизнес-решений будут принимать ИИ-агенты, а подобные функции предлагать треть всего корпоративного ПО. самостоятельно следовать сложным инструкциям или взаимодействовать с UI в реальном времени. Но эксперты предостерегают не строить высоких ожиданий: до уровня условного виртуального помощника JARVIS из фильмов о «Железном Человеке» еще далеко — большинство агентов до сих пор не способны выполнять сложные инструкции или взаимодействовать с UI в реальном времени.
По материалам: mezha.media
Поделиться новостью