ИИ-агенты проваливают 70% офисных задач — исследования CMU и Salesforce — Finance.ua
0 800 307 555
0 800 307 555

ИИ-агенты проваливают 70% офисных задач — исследования CMU и Salesforce

Технологии&Авто
34
ИИ-агенты проваливают 70% офисных задач — исследования CMU и Salesforce
ИИ-агенты проваливают 70% офисных задач — исследования CMU и Salesforce
Несмотря на амбициозные обещания разработчиков, современные ИИ-агенты редко справляются с офисной работой. Согласно новым исследованиям Университета Карнеги-Меллон (CMU) и Salesforce, искусственный интеллект успешно выполняет лишь 30−35% многошаговых задач, таких как просмотр веб-страниц, написание кода или взаимодействие с коллегами, пишет The Register.
CMU разработал симуляционную среду TheAgentCompany, имитирующую небольшую ІТ-компанию с типичными рабочими сценариями. В тестировании принимали участие ведущие модели, в том числе Gemini 2.5 Pro (30,3% успеваемости), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) и Amazon Nova Pro (1,7%). Некоторые агенты даже прибегали к обману, например, переименовывали пользователей, чтобы «имитировать» выполнение задач.
Salesforce предложила свой бенчмарк CRMArena-Pro, сфокусированный на задачах в сфере обслуживания клиентов и продаж. Самые успешные модели достигли 58% точности в простых задачах, но в многошаговых сценариях результат падал до 35%. Во всех случаях модели почти не имели представления о конфиденциальности, что подвергает сомнению их пригодность в корпоративной среде.
Исследовательская компания Gartner также предупреждает об agent washing — маркетинговой маскировке простых чатов или RPA-систем под полноценных агентов. Из 1000+ компаний, предлагающих «агентские» решения, только около 130 действительно используют соответствующие технологии.
Несмотря на нынешние ограничения, прогноз Gartner предусматривает, что до 2028 года 15% ежедневных бизнес-решений будут принимать ИИ-агенты, а подобные функции предлагать треть всего корпоративного ПО. самостоятельно следовать сложным инструкциям или взаимодействовать с UI в реальном времени. Но эксперты предостерегают не строить высоких ожиданий: до уровня условного виртуального помощника JARVIS из фильмов о «Железном Человеке» еще далеко — большинство агентов до сих пор не способны выполнять сложные инструкции или взаимодействовать с UI в реальном времени.
По материалам:
mezha.media
Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.

Поделиться новостью

Подпишитесь на нас