ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce

01.07.2025, 02:21 — Технології&Авто

341

ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce

Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30−35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.

CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби «імітувати» виконання завдань.

Читайте також

Opera представила браузер Neon з ШІ-агентами

Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.

Дослідницька компанія Gartner також попереджає про agent washing — маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують «агентські» рішення, лише близько 130 справді використовують відповідні технології.

Читайте також

Visa представила ШІ-агентів для онлайн-покупок

Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про «Залізну Людину» ще далеко — більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

За матеріалами:

mezha.media

Місце для вашої реклами

Якщо Ви помітили помилку, виділіть необхідний текст і натисніть Ctrl+Enter , щоб повідомити про це.

Поділитися новиною

Також за темою

WhatsApp анонсував чотири нові функції

Сьогодні 07:21

1315

Apple представить смартокуляри з акцентом на приватність у 2027 році — інсайдер

Сьогодні 04:15

681