ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce — Finance.ua
0 800 307 555
0 800 307 555

ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce

Технології&Авто
34
ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce
ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce
Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30−35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.
CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби «імітувати» виконання завдань.
Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.
Дослідницька компанія Gartner також попереджає про agent washing — маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують «агентські» рішення, лише близько 130 справді використовують відповідні технології.
Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про «Залізну Людину» ще далеко — більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.
За матеріалами:
mezha.media
Якщо Ви помітили помилку, виділіть необхідний текст і натисніть Ctrl+Enter , щоб повідомити про це.

Поділитися новиною

Підпишіться на нас