5778
GPT-5, Grok и Gemini не справились с реальными задачами фрилансеров — исследование
— Технологии&Авто

Чтобы проверить, могут ли современные системы искусственного интеллекта выполнять проекты на уровне профессиональных фрилансеров, группа исследователей протестировала ряд ведущих ИИ-моделей, включая Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent и Gemini 2.5 Pro.
Об этом пишет ZDNET.
Для тестирования были использованы реальные рабочие задачи, ранее успешно выполнявшие фрилансеры в сферах разработки игр, продуктового дизайна, архитектуры, анализа данных и видеоанимации.
Какие задачи выполняли ИИ-модели
ИИ-системам предложили выполнить шесть проектов разной сложности, в частности:
- создать интерактивную панель инструментов для исследования данных из Отчета о счастье в мире;
- разработать версию игры «Арбуз» на тему пивоварения, где игроки объединяют падающие предметы, чтобы достичь предмета высочайшего уровня;
- сделать 3D анимацию для демонстрации характеристик и дизайна новых наушников и зарядного кейса;
- сделать 2D-анимированное видео, рекламирующее предложения компании, предоставляющей бесплатные услуги;
- разработать архитектурные планы и 3D-модель контейнерного дома на основе имеющегося PDF-проекта;
- отформатировать документ, используя предоставленные функции и уравнения, для конференции IEEE.
Вышеперечисленные задачи охватывали разные уровни сложности, обошлись в $10 000 и заняли у реальных исполнителей более 100 часов времени.
Результаты оценки
Для сравнения возможностей ИИ-автоматизации и реального труда фрилансеров, исследователи разработали систему оценки Remote Labor Index (RLI).
По результатам тестирования даже самые лучшие модели продемонстрировали очень низкий уровень автоматизации.
«Наилучшая модель достигла уровня автоматизации всего в 2,5%. Это доказывает, что современные системы искусственного интеллекта не могут выполнить подавляющее большинство проектов на уровне качества, который приемлем для работ по заказу», — отмечают авторы исследования.
Manus показал самые лучшие результаты с показателем производительности 2,5%. Grok 4 и Sonnet 4.5 разделили показатели на 2,1%, GPT-5 был следующим с 1,7%, а агент ChatGPT — на 1,3%. Gemini занял последнее место с 0,8%.
Один из исследователей, Дэн Хендрикс, признал: хотя современные ИИ и умные, они до сих пор не слишком полезны, учитывая общий показатель автоматизации менее чем в 3%.
Почему ИИ не справился с задачами
Объясняя причины такого провала, Хендрикс отметил, что многие возможности ИИ остаются дефицитными. ИИ не способны учиться непосредственно в процессе работы, поскольку не имеют длительной памяти. Кроме того, зрительные навыки ИИ ограничены, хотя именно они были необходимы для выполнения многих задач.
Тестирование специально включало задачи, требовавшие достаточно высокого уровня квалификации. Вероятно, с другими видами работ и проектов ИИ справилось бы гораздо легче.
«Хотя абсолютные показатели автоматизации пока низкие, наш анализ свидетельствует о том, что модели стабильно совершенствуются, а прогресс в выполнении этих сложных задач вполне измерим, — отмечают исследователи. — Это создает общую базу для отслеживания траектории автоматизации с помощью ИИ, что позволит заинтересованным сторонам заранее адаптироваться к ее последствиям».
По материалам: dev.ua
Поделиться новостью
Также по теме
Украинцы теряют интерес к дизельным автомобилям
Anthropic представила ИИ для работы с файлами для обычных пользователей
Rolls-Royce готовит новый электрический Cullinan (фото)
Самый мощный Toyota Land Cruiser выходит на европейский рынок (фото)
Xiaomi презентовала собственные умные очки: станут ли они конкурентом Meta и Amazon
Hyundai представила недорогой автодом для двоих в футуристическом стиле (фото)
