0 800 307 555
0 800 307 555

GPT-5, Grok и Gemini не справились с реальными задачами фрилансеров — исследование

Технологии&Авто
5778
ИИ провалил 97% задач для фрилансеров.
ИИ провалил 97% задач для фрилансеров.
Чтобы проверить, могут ли современные системы искусственного интеллекта выполнять проекты на уровне профессиональных фрилансеров, группа исследователей протестировала ряд ведущих ИИ-моделей, включая Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent и Gemini 2.5 Pro.
Об этом пишет ZDNET.
Для тестирования были использованы реальные рабочие задачи, ранее успешно выполнявшие фрилансеры в сферах разработки игр, продуктового дизайна, архитектуры, анализа данных и видеоанимации.

Какие задачи выполняли ИИ-модели

ИИ-системам предложили выполнить шесть проектов разной сложности, в частности:
  • создать интерактивную панель инструментов для исследования данных из Отчета о счастье в мире;
  • разработать версию игры «Арбуз» на тему пивоварения, где игроки объединяют падающие предметы, чтобы достичь предмета высочайшего уровня;
  • сделать 3D анимацию для демонстрации характеристик и дизайна новых наушников и зарядного кейса;
  • сделать 2D-анимированное видео, рекламирующее предложения компании, предоставляющей бесплатные услуги;
  • разработать архитектурные планы и 3D-модель контейнерного дома на основе имеющегося PDF-проекта;
  • отформатировать документ, используя предоставленные функции и уравнения, для конференции IEEE.
Вышеперечисленные задачи охватывали разные уровни сложности, обошлись в $10 000 и заняли у реальных исполнителей более 100 часов времени.

Результаты оценки

Для сравнения возможностей ИИ-автоматизации и реального труда фрилансеров, исследователи разработали систему оценки Remote Labor Index (RLI).
По результатам тестирования даже самые лучшие модели продемонстрировали очень низкий уровень автоматизации.
«Наилучшая модель достигла уровня автоматизации всего в 2,5%. Это доказывает, что современные системы искусственного интеллекта не могут выполнить подавляющее большинство проектов на уровне качества, который приемлем для работ по заказу», — отмечают авторы исследования.
Manus показал самые лучшие результаты с показателем производительности 2,5%. Grok 4 и Sonnet 4.5 разделили показатели на 2,1%, GPT-5 был следующим с 1,7%, а агент ChatGPT — на 1,3%. Gemini занял последнее место с 0,8%.
Один из исследователей, Дэн Хендрикс, признал: хотя современные ИИ и умные, они до сих пор не слишком полезны, учитывая общий показатель автоматизации менее чем в 3%.

Почему ИИ не справился с задачами

Объясняя причины такого провала, Хендрикс отметил, что многие возможности ИИ остаются дефицитными. ИИ не способны учиться непосредственно в процессе работы, поскольку не имеют длительной памяти. Кроме того, зрительные навыки ИИ ограничены, хотя именно они были необходимы для выполнения многих задач.
Тестирование специально включало задачи, требовавшие достаточно высокого уровня квалификации. Вероятно, с другими видами работ и проектов ИИ справилось бы гораздо легче.
«Хотя абсолютные показатели автоматизации пока низкие, наш анализ свидетельствует о том, что модели стабильно совершенствуются, а прогресс в выполнении этих сложных задач вполне измерим, — отмечают исследователи. — Это создает общую базу для отслеживания траектории автоматизации с помощью ИИ, что позволит заинтересованным сторонам заранее адаптироваться к ее последствиям».
По материалам:
dev.ua
Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.

Поделиться новостью

Подпишитесь на нас