GPT-5, Grok и Gemini не справились с реальными задачами фрилансеров — исследование

21.01.2026, 04:06 — Технологии&Авто

6327

Чтобы проверить, могут ли современные системы искусственного интеллекта выполнять проекты на уровне профессиональных фрилансеров, группа исследователей протестировала ряд ведущих ИИ-моделей, включая Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent и Gemini 2.5 Pro.

Об этом пишет ZDNET.

Для тестирования были использованы реальные рабочие задачи, ранее успешно выполнявшие фрилансеры в сферах разработки игр, продуктового дизайна, архитектуры, анализа данных и видеоанимации.

Какие задачи выполняли ИИ-модели

ИИ-системам предложили выполнить шесть проектов разной сложности, в частности:

создать интерактивную панель инструментов для исследования данных из Отчета о счастье в мире;
разработать версию игры «Арбуз» на тему пивоварения, где игроки объединяют падающие предметы, чтобы достичь предмета высочайшего уровня;
сделать 3D анимацию для демонстрации характеристик и дизайна новых наушников и зарядного кейса;
сделать 2D-анимированное видео, рекламирующее предложения компании, предоставляющей бесплатные услуги;
разработать архитектурные планы и 3D-модель контейнерного дома на основе имеющегося PDF-проекта;
отформатировать документ, используя предоставленные функции и уравнения, для конференции IEEE.

Вышеперечисленные задачи охватывали разные уровни сложности, обошлись в $10 000 и заняли у реальных исполнителей более 100 часов времени.

Результаты оценки

Для сравнения возможностей ИИ-автоматизации и реального труда фрилансеров, исследователи разработали систему оценки Remote Labor Index (RLI).

По результатам тестирования даже самые лучшие модели продемонстрировали очень низкий уровень автоматизации.

«Наилучшая модель достигла уровня автоматизации всего в 2,5%. Это доказывает, что современные системы искусственного интеллекта не могут выполнить подавляющее большинство проектов на уровне качества, который приемлем для работ по заказу», — отмечают авторы исследования.

Почему ИИ не справился с задачами

Объясняя причины такого провала, Хендрикс отметил, что многие возможности ИИ остаются дефицитными. ИИ не способны учиться непосредственно в процессе работы, поскольку не имеют длительной памяти. Кроме того, зрительные навыки ИИ ограничены, хотя именно они были необходимы для выполнения многих задач.

Тестирование специально включало задачи, требовавшие достаточно высокого уровня квалификации. Вероятно, с другими видами работ и проектов ИИ справилось бы гораздо легче.

Читайте также

Более 60% фрилансеров зарабатывают больше благодаря ИИ — исследование

«Хотя абсолютные показатели автоматизации пока низкие, наш анализ свидетельствует о том, что модели стабильно совершенствуются, а прогресс в выполнении этих сложных задач вполне измерим, — отмечают исследователи. — Это создает общую базу для отслеживания траектории автоматизации с помощью ИИ, что позволит заинтересованным сторонам заранее адаптироваться к ее последствиям».

По материалам:

dev.ua

# ИИ # Фриланс

Место для вашей рекламы

Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.

Поделиться новостью

Также по теме

Продажи Toyota снижаются четвертый месяц подряд из-за кризиса на Ближнем Востоке

04.07 02:16

Механик назвал автомобильные бренды с самым дорогим ремонтом

04.07 01:14

ТОП-5 самых лучших бюджетных смартфонов 2026 года (фото)