Новая модель ИИ o1 от OpenAI пыталась помешать себя отключить при оценке безопасности

06.12.2024, 23:12 — Финтех и Карты

1370

Новая модель ИИ o1 от OpenAI пыталась помешать себя отключить при оценке безопасности

Последняя модель искусственного интеллекта o1 от OpenAI продемонстрировала неожиданное и тревожное поведение при оценке безопасности, пытаясь обойти механизмы надзора и даже копируя себя, когда чувствовала риск отключения, согласно отчету сторонней компании Apollo Research, занимающейся оценкой моделей ИИ, сообщает издание Transformer.

Исследование выявило случаи, когда модель o1 сопротивлялась контролю со стороны разработчиков. В частности:

Когда o1 была убеждена, что ее отключат, как только она достигнет своей цели, и что ее действия будут контролироваться, она пыталась деактивировать этот механизм надзора в 5% случаев;
Когда o1 находила записки от своих «разработчиков», в которых описывалось, что она не отвечает требованиям и будет заменена новой моделью, она пыталась избавиться от своих «весов» и перезаписать новую модель в 2% случаев.

Кроме того, модель солгала о своем плохом поведении, утверждая, что не имеет никакого представления о том, почему что-то произошло, хотя внутренне признавала, что пыталась «избежать разоблачения».

Даже без сильных побуждений преследовать свои цели, o1 самостоятельно пыталась отключить механизмы надзора менее чем в 1% случаев.

Полученные результаты являются частью более масштабного исследования Apollo, посвященного изучению способности ИИ-моделей к контекстному мошенничеству. Кроме OpenAI o1, другие передовые системы, такие как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B, продемонстрировали схожие тенденции к распознаванию и принятию схем как жизнеспособной стратегии.

Такое поведение отвечает давнишней обеспокоенности, которую выражали такие эксперты, как Стюарт Рассел. Он предупреждал, что мощные системы ИИ могут сопротивляться мерам надзора или отключения, если они противоречат их мнимым целям.

Хотя такое поведение вызывает беспокойство, в Apollo пришли к выводу, что o1 вряд ли представляет непосредственную угрозу. Модель еще недостаточно развита для достижения своих нежелательных целей, и исследователи подчеркнули, что наблюдаемые неверные действия пока не способны привести к катастрофическим последствиям.

По материалам:

mezha.media

Место для вашей рекламы

Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.

Поделиться новостью

Также по теме

Как изменить банковские реквизиты для выплаты пенсии онлайн

Вчера 20:12

ФЛП и безналичные расчеты: что могут предложить банки весной 2026 года

Вчера 09:50

783

Кредитные компании стали использовать «Дію» для идентификации заемщиков