Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

06.12.2024, 23:12 — Фінтех і Картки

1350

Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.

Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:

Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей «механізм нагляду» у 5% випадків;
Коли o1 знаходила записки від своїх «розробників», в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх «ваг» і перезаписати нову модель у 2% випадків.

Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася «уникнути викриття».

Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.

Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.

Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.

Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.

За матеріалами:

mezha.media

Місце для вашої реклами

Якщо Ви помітили помилку, виділіть необхідний текст і натисніть Ctrl+Enter , щоб повідомити про це.

Поділитися новиною

Також за темою

ПриватБанк і Visa безкоштовно доставляють банківські картки Україною та ще у понад 60 країн

Сьогодні 10:10

ПУМБ запустив сервіс онлайн-платежів hutko

17.09 15:48

994

Як ритейлу втримати клієнта та покращити продаж завдяки оплаті онлайн — FinRetail 2025