DeepMind і OpenAI навчають ШІ працювати спільно з людиною

16.06.2017, 01:00 — Технології&Авто

234

Спілкування людини з ШІ – головна тема дослідження, опублікованого компанією DeepMind (належить Google) і OpenAI Institute (фінансується Ілона Маском). Вчені запропонували спосіб забезпечення зворотного зв’язку комп’ютера з людиною без допомоги заздалегідь прописаного програмістами алгоритму.

Люди бояться штучного інтелекту, тому що він може виявитися недружнім або навіть спробувати стерти людство з лиця Землі. Насправді небезпечним ШІ стане, якщо не давати йому чітких вказівок, кажуть дослідники. Як в тому жарті, коли супер-розумного робота з купою можливостей попросили просто зробити скріпки, він всі речі переробив на скріпки і знищив у результаті цивілізацію разом з людиною.

Новий метод навчання ШІ від DeepMind і OpenAI – це варіація «посиленого машинного навчання» (reinforcement learning або RL). Комп’ютер раз по раз розв’язує одну і ту ж задачу, в той час як програмісти направляють його за допомогою «винагороди». В іграх – це зазвичай певна кількість очок. В результаті, шляхом проб і помилок ШІ навчається найбільш адекватному способу вирішення завдання.

Вчені з DeepMind і OpenAI вирішили спростити цей процес і зовсім видалити з процесу програміста: комп’ютеру показують два варіанти виконання однієї і тієї ж задачі і підказують, який з них кращий. Це повторюється раз за разом, поки ШІ не “усвідомить», що саме від нього хочуть. Метод чимось схожий на похід до окуліста, який змінює лінзи і питає: «Так краще видно? А так?».

За допомогою нового методу розробникам вдалося навчити бот по імені Hopper робити сальто і приземлятися на «ноги». Правда, такий спосіб навчання забирає багато часу. Перш ніж Hopper ідеально перекинувся, людину попросили оцінити його дії 900 разів протягом години. Бот навчався 70 годин віртуального часу.

За словами дослідника Oxford Robotics Маркуса Вульфмайєра, поки набагато простіше, коли програміст заздалегідь прописує в алгоритмі, яка саме поведінка очікується від бота при тих чи інших ввідних. «Але важливо зробити зворотний зв’язок більш ефективним», – каже Вульфмайєр.

За матеріалами:

hightech.fm

Місце для вашої реклами

Якщо Ви помітили помилку, виділіть необхідний текст і натисніть Ctrl+Enter , щоб повідомити про це.

Поділитися новиною

Підпишіться на нас