Baidu представила покращений алгоритм клонування мовлення — Finance.ua
0 800 307 555
0 800 307 555

Baidu представила покращений алгоритм клонування мовлення

Технології&Авто
184
Китайський технологічний гігант Baidu представив поліпшену систему синтезу мовлення Deep Voice. Технологія швидко навчається і відтворює текст голосом людини, яка говорить, з високою точністю. «Аудіоклонування» дозволяє штучно генерувати будь-які слова і пропозиції, відтворюючи при цьому акцент і інші особливості мовлення мовця.
У новому дослідженні Baidu представила вдосконалену технологію розпізнавання мови Deep Voice. В блозі компанія розповіла, що на навчання алгоритму йде не більше ніж півгодини. За цей час система вивчає зразки голосу мовця і вчиться їх імітувати. Один алгоритм здатний відтворювати тисячі голосів. Однак чим більше зразків вивчає система, тим якіснішою стає імітація.
На сайті GitHub можна прослухати музичні файли з демонстрацією можливостей Deep Voice. Для порівняння компанія опублікувала приклади клонованої мови, відтвореної на прикладі 5, 10, 20, 50 і 100 зразків. Після 5 і 10 зразків алгоритм відтворює мову не дуже чітко. У міру навчання синтезована мова стає все більш правдоподібною. Але, як зазначає The Register, поки що імітацію можна відрізнити від оригіналу за низькою якістю звуку і шумами.
Компанія представила технологію Deep Voice в березні минулого року. У травні алгоритм Deep Voice 2 вже навчився імітувати акценти і синтезувати мову всього за півгодини. Тоді система могла працювати з сотнями зразків. Покращена модель здатна обробляти тисячі голосів. При цьому синтезувати голос алгоритм може навіть після прослуховування коротких фраз довжиною в кілька секунд.
При клонуванні голосу Baidu використовує дві техніки — метод адаптації і метод розшифровки. В першому випадку система вивчає голоси кількох мовців. В експериментах компанія використала набір даних LibriSpeech, в якому зібрано зразки мовлення 2484 людей. Алгоритм виділяє окремі компоненти в вимовлених фразах і імітує голос з урахуванням особливостей вимови і ритму. При методі розшифровки система досліджує мовлення кожного мовця окремо, а сам процес займає всього кілька секунд.
За матеріалами:
hightech.fm
Якщо Ви помітили помилку, виділіть необхідний текст і натисніть Ctrl+Enter , щоб повідомити про це.

Поділитися новиною

Підпишіться на нас