Нейросеть навчилася реалістично імітувати мову людини

Наша взаимовыгодная связь https://banwar.org/

Matthew Keefe / Flickr

Британська компанія Google DeepMind представила новий алгоритм для синтезу людської мови під назвою WaveNet. В його основі лежить використання нейромереж, що дозволяє домогтися більш реалістичною імітації голосу. Стаття розробників, описує програму, доступна на сайті компанії.

Як правило, в системах перетворення тексту в мову використовуються готові аудіозаписи голоси людей. Програма виділяє з них звуки і компонує їх на основі введених даних, що дозволяє домогтися досить природного звучання - хорошим прикладом в даному випадку може служити помічник Siri або Google Assistant. Однак такий підхід, відомий як компіляційний синтез, вельми обмежений, тому що для того, щоб можна було створити нового голосового асистента або просто змінити тон мови, потрібна наявність людини, який запише всі можливі звуки для бази даних.
Зразок компіляційного синтезу мови:

Існує також і альтернативний метод, параметричний синтез, якій використовує повністю згенерований комп'ютером голос, і не вимагає бібліотеки «живої» мови. Його робота ґрунтується на вже заданих параметрах, відповідних правил граматики і принципам вимовляння звуків. Проте, на виході виходить досить «машинна» за звучанням мова.
Зразок параметричного синтезу мови:

Робота алгоритму WaveNet полягає в поточечной генерації профілю звукової хвилі за допомогою спеціальної нейромережі. Її навчили за допомогою записів голосу диктора, але звукові фрагменти цієї бази система не використовує, вона генерує їх самостійно. При створенні програми розробники використовували нейросеть типу FCN (Fully convolutional network), архітектура якої була натхненна рекуррентной нейромережею PixelRNN і сверточное нейромережею PixelCNN . Кожен сверточних шар в цій мережі має свій множник розширення, завдяки якому її рецептивної полі, тобто частина інформації, яку обробляють нейрони, зростає експоненціально. По суті, це дозволяє програмі охоплювати відразу велику кількість часових кроків. У нейромережі також передбачена зворотний зв'язок, тому кожен наступний звук машинної мови генерується на основі безлічі попередніх. Як повідомляють розробники, WaveNet може пам'ятати 2-3 попередні фонеми.

Анімація, що показує принцип роботи FCN-нейромережі в WaveNet

WaveNet

Шар, наступний за вхідним, має множник розширення дорівнює одиниці. Подальший множник вже дорівнює двом, що йде за ним - чотирьом, а множник вихідного шару вже дорівнює восьми.

A¨aron van den Oord et al / WaveNet

Для навчання FCN-нейромережі були взяті аудіозаписи голоси жінок, які говорять на північно-американському англійською мовою, які в сумі тривали 24,6 годин. Дослідники також використовували 34,8 годин аудіозаписів мандаринського китайської мови. Для реалістичного перекладу написаного тексту в усне мовлення розробники додатково навчили WaveNet враховувати лінгвістичні особливості тексту: на рівні слів, як правило, це довжина слова в складах і ударна голосна, на рівні пропозицій - порядок слів, його довжина і тип (розповідний, восклицательное або питальне ).
У підсумку, дослідники отримали програму, яка досить реалістично переводить письмову мову в усну. Розробники перевірили якість роботи системи за допомогою сліпих тестів, в яких вони просили добровольців оцінити природність звучання зразків голосу за шкалою від 1 до 5. В результаті, WaveNet отримав найвищу оцінку серед усіх вищезазначених синтезаторів мови, скоротивши попередній розрив в балах між штучної та натуральної промовою майже на 50 відсотків.

Середні оцінки для кожного методу, отримані в ході 100 порівняльних тестів. Персиковим кольором показаний компіляційний синтез, за ним слід параметричний. Блакитним кольором представлена програма WaveNet, а зеленим - справжня людська мова.

Aaron van den Oord et al / WaveNet

Зразок синтезу мови програмою WaveNet:

Цікаво, що WaveNet на основі аналізу вихідних форм звукових хвиль навіть без заданого тексту може самостійно синтезувати подобу людської мови. У такому випадку вона грунтується лише на прогнозах про те, як повинен звучати кожний наступний звук, коли він слід за деяким попереднім. Це дозволяє нейромережі імітувати звучання голосу окремого диктора і якість аудіозапису, а також дихання говорить і рух його губ. В ході експерименту вона змогла правдоподібно згенерувати мова 109 людей. Що виходять в результаті такої роботи записи звучать як реальна мова, але при цьому не мають сенсу.
Зразок синтезу мови програмою WaveNet без заданого тексту:

Розробники DeepMind також додатково навчили систему за таким же принципом самостійно створювати короткі композиції на фортепіано на основі аналізу класичної музики. Таким чином, програма виявилася придатна для виконання досить різних завдань.

Зразок синтезу музики програмою WaveNet:

згідно повідомленням The Verge, на поточний момент WaveNet не використовується ні в одному з продуктів Google, так як технологія вимагає великих обчислювальних потужностей. Однак розробники не виключають таку можливість в майбутньому.

Нещодавно російський програміст Mik Ketov використовував нейронну мережу зі зворотним зв'язком для генерації твітів в стилі Рамзана Кадирова. Для створення системи генерації тексту розробник користувався алгоритмом char-rnn, який лежав в основі роботи системи DeepDrumpf , Що створює твіти на основі стенограм дебатів кандидата в президенти США Дональда Трампа. Char-RNN працює як генератор тексту, де кожний наступний символ передбачається на підставі безлічі попередніх - цей принцип дуже нагадує принцип роботи WaveNet.

Христина Уласович

Разработка сайта для Вашего бизнеса. Веб дизайн. Дизайн логотипа, фирменного стиля, рекламная фотография . Комплексный рекламный креатив.

Нейросеть навчилася реалістично імітувати мову людини