Наша взаимовыгодная связь https://banwar.org/
Дочірня компанія корпорації Google під назвою DeepMind, що займається розробкою і поліпшенням штучного інтелекту, представила вдосконалений алгоритм для синтезу людської мови WaveNet. Для досягнення більш реалістичного результату команда розробників використовувала власну систему ІІ.
Куплена в 2014 р, британська компанія DeepMind вже встигла завоювати серйозну репутацію завдяки програмі AlphaGo для гри в Го, кнопці "стоп" для ІІ і іншим не менш вражаючим проектам. У тому числі і машинного навчання для розуміння природних мов.
Зазвичай системи перетворення інформації в мова використовують вже готові аудіозаписи голосу. Спеціальна програма ідентифікує і виділяє потрібні звуки, класифікує їх за допомогою доступних даних, складаючи пропозиції. Така система називається компілятивним синтезом. Метод отримав свою популярність завдяки використанню в популярних голосових асистентів, наприклад, Google Voice Search. Однак, у цього методу є досить істотний недолік, а саме - труднощі при модифікації голосу для зміни емоційної складової мови або акценту.
Такий стан речей призвело до попиту на альтернативний метод - параметричний TTS . По суті, це машинна генерація мови, що виключає описані для методу компілятивного синтезу мінуси. Втім, є інша проблема. Подібний підхід має характерні для машинного голосу "синтетичні" риси і сприймається мозком інакше, ніж звичайна людська мова. Особливо це стосується англійської мови (особливості фонетики).
Робота алгоритму WaveNet вирішує проблеми параметричного і компілятивного синтезів. Його суть полягає в поточечной генерації профілю звукової хвилі по семплам. Розробники використовували нейросеть типу FCN . Її архітектура схожа з рекурентними і свёрточнимі нейросетями ( PixelRNN і PixelCNN ).
WaveNet - свёрточная нейросеть. Кожен шар тут має свій множник розширення (дивись анімацію). Це дозволяє рости рецептивної полю експоненціально, покриваючи безліч часових відрізків. Раніше подібну дію вимагало значно більших потужностей. Можливість генерувати складні природні зображення по одному пікселю і колірному каналу за момент часу - результат адаптації двовимірної PixelNets в одновимірну WaveNet.
Навчання даної мережі відбувається шляхом входять послідовностей, які представляють собою звукові хвилі прикладів записи голосу. На кожному кроці семплінгу значення обчислюється з імовірнісного розподілу розрахованого мережею. Потім це значення повертається на вхід, після чого відбувається нове пророцтво для наступного кроку. Створення семплів, таким чином, є досить ресурсномісткою завданням, але це необхідно для генерації складних звуків.
Потім розробники вирішили перевірити реалістичність свого методу за допомогою сліпих тестів. Присутніх добровольців попросили оцінити "природність" зразків за шкалою від одного до п'яти. В результаті WaveNet отримав найвищу оцінку серед згаданих в статті синтезаторів мови. Тим самим скоротивши розрив між штучної та природної промовою майже на 50%.
З огляду на гнучкість WaveNet, система може самостійно синтезувати подобу людської мови. В даному випадку вона використовує отримані знання про те, як повинен звучати кожний наступний звук. Це дозволяє нейромережі не просто імітувати мову, а привносити в неї емоційне забарвлення.
І те, що недоступно в випадку з компілятивним синтезом, для WaveNet не проблема.
Але і це не все. Крім людської мови, WaveNet також може бути використана для створення музики (16кГц).
WaveNet поки ніде не використовується, так як вимагає серйозних обчислювальних потужностей. Втім, розробники не виключають, що знайдуть їй застосування.
Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту і натисніть Ctrl + Enter.