Neuroninis tinklas mokė beveik tobulai atkartoti žmogaus balso

Pernai bendrovė DeepMind, užsiima dirbtinio intelekto technologijų plėtrai, bendra informaciją apie savo naujo projekto WaveNet - giliai neuroninis tinklas mokymosi naudojamas sintetinant realų žmogaus kalbą. Prieš kelias dienas jis buvo išleistas patobulinta versija šią technologiją, kuris bus naudojamas kaip mobilus skaitmeninis asistentas Google Assistant pagrindu.

Neuroninis tinklas mokė beveik tobulai atkartoti žmogaus balso

, balso sintezės sistema (taip pat žinomas kaip konvertavimo funkcija "tekstas į kalbą", teksto į kalbą, TTS) paprastai pastatytas ant vieno iš dviejų pagrindinių metodų pagrindu. Sujungimas (ar kompiliacija) metodas apima frazių statyba, rinkdama individualius vienetų įrašytų žodžių ir jų dalių įrašytų dalyvavo kopijavimas aktorius. Pagrindinis trūkumas šio metodo yra nuolatinio keitimas garso bibliotekoje poreikis, kai yra kokių nors atnaujinimų ar atliekami kokie nors pakeitimai.

Kitas metodas yra žinomas kaip parametrinio TTS, ir jo funkcija yra parametrų rinkinių, su kuria kompiuteris generuoja frazę naudojimas. Minuso metodas, kuris dažniausiai rezultatas parodytas nerealu, arba vadinamojo robotų garso forma.

Kaip WaveNet, ji gamina garso bangas nuo antžeminės sistemos operacinės ant sąsūkos neuroninio tinklo, kur garsas yra sukurtas keliais sluoksniais pagrindu. Pirma platforma sintezės mokymas "gyvai" kalbą ji "šeriami" didžiulis pavyzdžių, pažymėdamas, kai pypsi garsas būtų realistiškas, o kurie ne. Ji suteikia balso sintezatorius, galintis atkurti natūralistinis tonusą ir net Išsamiau pavyzdžiui, lūpų trenkiesi garsų. Priklausomai nuo to, kokios kalbos pavyzdžių yra paleisti per sistemą, ji leidžia ją sukurti unikalų "akcentas", kuri ateityje gali būti naudojama siekiant sukurti daug skirtingų balsų.

Uszczypliwy

Galbūt didžiausias apribojimas WaveNet sistema buvo tai, kad jos darbas buvo reikalaujama turėti didžiulis skaičiavimo galios, ir net jei ši sąlyga nėra skirtingi greičio. Pavyzdžiui, norėdami sukurti 0, 02 sekundžių garso užtruko apie 1 sekundę laiko.

Po darbo metus DeepMind inžinieriai dar rado būdą, kaip pagerinti ir optimizuoti sistemą, kad dabar ji yra pajėgi žalio skambesį vieną sekundę tik 50 milisekundžių, kuri 1000 kartų greičiau nei originalių savybių gaminti. Be to, tie, kvalifikacijos galima padidinti garso atrankos dažnį nuo 8-bit 16-bit, kuris turi teigiamą poveikį bandymų metu klausytojus. Dėl šių pasiekimų, už WaveNet atvėrė kelią į integracijos į vartotojų produktų, tokių kaip "Google" asistentas.

Šiuo metu WaveNet gali būti naudojamas generuoti anglų ir japonų balsus per Google padėjėjo ir visas platformas, kur skaitmeninis asistentas yra naudojamas. Kadangi sistema gali sukurti specialaus tipo balsavimo, priklausomai nuo bandinių rinkiniu buvo ji skiriama mokymui, tada "Google" netrukus, greičiausiai, bus pristatyti į WaveNet paramos sintezės realų kalbą ir kitomis kalbomis, įskaitant ir susijusią su jų vietiniai dialektai. Kalbos sąsajos tampa vis labiau ir labiau paplitęs ant platformų įvairovę, bet jie aiškiai nenatūralus pobūdis garso išjungimo daug potencialių vartotojų. Mėginimai įmonė DeepMind patobulinti šią technologiją, žinoma, prisideda prie platesnės sklaidos balso sistemos, ir pagerinti vartotojo patirtį jų naudojimo.

Su britų ir japonų susintetintas kalboje naudojant neuroninių WaveNet tinklą, pavyzdžiui, gali būti atvertas spustelėję šią nuorodą.