Domov Zvuk Slyším mrtvé lidi? Technologie přirozeného jazyka oživuje minulé i současné hlasy

Slyším mrtvé lidi? Technologie přirozeného jazyka oživuje minulé i současné hlasy

Obsah:

Anonim

V dnešní době je většina počítačových hlasů passé. Pravděpodobně se příliš nezbavíte kyborgů a robotů, když v telefonu uslyšíte „droida“, který vám pomůže s placením účtu nebo se zeptáte, jaké oddělení chcete. Ale co když jste najednou slyšeli, jak vás Kurt Cobain prosil o informace o kartě? Nebo vám John F. Kennedy říká o zázrakech předčasného hlasování? Nebo Elvis zbavil své jméno a adresu, než se vloupal do „kusu, kusu hořící lásky?“


To vše by bylo … trochu divné, ale ještě fascinující je, že tato technologie je v podstatě již tady. Asi před deseti lety nás ohromila schopnost počítače vůbec mluvit. Nyní budeme mít podlahu volným dosahem, počítačem generovanými hlasy, které zní stejně jako lidé, které známe.

Velké změny v NLP

Pokud věnujete pozornost oblasti zpracování přirozeného jazyka (NLP), možná jste slyšeli o nedávných pokrokech, které jdou nad rámec druhů konzervovaných hlasů virtuálního asistenta, které nyní slyšíme v našich globálních pozičních systémech (GPS) a automatizovaném podnikání. telefonní linky.


Začátek NLP vyžadoval spoustu výzkumu obecné mechaniky lidské řeči. Vědci a inženýři museli identifikovat jednotlivé fonetiky, složit je do větších algoritmů pro generování frází a vět a potom se pokusit vše spravovat na meta-úrovni, aby vytvořili něco, co znělo skutečně. Postupem času to zvládli vůdci NLP a začali budovat pokročilé algoritmy, aby pochopili, co lidé říkají. Spojením těchto dvou společností společnosti přišly s ovladači pro dnešní virtuální asistenty a plně digitální úředníky s platy, jejichž manýrismy - i když otravné - jsou stále úžasné, když přestanete přemýšlet o práci, která do nich šla.


Nyní některé společnosti překračují obecný virtuální hlas a vytvářejí konkrétnější personalizovaný výsledek. To vyžaduje projít lexikonem konkrétní osoby a sbírat velké množství jedinečného hlasového videa, poté použít tento archiv na složité rytmy pro fonetiku, důraz, kadenci a všechny ostatní drobné narážky, které lingvisté často seskupují pod širokým praporem „prozodie“.


Vychází hlas, který posluchači považují za „vlastněný“ konkrétní osobou - buď někoho, koho znají a mluvili s ním, nebo někoho, jehož hlas rozpoznávají v důsledku slávy osoby.


Od Elvisa po Martina Luthera Kinga může být kdokoli hlas nyní „klonován“ tímto způsobem - za předpokladu, že je zaznamenán významný záznam jejich řeči. Díky použití podrobnější analýzy a manipulace na jednotlivé malé zvuky jsou společnosti schopny vytvořit virtuální uhlíkovou kopii něčího hlasu, který zní podobně jako skutečná věc.

Vzrušující výtvory „Text to Voice“ ve společnosti VivoText

Například VivoText je jedna společnost, která pracuje na revoluci v používání umělých lidských hlasů pro všechny druhy kampaní, od zvukových knih až po interaktivní hlasovou odpověď (IVR). Ve společnosti VivoText výzkumné a produkční týmy pracují na procesech, které by teoreticky mohly přesně replikovat hlasy zesnulých osobností, jako je například Ol 'Blue Eyes.


"Klonování hlasu Franka Sinatry bychom vlastně prošli jeho nahraným odkazem, " říká generální ředitel VivoText Gershon Silbert a mluví o tom, jak by tento druh technologie mohl fungovat.


Nyní VivoText pracuje na archivaci hlasů těch, kteří jsou stále s námi, jako je korespondent NPR Neal Conan, který se přihlásil jako model pro tento druh průkopnického projektu IT. Propagační video ukazuje pracovníkům VivoText pečlivě vytvářející moduly fonetického kódu pomocí poskytnutého hlasového vstupu od Conana. Poté vytvoří modely nástrojů pro převod textu na řeč (TTS), které vyvolávají dramaticky lidský a personifikovaný výsledek.


Podle Ben Feiblemana, viceprezidenta pro strategii a rozvoj podnikání ve společnosti VivoText, počítač pracuje na fonémové úrovni (s použitím nejmenších jedinečných částí řeči), aby odpovídal prozodickému modelu pro individuální lidský hlas.


„Ví, jak hlas mluví, “ říká Feibleman a dodal, že pomocí „výběru jednotek“ si počítač vybere několik kusů, které dají dohromady jedno krátké slovo, jako například, kde slovo „pátek“ obsahuje pět složek, které pomáhají rozvíjet zvláštní důraz a tonální výsledek.

Umělý hlas v marketingu

Jak to tedy funguje v marketingu? Produkty společnosti VivoText by mohly být velmi užitečné při vytváření produktů, jako jsou zvukové knihy, které by mohly oslovit cílové publikum. Například, jak účinnější by byl hlas Elvisa ve srovnání s jedním z dnešních generických, mrtvých automatických hlasů, pokud by byl použit k prodeji produktů souvisejících se zábavou?


Nebo co takhle v politice? Feibleman pracuje na různých nápadech, jak tyto projekty využít k posílení marketingu pro společnosti nebo jiné strany, které vyžadují efektivnější zasílání zpráv.


„Pokud víte, že někteří politici kandidují na prezidenta, mohlo by se stát, že 10 milionů voličů houpacích států dostane osobní výzvu od kandidáta, děkuje jim za jejich podporu a řekne jim, kde musí hlasovat, počasí a všechny ověsy. noc před volbami, “řekl Feibleman.

Váš hlas žije

Na všechny tyto technologie existuje další zřejmá aplikace. Společnosti v přirozeném jazyce, jako je VivoText, by mohly vytvořit osobní službu, která by nahrála všechna hlasová data zákazníka do produktu, který by této osobě umožnil „mluvit navždy“.


Praktická implementace by pravděpodobně vyvolala řadu otázek o tom, jak slyšíme a internalizujeme mluvené hlasy. Například, co je potřeba, aby zvukový tok zněl přesně jako někdo jiný? Jak dobře musíme znát osobu, která rozpozná konkrétní hlas? A co je zajímavé, co se stane, když služba v přirozeném jazyce produkuje hrubou karikaturu, spíše než přesvědčivé mimikry?


Hodnocení výsledků, říká Feibleman, často závisí na zvážení kontextu. Například říká, že děti obvykle neptají, kdo mluví, když poslouchají příběh. Chtějí jen víc. Ale také mnoho dospělých nemusí přemýšlet o tom, kdo s nimi mluví, vzhledem ke konkrétnímu scénáři, jako je pasivní vysílání nebo telefonní zpráva. Je také snazší oklamat počítač telefonem, protože tlumený zvuk může maskovat závady nebo jiné nesrovnalosti mezi výsledky počítače a lidským hlasem.


„Nenapadá vás zpochybňovat autentičnost hlasu, “ říká Feibleman.

V roce 2525

Jak společnosti postupují vpřed ve vývoji produktů a služeb a odpovídání na tyto otázky, technologie „živé řeči“ by nás mohly posunout směrem ke konvergenci technologie a lidské mysli, která se klasicky nazývá umělá inteligence (AI).


Pokud počítače umí mluvit jako my, možná budou moci přimět ostatní uživatele, aby si mysleli, že si myslíme jako my, a přivádějí se k většímu principu singularity, jak to do našeho lexikonu uvedl John von Neumann, technologický průkopník z 50. let, který evangelizovali spisovatelé a myslitelé jako Ray Kurzweil. Kurzweilova kniha z roku 2005 „Singularity is Near“ („Singularity is Near“), některé vzrušuje a jiné děsí. Kurzweil předpověděl, že do roku 2045 se „inteligence“ jako jev velmi silně zbaví lidského mozku a migruje do technologie, čímž zamlžuje linie mezi stroji a jejich lidskými pány.


Nesmrtelný v textech Zager & Evans 'V roce 2525' (nikdo nemá strašidelné sci-fi balady jako tito kluci) …


V roce 4545

Nebudete potřebovat zuby, nebudete potřebovat

tvé oči

Nenajdete nic, co by bylo možné žvýkat

Nikdo se na tebe nebude dívat


V roce 5555

Vaše paže visí po tvém boku

Vaše nohy neměly co dělat

Nějaký stroj to pro vás dělá


Jsou počítačové hlasy krokem tímto směrem? Jako nový způsob, jak outsourcovat některé funkce lidského těla (nebo častěji, simulovat je), je tento druh technického pokroku jedním z největších - a pravděpodobně nedostatečně ohlášených - pokroků na obzoru, když se podíváme na jedinečnou budoucnost . (o "singularitě" v Budou počítače schopny napodobit lidskou mysl?)

Slyším mrtvé lidi? Technologie přirozeného jazyka oživuje minulé i současné hlasy