Domov Software Technologie rozpoznávání hlasu: užitečná nebo bolestivá?

Technologie rozpoznávání hlasu: užitečná nebo bolestivá?

Obsah:

Anonim

Zavolali jste někdy společnosti, aby vám pomohla nebo zaplatila váš účet, aby vás uvítal příjemný zaznamenaný hlas, který s vámi chce konverzovat - ale nerozumí polovině toho, co říkáte? Nebo možná vlastníte iPhone, a zatímco Siri se nejprve zdála jako dobrý spojenec, uvědomili jste si, že někdy (OK, buďme upřímní, často) to prostě nechápe? Technologie rozpoznávání hlasu (VRT), známá také jako převod textu na řeč, spadá do společné pasti: má potenciál být neuvěřitelně chladný (a chlapče, zakořenili jsme za to), ale častěji je to bruska na zuby cvičení frustrovaně.


Jakmile byl nápad, který patřil do oblasti sci-fi, rozeznávání hlasu rozrostlo z dětství v 50. letech, kdy byl systém Bell Laboratories Audrey navržen tak, aby rozpoznával číslice mluvené jedním hlasem, do moderní sítě konverzační elektroniky, se kterou nyní spolupracujeme na denní bázi - se smíšenými výsledky.

Chcete-li mluvit s člověkem, stiskněte 0

Mnoho dnešních podniků nyní používá systémy zvané interaktivní hlasová odezva (IVR) ke zpracování volání služeb zákazníkům. Nejběžnější použití je pro hlasově orientovaná menu, ale některé společnosti používají systémy IVR, které mají přístup k informacím o zákaznických účtech a zodpovídají drobné otázky. Software Menu IVR má obvykle omezenou slovní zásobu, která může být omezena na „ano“, „ne“ a čísla. Složitější systémy dokáží rozpoznat slova a fráze specifické pro společnost.


Tyto systémy jsou stále populárnější - alespoň pro podniky - z jednoduchého důvodu: jsou nákladově efektivní. Podle zprávy časopisu Wall Street Journal z roku 2010 je typický zákaznický hovor, který dosahuje náklady agenta mezi 3 a 9 $, zatímco hovor prováděný prostřednictvím automatizovaného systému stojí pouze pět až sedm centů. Počítačové programy se samozřejmě neunaví, nezavolávají, ani se nespokojí se zákazníky (i když s nimi určitě zákazníci frustrují!).


Naštěstí to neznamená vždy, že IVR odvádí práci od lidí - nebo alespoň že všichni lidé mizí z call center. Tito hlasově aktivovaní pomocníci umožňují opakování lidských zákaznických služeb být produktivnější pomocí směrování hovorů a odpovídání na jednoduché otázky.


Pro lidské uživatele, kteří s těmito technologiemi interagují, samozřejmě není vždy hladká plachtění. Technologie pomáhá zlepšovat běžné problémy v technologii IVR, jako jsou potíže s přízvuky, ale vyhození automatizovaných systémů je stále online téma online. Podívejte se na tuto komediální parodii o výtahu vybaveném rozpoznáváním hlasu, což zdůrazňuje frustraci, kterou mohou způsobit poruchy v systémech IVR.

Aplikace pro osobní telefony: Siri, Chytré karty Google

Většina lidí je obeznámena s rozpoznáváním hlasu pro chytré telefony. Zatímco většina nejnovějších modelů telefonů přichází s VR, jejich popularita - a notorická pověst - se zvětšila, když Apple představil Siri, mírně sarkastického, hlasem aktivovaného „osobního asistenta“ pro iPhone 4S v roce 2011. Google brzy vytvořil přímého konkurenta: Google Nyní pro operační systém Android Jelly Bean. Oba systémy obsahují ženské hlasy a sofistikované funkce rozpoznávání, které uživatelům umožňují „mluvit“ do svých telefonů pomocí náhodného jazyka.


Ale i když jsou tyto systémy podstatně sofistikovanější a funkčnější než jejich předchůdci, ukazují také, že technologie má ještě dlouhou cestu. Vtipy o Siriho selhání se staly oblíbeným internetovým meme. Jeden muž dokonce žaloval Apple za falešnou reklamu týkající se schopností Siriho.


Možná to je důvod, proč, zatímco Apple vytvořil Siri, aby byl pokročilý a informativní, software VR je také trochu na drzé straně. Pokud například mluvíte o jedné z nejznámějších linií zpravodajských technologií v historii filmu z filmu z roku 1968 „2001: A Space Odyssey“ - „otevřete dveře pod zátokou“ - Siri odpoví buď linkou z filmu, “ Je mi líto (vaše jméno), obávám se, že to nedokážu, "nebo čím víc sarkastický, " my zpravodajští agenti to zřejmě nikdy nebudeme žít. "


Volání jménem je jen jednou z funkcí, které se snaží, aby se Siri snáze miloval, a trochu více člověka. Asistent VR může sledovat hlasové příkazy a provádět hovory, diktovat a odesílat texty, provádět internetové vyhledávání informací, vyhledávat obchody v okolí, dávat trasy jízdy a další, to vše bez nutnosti dotýkat se cokoli. Odpovědi jsou současně vyslovovány telefonem a zobrazovány na obrazovce.


Google Now, VR část platformy Android Jelly Bean, je velmi podobná Siri. Systém nabízí stejné možnosti rozpoznávání tím, že převádí příležitostnou řeč do příkazů, které umožňují uživatelům volat, posílat texty, provádět vyhledávání, provádět výpočty a převody, definovat slova, nastavovat alarmy, přehrávat písně a získávat mapy a směry.


U osobních hlasových asistentů, jako jsou Siri a Chytré karty Google, jsou výhody zřejmé. Vše od volání a posílání textových zpráv po vyhledávání a zábavu je rychlejší a snazší. Stačí říct, co chcete, a (většinu času) aplikace VR popadne za vás. Hands-off technologie VR je zvláště užitečná při řízení. A zatímco mnozí lidé kritizovali nedostatky Siriho a spisovatelé tvrdili, že schopnost společnosti Google Now v podstatě provozovat životy uživatelů je strašidelně trochu urážlivá, většina lidí však stále cítí, že tyto futuristické technologie jsou docela v pohodě.


Osobní telefonní aplikace, jako jsou Siri a Chytré karty Google, samozřejmě nejsou zdaleka dokonalé - ačkoli ukazují, kam by tato technologie mohla v budoucnu směřovat. To znamená, že i když Siri objeví špatnou odpověď, pravděpodobně se budeme smát a odpustit jí, protože víme, že příští verze bude mnohem lepší.

Kde VR padá na rovinu

Pokud jste se někdy setkali s IVR, když jste zavolali do firmy, možná jste si všimli určitých překážek v komunikaci. Některé programy používají robotický hlas převodu textu na řeč, který nesprávně vysvětluje slova a ztěžuje porozumění věcem. Jiní mají problémy s citlivostí, které vedou k tomu, že software nedokáže zpracovat to, co říkáte, pokud jste příliš hlasité, příliš měkké nebo opatrně nevyjadřujete.


Navíc se mnoho lidí stále necítí dobře, když mluví se strojem. Pokud na IVR provedete několik vyhledávání, narazíte na seznamy, které lidé sestavili, jak obejít systémy IVR a dostat se k „skutečné osobě“. Tato řešení sahají od „udržení stisknutí tlačítka 0 pro operátora“ až po „přísahání na stroj, dokud to nepřinese člověka.“ Jako výsledek, hodně z nedávného vývoje v IVR systémech se točil kolem dělat je více chutný pro lidi; Díky tomu jsou hlasy více sympatičtější a méně robotické, usnadňuje navigaci v systému a umožňuje volajícím vědět, jak dlouho bude celá věc trvat od začátku do konce. To naznačuje, že lepší technologie je zde jen polovina bitvy; druhá polovina přivádí uživatele na palubu, když mluví se strojem.

Co přinese budoucnost

Přes tyto výzvy se technologie rozpoznávání hlasu neustále zlepšuje. Aplikace jako Siri a Google Now - nedostatky a všechny - jsou stále mimořádně působivé ve svém výkonu a několik společností rozšiřuje možnosti VR o další aplikace.


Například společnost Nuance, tvůrci softwaru pro převod řeči na text Dragon NaturallySpeaking, již vyvinula hlasové ovládání pro televizory a automobily a verze této technologie jsou začleněny do některých televizorů Samsung a zábavních systémů SYNC používaných v některých vozidlech Ford.


A jak Google a Apple stále hledají nová využití pro své technologie rozpoznávání hlasu, je pravděpodobné, že budeme stále častěji hovořit se všemi druhy běžných strojů, od našich televizorů až po naše topinkovače. A opět to vypadá, že sci-fi měla pravdu. Budeme jen doufat, že se ti chytrí spisovatelé mýlili v jedné věci. Pokud tyto stroje přebírají, mohli byste mít příště potíže při příštím požádání Siri, aby „otevřel dveře pod zátoky“.

Technologie rozpoznávání hlasu: užitečná nebo bolestivá?