Q:
Jaký je rozdíl mezi řečí a textem?
A:Četné významné rozdíly mezi technologiemi řeči na text a chatboty jsou součástí toho, co se zkoumá v rychlém vývoji chatbotových a hlasových projektů.
Technologie převodu textu na text je jednoduše technologie, která převádí slovní projev na text na digitální stránce. To je jeho plná funkce, ale není to ten, který je jednoduchý na design. Aby bylo možné převést verbální řeč na text, musí technologie rozdělit slova a věty na jednotlivé fonémy a pracovat s nimi podle složitých algoritmů, aby se vytvořil přesný text, který představuje to, co řekl řečník.
Chatbots, na druhé straně, jsou technologie, které dosahují cíle komunikace s člověkem. Existují dva typy chatbotů: textové chatboty a hlasové roboty. Textové chatboty jsou už mnohem déle, protože nepotřebují element řeči k textu, který hlasové roboty využívají.
Hlavní rozdíl mezi technologiemi řeči na text a chatboty je rozsah. Jak již bylo zmíněno, veškerá technologie řeč-text musí být přepsána slovní řeč. Chatbot, na druhé straně, musí brát řeč v jakékoli formě, pro kterou je vytvořen, pochopit ji a poskytnout odpovědi, které usilují o úspěšné absolvování Turingova testu - test, zda technologie může člověka oklamat, aby si myslel, že on nebo ona je mluvit s jinou osobou.
S ohledem na to jsou chatboty mnohem jednodušší než hlasové roboty. Chatbot bere lidský text a poskytuje textovou odpověď. I relativně jednoduché chatboty dokázaly lidem přinést zajímavé a příjemné výsledky od konce 80. a počátku 90. let.
Voicebot, na druhé straně, musí přijímat verbální řeč, převádět ji na text, kontrolovat její přesnost, produkovat odpověď a sestavovat tuto odpověď ze strojového jazyka do slyšitelné řeči. Tento velký počet poměrně významných úkolů znamená, že sestavení hlasového robotu vyžaduje hodně výpočetního výkonu a spoustu designu.
Projekty jako Siri, Cortana a Alexa předvádějí část předvoje hlasových technologií. Také ilustrují, že tato technologie je stále v plenkách. Ačkoli Alexa a další technologie dokážou slovně reagovat na lidskou řeč, nejsou příliš schopné v tom smyslu, že se spojujeme s verbální lidskou řečí obecně. Jinými slovy, odpovědi, které tyto technologie mohou poskytnout, jsou dosti omezené. Dnešní generace osobních asistentů má dokonce omezenou schopnost skutečně generovat řeč k textu, například za účelem přepsání e-mailu nebo pomoci někomu napsat esej bez použití rukou. Některé specifické programy převodu textu na text to dělají lépe než Siri nebo Cortana, pravděpodobně kvůli přidělení zdrojů. Existují však náznaky, že se hlasový pokrok brzy začne rozbíhat - například platforma Amazon Lex, která umožňuje studiové prostředí pro vytváření těchto typů technologií.
V chytrém a poučném eseji na toto téma Tobias Goebel hovoří o rozdílu mezi těmito technologiemi, kontrastuje s procesem „přepisování“, který projevuje text, do práce s porozuměním, které by chatboti měli dělat.
"Ačkoliv se eliminuje potřeba rozpoznávání řeči, chatbotovi věci usnadní, hlavní výzvou k vybudování funkčních robotů je porozumění přirozenému jazyku, " píše Goebel.
Goebel také identifikuje mnoho současných hráčů v oboru:
Lídrem na trhu pro rozpoznávání řeči je Nuance, který stojí za známými systémy, jako je Dragon NaturallySpeaking pro diktování na počítači, který existuje již od devadesátých let, ale také Siri: úloha rozpoznávání / přepisu řeči prováděná v cloudu Apple používá Nuance technologie v zákulisí. Jinými jsou LumenVox, Verbio nebo Interactions, ale rozpoznávání řeči je nyní také nabízeno jako cloudová služba prostřednictvím API jako Amazon, Google, Microsoft a IBM.
Jak se chatboty vyvíjejí, předpokládá se, že jejich porozumění se bude v některých trajektoriích dále zvyšovat - a také se do značné míry předpokládá, že z textových rozhraní na slovní rozhraní bude předávat více bot technologie, což vyžaduje další množství výpočetního výkonu.