Český a slovenský zahraniční časopis  
     
 

Květen 2007


Hej, počítači, pusť mi blues

Luděk Zadražil

Učí autorádia rozumět příkazům. Pracuje na takzvaných překladačích, které převádějí mluvenou angličtinu na mluvenou arabštinu a zpět. Podle Jana Šedivého budeme dříve nebo později všichni ovládat počítač hlasem.

K čemu je strojové rozpoznávání řeči dobré?

Řeč je jedním ze způsobů, jak lze ovládat počítač. Klávesnici a myš doplňují nebo úplně nahrazují mluvené povely.

A proč dobře sloužící klávesnici a myš nahrazovat?

Existují situace, kdy jsou ruce i oči zaměstnány, a proto nemůžete zařízení řídit jinak než hlasem. Třeba v automobilech, které jsou dnes rozhodně největším odvětvím, kde se rozpoznávání hlasu prosazuje. Dalším využitím je analýza přirozeného jazyka. Používá se pro monitorování všeho, co lidé řeknou, třeba v rádiu nebo televizi. Vezměte si třeba vyhledávač Google. Používá rozpoznávání řeči pro videa. Akustickou část vysílání konvertuje systém na text a tím umožňuje lidem vyhledávat v pořadech pomocí slov. Takže si třeba najdete, kdy se na CNN mluvilo o České republice.

Jde tedy o to, že počítač pozná nejen povely, ale i plynulou řeč?

Nejenže počítač rozpozná řeč, ale dovede rozpoznat i smysl a obsah řeči, převést informace obsažené ve větě do strukturované podoby a zapsat je do databáze. Pro toho, kdo tohle bude umět pořádně, to bude z tržního pohledu terno. Jde o to, dostat z prosté mluvy všechny informace. Když si například pan Koníček bude jen tak v telefonu s někým povídat o tom, jak se jmenuje, kde bydlí a co dělá, počítač to dokáže „pochopit“ a do databáze vyplnit do kolonek příslušné údaje.

To zní jako na zákaznické lince.

Vždyť ty jsou jedním z největších oborů, kde se dnes rozpoznávání řeči používá. Na začátek hovoru přidáme „rozpoznávač“ řeči. I když jen zjistí, co člověk potřebuje, a přepojí ho na konkrétního operátora, společnosti tím ušetří mnoho operátorů a tím sníží náklady.

A něco více pro běžný život?

Možná se brzy objeví zajímavé aplikace pro hlasové procházení internetu. Také by bylo užitečné ovládat internet řečí, ale možná také ne. To zatím nikdo neví, dokud nevytvoří konkrétní program a ten neotestuje na lidech. Nejdůležitější je, aby bylo hlasové ovládání užitečné. Když musím luxovat, chci to dělat tak, abych měl co nejdřív hotovo. Stejné je to s řečí: musí mi pomoci zvládnout úkoly co nejrychleji. Vezměme si třeba e-mail - je přece nesrovnatelně pohodlnější, když jen řeknete: „Ukaž mi maily od pana Kratochvíla za poslední měsíc“, než ta spousta úkonů, které musíte udělat pomocí klávesnice a myši. A samozřejmě musíte vědět, jak se to dělá. Říci to je přirozené a jednoduché. A porozumět takovému příkazu už pro dnešní programy není složité.

Zatím ale není hlasové ovládání osobních počítačů příliš běžné.

Klávesnice a myš jsou standardním vybavením, ale mikrofon už každý nemá. Ovšem začíná se to měnit a s rostoucí oblibou internetového telefonování už si mikrofon pořizuje spousta lidí. I skoro všechny notebooky mají mikrofon. Navíc přibývá kamer a kombinací videa a zvuku už můžeme získat o člověku před počítačem spoustu informací.

Jde vždy o hledání významu? Nebo je i jiný důvod, proč může počítač člověka poslouchat?

Ano, třeba systém „reading companion“ pomáhá americkým přistěhovalcům s výukou angličtiny. Kontroluje studentům, dětem imigrantů, správnou výslovnost. Vyberou si elektronickou knihu a čtou podle toho, jak jim to panáček u textu ukazuje. Počítač přitom poslouchá a kontroluje jejich výkon.

Nejběžnější využití, s nímž se může člověk setkat, je tedy v autě. Jde o striktní příkazy, nebo už si lze s autorádiem či navigací povídat?

Dlouho platilo, že rozhovor s člověkem vede přístroj: ptal se ho a člověk z nabídnutých odpovědí vybíral. Iniciativa ale přechází od stroje k člověku. Systém se prostě zeptá: „Jak vám dnes mohu pomoci?“ a tím vám dává šanci, abyste vedli dialog. Ono to tak tedy nikdy nedopadne, protože program potřebuje zkompletovat dotaz, a tak se vás stejně ptá na upřesňující informace. Třeba nákup letenek: řeknete, že chcete do New Yorku, ale systém se vás hned zeptá, na které letiště, pak chce vědět, kdy to bude, jakou chcete třídu a tak dále. Nicméně máte možnost s konverzací začít.

A co obyčejné spotřebiče v domácnosti, budou nám už brzy rozumět? Co třeba poručit televizi, ať přepne na jiný kanál?

O tom se hodně mluví a všichni by to chtěli, ale má to háček: když chodíte po obývacím pokoji, tak u sebe nemáte mikrofon. A zabudovat do televize mikrofon, který by vám rozuměl na dálku, je dost složité. Jde to, nicméně cena je příliš vysoká.

A jak je to s diktováním počítačové sekretářce? V angličtině to docela funguje, ale co čeština? Je o tolik těžší?

Angličtina má jen jednu nevýhodu: slovo se často čte úplně jinak, než se píše. V češtině je to až na pár výjimek jednoduché, většinou čtete to, co vidíte. Ovšem hrozné je skloňování a časování. Když si vezmete Wall Street Journal, tak vám na pokrytí 95 procent textu stačí v angličtině slovník o dvaceti tisících slov. V češtině jde o miliony, protože potřebujete mít ve slovníku všechny tvary. Některá přídavná jména potřebují až sto šedesát tvarů.

Takže ve slovníku musejí být opravdu všechny varianty?

Ano, protože jde o seznam všech slov včetně jejich výslovnosti. To, co řeknete do mikrofonu, se promění na nějaké napětí a proud, což se pak převádí na čísla. Slovník obsahuje u všech slov jejich popis právě v těchto číslech.

A co jiné jazyky? Jsou některé mimořádně jednoduché a jiné naopak velmi těžké?

S italštinou nebo španělštinou se pracuje výborně. Každý foném je jasný, separovaný, snadno ho oddělíte a poznáte. Akustika je tam úžasná. Specifická je také čínština. Každá hláska má různé významy podle tónu, kterým ji řeknete. Speciálně pro tento jazyk tak musíme jako součást rozpoznávání hlasu používat také systém, který určí tón. Proto je také tak těžké naučit se čínsky. Naopak japonština je lehká. Když zopakujete něco, co jste slyšeli od Japonce, je velká pravděpodobnost, že vám bude rozumět. Takže i pro počítač je to snadné. Komplikace přináší jen velké množství slov, která mají různé významy podle kontextu. Systém snadno rozumí, ale je pro něj těžké přesně pochopit. Naštěstí obsahuje japonština spoustu zdvořilostních frází, které můžete prostě vypustit, protože nenesou žádnou informaci.

Vaše oddělení pracuje také na překladači MASTOR používaném americkou armádou v Iráku. Jaká je jeho přesnost?

Systém se naštěstí zaměřuje na určité tematické okruhy. Takže třeba pro nemocnici počítáte s tím, že pacient mluví o tom, co ho bolí. Na takové použití je automatický překladatel ideální. Podobné je to se zařízením, které překládá mezi angličtinou a japonštinou. Je určené pro turisty, takže předpokládáte určitá témata, jako „kde je nejbližší pumpa“. Když mu ale řeknete, že zítra půjdeme s Maruškou na hřbitov, protože jsou Dušičky, tak určitě fungovat nebude.

Jan Šedivý v roce 1977 absolvoval ČVUT, o pět let později získal doktorát. Od roku 1992 pracoval v newyorském Výzkumném centru T. J. Watsona společnosti IBM. Od roku 2000 je vedoucím skupiny hlasových technologií a systémů české pobočky společnosti IBM. Je jedním z hlavních tvůrců programu pro rozpoznávání hlasu Embedded ViaVoice. Jeho skupina se dnes věnuje vývoji nových uživatelských rozhraní, která využívají hlas, gesta a další netradiční vstupy. Současně pracuje také na několika evropských grantových projektech.

(Týden)Zpátky