Négy hét alatt tanult meg magyarul a Google

2012-08-23 Google tudomány

A hét eleje óta működik magyar nyelven is a beszédalapú keresés az androidos okostelefonokban – a most élesített 13 új nyelvvel együtt már 46 nyelven ért a Google Voice Search szolgáltatása. A fejlesztésről – a magyar nyomtatott sajtóban egyedüliként – exkluzív videointerjúban kérdezhettük Pedro Morenót, a Google beszédtechnológiai kutatásainak vezetőjét.

Azt gondolnánk, hogy egy ilyen szolgáltatásbővüléshez frissíteni kell a telefon szoftverét. De a Google számos funkciója „felhőalapú”, azaz a számításigényes feladatokat nem a használó készüléke, hanem a lényegében végtelen számú gépből álló hálózat végzi. Ezért a magyar (és további 12 új) nyelv megértését egyik pillanatról a másikra, a kifejlesztett funkciónak a felhőn való engedélyezésével lehetett bevezetni. Így történt a Voice Search esetében is.

Mint megtudtuk, a „hangos” keresés algoritmusa minden nyelven ugyanazt a sémát követi: a használó elmondja a keresőkifejezést, a telefon pedig a mobil- vagy wifi-internetkapcsolaton elküldi a digitalizált hanganyagot a felhőnek, néhány egyszerű paraméter kísére tében. Ilyen például a nyelv, jelen esetben az, hogy a hanganyag magyar. A Voice Search funkció a rendelkezésre álló magyar erőforrások – hangi adatbázis, hang-szótag (valójában fonéma, hangzási egység) megfelelési adatbázis, szabályok stb. – segítségével betűsorozattá alakítja, és azt átadja a Google-keresőnek, mintha a használó a szokásos módon begépelte volna. Ezután megérkeznek a találatok, és a karaktersorozatokat a fenti eszközök segítségével a felhő digitalizált beszéddé alakítja, a hálózat pedig kiküldi a telefonnak, amelyen a Voice Search kisalkalmazás lejátssza a beszédet.

Pedro Moreno tájékoztatása szerint mintegy négy éve kezdték el a beszédtechnikai fejlesztéseket a Google-nál. Az angolnyelv-változatok kidolgozása, az alapkutatásokat beleértve, egy évig tartott. A szerzett tapasztalatok alapján a további munka már sokkal gyorsabb, most egy-egy európai (például a svájci német) nyelvváltozatú Voice Search megvalósításához mindössze négy hét elegendő. A most bevezetett 13 nyelv „honosítása” is ennyi ideig tartott: nyelvenként egy-egy csoport dolgozott rajtuk párhuzamosan, néhány héten keresztül. A munka része a fonémák ejtésváltozatait tartalmazó alapadatbázis felállítása, amelyet a „terepre” (Magyarországra) kiküldött expedíció végez. Jellemzően egyetemi nyilvános eseményeken gyűjtenek.

Megkérdeztük, hogy a Google szerint is nehéz-e a magyar nyelv.

Moreno úr először is leszögezte, hogy az emberek általában gyönyörűnek tartják a nyelvüket, és sokuk szerint nagyon nehéz azt megtanulni. Ezzel szemben a Google beszédértéssel és -szintézissel foglalkozó csoportja szerint a magyar nyelv nem támasztott különleges kihívásokat. Az indoeurópai, szigorúan szabályalapú nyelveken (angol, spanyol, portugál, francia, szláv nyelvek, a német stb.) könynyebb volt teljesíteni a feladatot, mint magyarul, de az igazi nehézségeket a keleti nyelvek okozzák, azok közül is a thai számtalan bonyolult hangzója. A magyar nyelvi szolgáltatások (például a keresési találatok, javaslatok) megvalósításában az volt a különleges, hogy mi igen gyakran ékezetek nélkül gépeljük be a keresőkifejezéseket, amelyeket így át kell „ereszteni” a helyesírás-ellenőrzőn, hogy a keresett dokumentumokban helyesen szereplő kifejezésekkel egyezzenek. (Ez a magyar felhasználók személyes tapasztalata is: az ékezeteket a számítógép és az internet nem igazán „szereti”.) Egyébként a franciák is és a spanyolok is ugyanígy járnak a különleges betűfüggelékeikkel. De a „skoda” keresésére is a a „hacsek” jellel ellátott „Skoda”-változatot kapjuk vissza.

A jövőre nézve Pedro Moreno megígérte, hogy a nyelvi képességek javulni fognak, elsősorban a használat révén folyamatosan bővülő adatbázisok következtében: a rendszer tanul. Az „értő” szolgáltatásokra még várni kell, a nemrég beindított intelligens, válaszoló mechanizmus, a Knowledge Graph lokalizálása nagyságrenddel nehezebb (és drágább). De azért aki észrevette SMS írásakor az androidos billentyűzeten a mikrofon gombot, az tudja, hogy eddig is lehetett diktálni, csak nem volt túl sok értelme. Mostantól drámaian javult a magyar szófelismerés: ugyanazt beszéd-szöveg „motort” használja a diktálás is, mint a Voice Search.