Magyar beszédfelismerő program videókra

Az internet történetében az idei amerikai elnökválasztást bizonyára nagy betűkkel jegyzik majd – a világháló meghatározó terepe volt főleg Barack Obama kampánynak. A Google ezúttal egy korábbi fejlesztését is bedobta: a szövegekben elhangzott szavakra lehetett rákeresni egy-egy filmben, és azt a részt elindítani, ahol az adott szót kimondták. Ezt a szoftvert eddig ennyi videóra még nem alkalmazták. Ez az alkalmazás most már magyar nyelven is hozzáférhető.

A Budapesti Műszaki és Gazdaságtudományi Egyetem Fegyó Tibor vezette kutatócsoportjával közösen a Digital Natives nevű magyar cég egy több komponensből álló programot fejlesztett ki, amelynek segítségével magyar videótartalmak is kereshetőek, elemezhetőek és közvetíthetőek lesznek.

A szolgáltatás, amely egy egyszerű csatolófelülettel (API) beépíthető bármelyik médiaportál vagy médiaarchívum mögé, portálfejlesztők, tartalomgazdák, rádió- és televízió-társaságok, vagy bármilyen jelentős mennyiségű magyar nyelvű hanganyaggal rendelkező szervezet számára lehet érdekes. A cégek belső használatán túl a portálokra látogatók is hasznát vehetik a keresőnek – s bár egyelőre „csak” a szolgáltatást megvásárló cégek weboldalain, feltehetően nincs messze, amikor akár az interneten lévő összes videóra is gyorsan kereshetünk az elhangzott szavak alapján.

„Maga a rendszer két modellen alapul. Az akusztikus modell azt a hangkörnyezetet írja le, amiben a beszélgetés elhangzik. Ez lehet stúdióban elhangzott szöveg vagy egy diktafonra háttérzajjal rögzített hanganyag, vagy akár egy telefonbeszélgetés.- mondja el Béky Milkós, a cég ügyvezetője. - A rendszer egészen kis egységekre, morfémákra bontja fel a szövegeket; a magyar nyelvnél ez a ragozás miatt fontos. A másik a nyelvi modell, amely megadja azt a tematikát, amilyen környezetben a szöveget fel kell ismerni.”

Értelemszerűen más szavak hangoznak el művészetről szóló filmekben, vagy politikai témájú anyagokban. A nyelvi modell több algoritmus mentén tudja beazonosítani a szavakat, így például olyan statisztikát is számol, hogy tipikusan milyen szavak mi után következnek. Mindezt még csak adott témákban lehet megvalósítani, olyan program még nincsen, amely bármely tematika szókészletével tudna dolgozni. Pillanatnyilag 200 000 szóból álló adatbázist fejlesztettek ki a kutatók, amely akár 90 százalékos biztonsággal is fel tudja ismerni az emberi beszédet.

Nézzünk egy példát. Ha a NOL honlapján lévő videókra lefuttatjuk a programot, és mondjuk rákeresünk a „gazdaság” szóra, megkapjuk, hogy melyik videóban, hány perc hány másodpercnél hangzott el a szó. Egy videón belül így több találatot is kapunk, amelyekre rákattintva azonnal a „gazdaság” szó bármilyen formában való elhangzásánál tudjuk elindítani a filmet. „A rendszer feliratozni is tudja az adott videót, amellyel végig lehet követni, hogy milyen pontossággal ismeri fel az elhangzott szöveget, de felhasználható például halláskárosultak számára közvetített anyagok esetében is. Még mindig jóval kevesebb időt vesz igénybe, ha korrigálni kell a gép által feliratozott szöveget, mintha azt teljes egészében egy embernek kellene leírnia.”- folytatja Bárdos Kristóf, a cég egyik menedzsere.

Ha azt szeretnénk megtudni, hogy a vizsgált videófilmekben, vagy cikkekben mely szavak hányszor hangzottak el, erre is kaphatunk egy statisztikát a tartalomelemző funkcióval. Ezáltal nemcsak politikai elemzők találhatnak majd érdekes eredményeket (melyik politikus milyen szavakat használt és hányszor), hanem anélkül, hogy átolvasnánk egy cikket, vagy végignéznénk egy videót, a gyakran használt szavak alapján képet kaphatunk a cikk, illetve a film tartalmáról is.



www.mindroom.hu

www.digitalnatives.hu

Ez a böngésző nem támogatja a flash videókat
Top cikkek
Érdemes elolvasni
Vélemény
NOL Piactér

Tisztelt Olvasó!

A nol.hu a továbbiakban archívumként működik, a tartalma nem frissül, és az egyes írások nem kommentelhetőek.

Mediaworks Hungary Zrt.