A jelentésháló legendája

2010-08-28 internet

Tim Berners-Lee, a világháló feltalálója 2001-ben körvonalazta a szemantikus web koncepcióját. Ekkor a Google még magáncég volt, alig ismerték az informatikai társadalmon kívül. Az volt közismert a webről, hogy minden információ fenn van, de nem lehet megtalálni.

Több keresőgép is létezett, abban versenyeztek, hogy melyik tud több weboldalt felkatalogizálni szavanként, és hogy ezt a szuperkatalógust egy minél nagyobb számítógép memóriájában tartsák. A rekorder (az AltaVista) annak idején a teljes világháló mintegy 18 százalékát tudta a használók rendelkezésére bocsátani – alig rendezett találatok formájában.

Ebben a környezetben a szemantikus web (értelmesen integrált világháló), amely az ember számára érthető formában ad választ az emberi nyelven megfogalmazott kérdésekre, vonzó, de akkor még – érthetően – kevéssé meghatározott jövőképet adott.

Az azóta eltelt 9 évben viszont éretté fejlődött a Google rangsorolási technológiája, meghússzorozódott a számítógépek teljesítménye és a hálózatok sávszélessége, folyamatosan csiszolódik e nagy teljesítményű gépek együttműködésének technológiája (gomolyognak a számítási felhők...) – és a számítógépet, internetet használók nagy hányada rendszeresen valamilyen (virtuális) társasági hálóban tartózkodik.

Legtöbbünk számára a Google értelmes és hasznos találatokat hoz – még ha ezek függenek is attól, melyik országban indítottuk a keresést, és nem teljesen lehetünk biztosak abban, hogy a találati lista élére a saját érdemeik szerint leginkább odavalók kerülnek. Vagy a Google maga azért teszi azokat az élre, mert valakik ﬁzettek érte, vagy az érintett weboldal volt ügyes a rangsoroló eljárás kihasználásában. Egyébként az összes többi kereső is ugyanilyen.

Nemrég megvásárolt a Google egy Metaweb nevű céget, amely jelentésalapú keresési technikát fejlesztett ki, és öszszeállított egy ingyenes adatbázist 12 millió tételről, amelyek az összes lehetséges módon össze vannak címkézve. Vagyis a „sárga virág” kifejezés esetleg a napraforgóolaj-márkákat és az Illés együttes lemezeit fogja felhozni. (Már ha ezek szerepelnek a 12 millió tételben...) A beszerzés indokául a híradások már meg sem említik a tudásanyag automatikus növekedését, hanem a minél szélesebb körű termék- és szolgáltatásajánlatok összeállítása a cél.

A címkézés egyébként a szemantikus web alapja. Léteznek olyan szoftverek, amelyek minden dokumentumban kijelölik azokat a szavakat, amelyek arra dokumentumra jellemzők – ezek a címkék – amelyek alapján ez a dokumentum összeköthető az azonos vagy meghatározott mértékben hasonló címkéket hordozó más dokumentumokkal.

Mint annyi más, nyelvalapú technika, ez sem ideális az olyan erősen ragozó nyelvekhez, mint a magyar, nekünk a címkéket át kell engedni egy szótőkereső eljáráson is, hogy csak ragozatlan szavak lehessenek a címkék. Sajnos, a magyar szótőkeresésre nincs egyetlen helyes megoldás, csak több olyan, amely már nem használhatatlanul rossz.

A találatrendező módszerek finomodása rontja az értelmesen integrált világháló megszületésének esélyeit. Ha a „hagyományos” találatok is elég jók, akkor minek egy alapjaiban más technika? Egy másik irányzat, a keresőhirdetés-ipar fejlődése szintén az értelmes találatok tálalása ellen hat: a „szopornyica” keresőkifejezés nem a kutyabetegség történetét, kórokait fogja megtalálni, hanem a legnagyobb cégek gyógyszereit, jó esetben a legközelebbi állatorvost (ez a közeljövő: a GPS-szel felszerelt okostelefonok a saját helyzetüket is megadják a keresőnek). Vagyis nem a tudásunk, hanem a termékinformációnk mennyisége fog nőni.

Pillanatnyilag úgy tűnik, hogy a szemantikus web olyan, mint a parkolás általános elmélete: alapvető érték lehetne mindenki számára, de a parkolóradar és -kamerák birtokában nem érdemes a megszerzésére törekedni.