A jelentésháló legendája

Tim Berners-Lee, a világháló feltalálója 2001-ben körvonalazta a szemantikus web koncepcióját. Ekkor a Google még magáncég volt, alig ismerték az informatikai társadalmon kívül. Az volt közismert a webről, hogy minden információ fenn van, de nem lehet megtalálni.

Több keresőgép is létezett, abban versenyeztek, hogy melyik tud több weboldalt felkatalogizálni szavanként, és hogy ezt a szuperkatalógust egy minél nagyobb számítógép memóriájában tartsák. A rekorder (az AltaVista) annak idején a teljes világháló mintegy 18 százalékát tudta a használók rendelkezésére bocsátani – alig rendezett találatok formájában.

Ebben a környezetben a szemantikus web (értelmesen integrált világháló), amely az ember számára érthető formában ad választ az emberi nyelven megfogalmazott kérdésekre, vonzó, de akkor még – érthetően – kevéssé meghatározott jövőképet adott.

Az azóta eltelt 9 évben viszont éretté fejlődött a Google rangsorolási technológiája, meghússzorozódott a számítógépek teljesítménye és a hálózatok sávszélessége, folyamatosan csiszolódik e nagy teljesítményű gépek együttműködésének technológiája (gomolyognak a számítási felhők...) – és a számítógépet, internetet használók nagy hányada rendszeresen valamilyen (virtuális) társasági hálóban tartózkodik.

Legtöbbünk számára a Google értelmes és hasznos találatokat hoz – még ha ezek függenek is attól, melyik országban indítottuk a keresést, és nem teljesen lehetünk biztosak abban, hogy a találati lista élére a saját érdemeik szerint leginkább odavalók kerülnek. Vagy a Google maga azért teszi azokat az élre, mert valakik fizettek érte, vagy az érintett weboldal volt ügyes a rangsoroló eljárás kihasználásában. Egyébként az összes többi kereső is ugyanilyen.

Nemrég megvásárolt a Google egy Metaweb nevű céget, amely jelentésalapú keresési technikát fejlesztett ki, és öszszeállított egy ingyenes adatbázist 12 millió tételről, amelyek az összes lehetséges módon össze vannak címkézve. Vagyis a „sárga virág” kifejezés esetleg a napraforgóolaj-márkákat és az Illés együttes lemezeit fogja felhozni. (Már ha ezek szerepelnek a 12 millió tételben...) A beszerzés indokául a híradások már meg sem említik a tudásanyag automatikus növekedését, hanem a minél szélesebb körű termék- és szolgáltatásajánlatok összeállítása a cél.

A címkézés egyébként a szemantikus web alapja. Léteznek olyan szoftverek, amelyek minden dokumentumban kijelölik azokat a szavakat, amelyek arra dokumentumra jellemzők – ezek a címkék – amelyek alapján ez a dokumentum összeköthető az azonos vagy meghatározott mértékben hasonló címkéket hordozó más dokumentumokkal.

Mint annyi más, nyelvalapú technika, ez sem ideális az olyan erősen ragozó nyelvekhez, mint a magyar, nekünk a címkéket át kell engedni egy szótőkereső eljáráson is, hogy csak ragozatlan szavak lehessenek a címkék. Sajnos, a magyar szótőkeresésre nincs egyetlen helyes megoldás, csak több olyan, amely már nem használhatatlanul rossz.

A találatrendező módszerek finomodása rontja az értelmesen integrált világháló megszületésének esélyeit. Ha a „hagyományos” találatok is elég jók, akkor minek egy alapjaiban más technika? Egy másik irányzat, a keresőhirdetés-ipar fejlődése szintén az értelmes találatok tálalása ellen hat: a „szopornyica” keresőkifejezés nem a kutyabetegség történetét, kórokait fogja megtalálni, hanem a legnagyobb cégek gyógyszereit, jó esetben a legközelebbi állatorvost (ez a közeljövő: a GPS-szel felszerelt okostelefonok a saját helyzetüket is megadják a keresőnek). Vagyis nem a tudásunk, hanem a termékinformációnk mennyisége fog nőni.

Pillanatnyilag úgy tűnik, hogy a szemantikus web olyan, mint a parkolás általános elmélete: alapvető érték lehetne mindenki számára, de a parkolóradar és -kamerák birtokában nem érdemes a megszerzésére törekedni.

Az értelmesen integrált hálózatokban az adatkapcsolatoknak is lehet nevet adni
Az értelmesen integrált hálózatokban az adatkapcsolatoknak is lehet nevet adni
Top cikkek
Érdemes elolvasni
Vélemény
NOL Piactér

Tisztelt Olvasó!

A nol.hu a továbbiakban archívumként működik, a tartalma nem frissül, és az egyes írások nem kommentelhetőek.

Mediaworks Hungary Zrt.