Minőségkeresés az interneten

A nem is távoli jövõben anélkül leérettségizhetnek diákok, hogy hozzáérnének egy könyvhöz. Húsz éve úgy végezhették el a középiskolát, hogy egyszer sem használtak számítógépet.

Az internet és a számítástechnika néhány évtized alatt átformálta az információ, a tudás és az oktatás alapelveit.

Gondoljunk csak bele: laptopunk merevlemezén több könyv fér el, mint egy könyvesboltban, ahol hatvanezer kötetet kínálnak. Az interneten állítólag már több mint ötszázmilliárd weboldal van. Ugyanennyi félkilós, ötszázoldalas könyv tíz repülőgép-hordozó anyahajót töltene meg.

Az ilyen hasonlatok segítenek magunk elé képzelni az információrobbanás hatalmas dimenzióit, megerősítik az általa kiváltott aggodalmak létjogosultságát. Egyedül az internetes keresők segítenek eligazodni ebben az információs lavinában, ezért nem szabad őket összetéveszteni egy opcionális kiegészítővel vagy egy gombbal, amellyel eljátszadozhatunk. És nem is csupán arra jók, hogy megkeressük, hol a legközelebbi pizzéria. A keresőmotorok a legbefolyásosabb elosztópontjai a tudásnak, a vagyonnak és igen, a hamis információnak is.

Amikor internetes keresésről beszélünk, az első felmerülő név a Google. Nem túlzás, hogy a Google tette az internetet azzá, ami lett. Egy egész generációt formált, amely élesen különbözik szüleitől. A háború után született generáció érti ezt talán legjobban, mert ők gyermekként élték meg a rock'n'roll-korszakot, míg a Google-t szülőként.

A Google-t statisztikai algoritmusok alapján tervezték. Az ezen alapuló keresőtechnológiák azonban nem tudják az információ minőségét meghatározni, azért, mert a magas minőségű tartalom nem mindig népszerű, és a népszerű információ nem mindig jó minőségű. Akár ítéletnapig is gyűjtögethetjük a statisztikákat, de nem használhatjuk őket többre, mint amik.

Ráadásul ezek a rendszerek a múltba néznek. Időbe telik, amíg az emberek hivatkozásokat hoznak létre, hogy a keresők ezeket összegyűjtsék. Ezért az új tartalmak és a gyakran változó oldalak kívül esnek a népszerűségen alapuló módszerek hatáskörén, keresésük érzékeny az egyszerű eszközökkel történő manipulációra.

A mai keresők hiányosságai például egy teljesen új iparágat hoztak létre, az úgynevezett keresőmotor-optimalizálást, amely azokra a stratégiákra összpontosít, amelyek a Google-szerű keresők népszerűségi kritériumainak megfelelve magasabb pozícióba juttatják a weboldalakat. Ez egy dollármilliárdos nagyságrendű iparág. Ha valakinek elég pénze van, a weboldala magasabbra kerülhet sok olyannál, amelyek megbízhatóbbak vagy jobb minőségűek nála. A Google megjelenése óta a minőségi információt még soha nem fenyegette ennyire erősen a kommercializálódás ereje.

Az információ minősége - amely az internetes keresés árnyékában formálódik - fogja eldönteni az emberiség jövőjét. A minőség biztosításához azonban forradalmi megközelítésre lesz szükség, olyan technológiai áttörésre, amely továbblép a statisztikán. Ez a forradalom már folyamatban van, és a neve: jelentéstani technológia.

A jelentéstani technológia alapja az az elképzelés, hogy megtanítjuk a számítógépnek a világ működését. Ha például a számítógép az angol "bill" szóval találkozik, tudni fogja, hogy annak 15 jelentése van. Ha a "kill the bill" kifejezést találja, azonnal arra fog következtetni, hogy a "bill" itt csakis "törvényjavaslat" értelemben állhat, a "kill" pedig csakis azt jelentheti, hogy a javaslatot megbuktatják a törvényhozásban.

Ezzel szemben a "kill bill" szókapcsolat csak az ezzel megegyező című filmet jelentené. Végül az ehhez hasonló következtetések sora teljes mondatokat és bekezdéseket tudna kezelni, amely pontos szöveg-jelentés reprezentációt eredményezne.

Ahhoz, hogy a számítógépes algoritmusok ilyen bravúrral kezeljék a nyelveket, egy ontológiát kell létrehozni. Az ontológia nem szótár és nem is tezaurusz. Egymással összefüggő fogalmak és jelentések térképe, amely az olyan kapcsolatokat tartalmazza, mint amilyenek a "kill" és a "bill" szavak között fennállnak.

A világ tudástárát magában foglaló ontológia építése nyilván hatalmas feladat, amely egy hatalmas enciklopédia megírásához szükséges erőfeszítést és szakértelmet kíván. Azonban nem lehetetlen. Világszerte számos most induló vállalat, mint például a Hakia, a Cognition Search és a Lexxe is elfogadta e kihívást. Az eredményeikre csak később derül fény.

De hogyan tudná megoldani a jelentéstani keresőmotor az információ minőségének problémáját? A válasz egyszerű: pontossággal. Amint a számítógépek jelentéstani pontossággal tudják kezelni a természetes nyelveket, a jó minőségű információnak nem kell népszerűvé válnia, mielőtt elérné a felhasználót, ellentétben a mai internetes keresőkkel.

A jelentéstani technológia a minőség biztosításának más módszereit ígéri azáltal, hogy észleli az adott szövegben talált fogalmak gazdagságát és koherenciáját. Ha egy szövegben a következő mondatot találja: "Bush killed the last bill in the Senate" (azaz "Bush megbuktatta a legutóbbi törvényjavaslatot a Szenátusban"), akkor vajon a szöveg többi része összefüggő gondolatokból áll-e? Vagy csak egy spam-oldal, amely népszerű idézeteket tartalmaz, sok reklám között? A jelentéstani technológia meg tudja különböztetni a kettőt.

Az ember átlagos olvasási sebességét (200-300 szó percenként) és az elérhető információ hatalmas mennyiségét figyelembe véve a hatékony döntéshozatalhoz jelentéstani technológiára van szükség a tudás pontosításának minden területén. Nem engedhetjük meg, hogy a jövőben a tudás a népszerűségnek és a pénznek legyen kiszolgáltatva.

Project Syndicate

Riza Berkan atomtudós, szakterülete a mesterséges intelligencia, az elmosódott halmazok logikája és az információs rendszerek. A Hakia alapítója.

Internetező hallgatók
Internetezõ hallgatók
Top cikkek
Érdemes elolvasni
Vélemény
NOL Piactér

Tisztelt Olvasó!

A nol.hu a továbbiakban archívumként működik, a tartalma nem frissül, és az egyes írások nem kommentelhetőek.

Mediaworks Hungary Zrt.