A jogsértő fordítást is leleplezi a KOPI program
Nem telik el hét, hogy ne derülne ki ismert személyiségről, hogy valami nem stimmel a diplomájával, doktorijával, vagy éppen a nyelvvizsgájával. Lapunk is számos példáról írt. Ján Figel, a szlovák Kereszténydemokrata Mozgalom (KDH) elnöke, volt EU-biztos öt éve úgy szerzett doktori címet, hogy lemásolta egyik korábbi könyve jelentős részét. Augusztus közepén felfüggesztették a munkavégzés alól Fareed Zakariát, a Time magazin és a CNN újságíróját, mert mástól emelt át részleteket. Zakaria a Time-ban közölt cikket a fegyvertartás szigorításáról – írásában szó szerinti részeket vett át a New Yorker című lapban még áprilisban megjelent szövegből.
Victor Ponta román miniszterelnök 2003-ban megvédett doktori disszertációja sem jelölte meg az idézett forrásokat. És akkor nem beszéltünk Schmitt Pál lemondott köztársasági elnökről, akit hasonló okból fosztottak meg doktori címétől, és aki éppen a napokban jelentette be, hogy PhD-jához szükséges cikkeket ír, amelyeket szakfolyóiratokban publikál majd.
A plágium sokféle formában tetten érhető: az oktatásban, a diákok munkáiban, a tudományos publikációkban, a szépirodalomban, sőt a szabadalmakban is. Pintér Gergő Dániel, a SZTAKI sajtóreferense szerint mások szellemi termékének engedély és forrásfeltüntetés nélküli használata az irodalmi lopás kategóriájába esik. Illetve plágium az is, ha valaki újnak és eredetinek tüntet fel mások által korábban kitalált elképzeléseket, produktumokat.
Az informatikának köszönhetően a szellemi javakat egyre könnyebb elorozni. És egyre nehezebb is, ahogy azt a lebukott politikusok példái mutatják.
A plagizálás egyik legvalószínűbb oka, hogy sokan nem tudják pontosan, mit jelent a szellemi alkotás elorozása, vagy nem tulajdonítanak ennek jelentőséget. Az esetek zömében elkerülhető a plágium pusztán a forrás korrekt feltüntetésével. Azaz csak el kell ismerni, hogy az anyag egy része mástól származik, másvalaki szellemi terméke. A plágiumkereső szoftverek feladata ott kezdődik, ahol erről megfeledkeznek.
A számítógépes plágiumvadászat lényege, hogy a gyanús dokumentumot összehasonlítják olyanokkal, amelyeket eredetinek ismernek el. Pintér Gergő Dániel szerint számos plágiumkereső modell létezik, a legáltalánosabban használt plágiumkereső megoldás az ujjlenyomat módszer, ami a szövegben lévő úgynevezett n-gramok elemzésén alapul.
Az n-gram a nyelvészetben egyszerűen n darab egymást követő szót jelent, de jelenthet n darab egymást követő szótagot is. Ezek egy-egy mű esetében olyan egyedi vonásokkal bírnak, mint az ujjlenyomatok. Az ilyen ujjlenyomatok alapján azonosítható egy-egy dokumentum. A magyar piacon a SZTAKI által fejlesztett KOPI ingyenesen használható plágiumkereső szoftvere a leggyakoribb plágiumszűrő – a rendszer húszezer használója egy év alatt mintegy 30 ezer dokumentumot futtat végig rajta.
Felvetődhet, hogy mikortól tekinthető egy szöveg plagizáltnak? Egyszerű mondatokat – A nap felkelt. Késnek a buszok. – ezerszer leírhattak már. Ilyen esetben nincs értelme az eredetkutatásnak. Vagy mégis?
Pataki Máté, a SZTAKI tudományos főmunkatársa szerint a mondatok száma gyakorlatilag végtelen. A legtöbb nyelv több százezer szóból áll. Ha a nyelvtani szabályokat figyelmen kívül hagyjuk, és százezer szóra szűkítjük egy nyelv szókincsét, az adott nyelven egy n szóból álló mondat összes lehetséges változata 100 000 az n-ediken. Ez egy rövidebb, 5 szavas mondat esetén is már 10 a huszonötödiken különböző lehetséges mondat (ez leírva egy egyes és utána 25 nulla).
Valóban számos rövid és sokszor leírt mondat van: „Éhes vagyok.”, „Menjünk bulizni”, de könnyedén lehet olyan mondatot gyártani, amit majdnem biztos, hogy még soha senki nem írt le. Ha a Google-ben idézőjelek közé tesszük a keresésünket – „nincs becsületes plagizátor” – rögtön láthatjuk, hogy korábban feltöltöttek-e ilyen mondatot. (Ilyen mondat e cikk születése előtt nem volt.)
Ez még nem azt jelenti, hogy soha senki nem mondta ki, de a világ egyik legnagyobb adatbázisában nincs benne, pedig nem is tűnik annyira egyedinek. Pataki Máté szerint egy bekezdés már elég egyedi ahhoz, hogy ha kicsit változtat is rajta az átemelő, akkor is megtalálják. A plagizálás egyébként sem a változtatás mennyiségétől függ. Ha egy szót se vesz át az eredetiből, de a mondanivalója ugyanaz, és nem jelöli az eredeti szerzőt, akkor az plagizálásnak számít. A kérdés persze, hogy ekkor hogy találják meg?
A plagizálás után kutató program meg tudja állapítani, hogy két szöveg hasonlít egymásra, de nem tudja eldönteni, hogy ennek mi az oka: plágium, egyik idéz a másiktól, a két mű ugyanannak a szerzőnek a munkája, egy közös forrást idéznek? Még csak azt se állapítják meg a programok, hogy idézet-e, vagy sima szöveg, mert annyira sokféle az idézés jelölésének a módja, hogy ezt nem lehet megbízhatóan megtenni.
A mai programok ugyanakkor már magabiztosan megtalálják a másolást, kisebb átírások nem tüntetik el a nyomokat. Mivel a plágiumkeresőnek nem az a célja, hogy minél több diákot lebuktasson, hanem hogy visszaszorítsa a plagizálást, ezért elég, ha annyira nehéz eltüntetni a plagizálás nyomait, mint megírni egy egyedi művet. Ekkor már nem éri meg plagizálni. Jelenleg ezt a szintet tudják a szűrők. De ne legyen nyugodt senki.
Az, hogy ma nem találtak meg valamit, nem jelenti azt, hogy holnap se fogják. Pataki Máté szerint nagy iramban fejlődik ez a szakterület, pár éve még senki se gondolta, hogy fordítási plágiumokat is kiderítenek. És lássunk csodát: tavaly év végén a SZTAKI Elosztott Rendszerek Osztálya a világon elsőként kijött egy ilyen szolgáltatással. Ma már nem lehet nyomtalanul lefordítani egy angol Wikipédia-cikket magyarra és sajátként eladni. Ezenkívül a magyar Wikipédiából átvett anyagokat is megtalálják, akkor is, ha azok nem szó szerint szerepelnek a műben. Az idei év végére várhatóan az internetes keresőjük is működik – ezzel az internetes publikációk mások általi átvételéről tudják tájékoztatni a jogtulajdonosokat, például az online szerkesztőségeket.
Napjainkra az egyetemek felismerték: fontos, hogy a náluk születő dolgozatok, diplomamunkák, cikkek, tanulmányok, könyvek ne tartalmazzanak plagizált részeket. (Jelenleg a Wikipédiával való összehasonlításra vonatkozik a legtöbb egyetemi kérés.) Pataki Máté egyik kedvenc találata is egyetemhez köthető. „Évek óta több száz diák évközi feladatait ellenőrzöm a KOPI rendszerrel. Az egyik diák el se olvasta, mit másol le, és még a „véleménye a mérésről” kérdésre is ugyanazt írta, mint a társa, miszerint „igen nehéz volt a mérés, és sokat kellett vele dolgozni” – emlékezett az esetre a kutató.