Információmentés tízezer évekre
A legenda szerint néhány pohár finom Guinness iszogatása közben Nick Goldman, az Európai Bioinformatikai Intézet (EBI) vezető kutatója erre írta föl munka- és ivótársának a gondolatát arról, hogy miként lehetne mesterséges DNS segítségével megoldani a világon folyamatosan keletkező töméntelen adat hosszú távú tárolását. A napjainkban használt „kemény” tárolók gyorsan elhasználódnak, néhány évenként át kell írni őket, és egyúttal az olvasóberendezések is avulnak. Ezzel szemben a DNS gyakorlatilag „akármeddig” fennmarad, és ráadásul rendkívül nagy a tárolási kapacitása. Goldmanék számításai szerint jelenleg a világban három zettabyte adat létezik, és ez a szám állandóan növekszik.
A DNS-tároló egyetlen grammban 2,2 petabyte-ot tud tárolni, ami a kutatók számításai szerint azt jelenti, hogy a világ teljes digitális adatállománya elférne egy teherautó tetején. Az alapgondolat valójában nem új, de a megvalósítás lehetősége az, és most az év elején a Nature is cikket jelentetett meg (a népes szerzőgárda egyik tagja magyar: Sipos Botond). Ahhoz, hogy biztonságos és jól kódolható legyen a DNS négy bázisával a tárolt információ, az EBI kutatói nem bináris, hanem ternáris rendszert használnak. Ebben a bináris rendszer 0 és 1 számjegyén túl még a 2 is szerepel. A DNS-t négy kémiai bázis alkotja: A = adenozin, T = timin, C = citozin és G = guanin.
A bináris rendszerű kódolással ellentétben, amelyben a nullák és az egyesek tetszőleges számban követik egymást, a DNS esetében a hibák, tévesztések elkerülése végett az is fontos a kódoláskor, hogy egy belépő új értéknek milyen bázis volt az előzménye. Ha tehát az „1” értéket akarjuk megjeleníteni, és az előző bázis A volt, akkor G-nek kell következnie, de ha T volt az előzmény, akkor C-t kell használni. (Csuda egyszerű, nemde?) A megvalósítás szempontjából az lenne előnyös, ha egy-egy tárolandó fájlt neki megfelelő, tetszőleges hosszúságú DNS-lánc jelenítene meg. Ezt azonban a jelenlegi leolvasási eszközökkel még nem tudják megbízhatóan megvalósítani, ezért a láncot egyenként 117 bázis hosszúságú szakaszokra darabolják. Ezekből 100 hordozza az adatinformációt, a többi az indexálást meg a biztonságot (paritásbitek) szolgálja. A kiolvasáskor aztán a DNS-szekvenáló berendezés ismét összerakosgatja a darabkákat.
Tudományosan izgalmas gondolatok és eljárások ezek, de még igencsak távol állnak a mindennapos, gyakorlati alkalmazásoktól. Kétségtelen, hogy a próbák, tesztek már pozitív eredménnyel jártak. A kutatók öt fájlt próbáltak ki. Az egyik Martin Luther King híres beszédének („Van egy álmom”) az MP3-felvétele volt, egy másik pedig mi más lett volna, mint Francis Crick és James Watson tanulmányának (amelyben 1953-ban leírták a DNS szerkezetét) a PDF-változata. Ez utóbbiból a kiolvasáskor még elveszett két 25 bázisos szegmens, de azóta rájöttek, miért, és korrigálták a hibát.
Remek. De azért még bőven maradt fejleszteni való munka. Például az a csekélység, hogy az eljárás nem mondható éppenséggel gyorsnak. Két hetébe tellett a kutatóknak, hogy az öt tesztfájlt visszaolvassák. Jó, nyilván ezek az első lépések, és várható, hogy intenzív fejlesztéssel a leolvasóberendezéseket hamarosan intenzívebb munkára serkentik. Nagy szükség lehet rájuk, hiszen a töméntelen adatot termelő óriási berendezések, legyen szó akár részecskefizikáról, akár genomikáról, ontják az archiválandó adatok irdatlan tömegét. De szólni kell az árról is, amely a fejlesztések nyomán nyilván drámaian esni fog.
Goldman becslése szerint, ha sikerül már normál sebességű eszközöket előállítani, akkor az ár megabyte-onként mintegy 12,5 ezer dollárba fog kerülni. Ez mindössze milliószorosa annak, amennyibe a mágnes szalagos archiválás kerül. No de, ugye, a szalagok romlanak, elég sűrűn át kell írni őket, míg a DNS-sel tárolt adatok tízezer évekig is elállnak. Feltéve, hogy sötét, száraz és hűvös helyen őrzik őket. Ami azért nem is annyira egyszerű kívánalom, ha meggondoljuk, hogy még száz évekre, sőt több évtizedre előre sem tudhatjuk biztonsággal, vajon meglesznek-e akkor még a kívánt feltételek.
Mi mennyi?
Az általunk használt metrikus rendszerben a nagyságrendeket ezerszeres ugrású előtétekkel jelöljük (kivétel a deka és a hektó, amely tíz-, illetve százszorost jelöl). Ezek a előtétek nevet is kapnak. Az alapokat 1795-ben rakták le, majd legközelebb 1960-ban vezettek be újakat: mega (milliószoros), giga (milliárdszoros) és tera (billiószoros). Ezeket már gyorsan követte 1975-ben a peta (billiárdszoros) és az exa (trilliószoros). Legutoljára, 1991-ben született a zetta (trilliárdszoros) és a yotta (kvadrilliárdszoros). A zettánál az 1 szám után 21 nulla áll! Rettenetes méretét mutatja, hogy például Földünk légköre öt zettagramm tömegű, óceánjaink térfogata mintegy 1,4 zettaliter.