Még egy kis big data

Két bejegyzéssel lejjebb volt a bevezetés, most álljon itt a következő szakasz nyers változata.

——————————

 

 

A „big data” jelenség és technológiai háttere

 

Mit is értünk „big data” jelenség alatt? Mint látni fogjuk, sokfelé találkozhatunk vele (akár a hétköznapi életben is), rendszeresen tapasztaljuk a létezését, még sincs pontos definíciója, ilyet a két említett lap sem ad.

    A „big” tulajdonképpen azt jelenti, hogy nagyon sok adatból álló adatbázis vagy adatkészlet. Olyan sokból, hogy azt már nehéz a megszokott, általánosan rendelkezésre álló adatbázis-kezelő alkalmazásokkal manipulálni. Óriási adattömeg, amelynek kezelése (létrehozása, tárolása, feldolgozása, továbbítása, lekérdezése stb.) a technikai lehetőségek határát feszegeti. Mivel a technika állandóan fejlődik, ez a határ folyamatosan előre tolódik, a „big data” tehát értelmezhető, de folyamatosan mozgó célpont.

    Hol húzódik ez a bizonyos határvonal manapság? Erre a kérdésre többféle módon válaszolhatunk. A Science említett számának szerkesztői gyorsfelmérést készítettek a cikkeik értékelésében részt vevő kutatók körében. Megállapították, hogy a válaszadók 20%-a rendszeresen használ, illetve elemez 100 gigabájtnál[1] (1 gigabájt = 109 bájt), 7%-uk pedig egy terabájtnál (1012 bájt) nagyobb méretű adatbázisokat (i.m. 692-693. o.). Ilyen méretű adatbázisok manipulálása már komoly problémákat okozhat, a tényleges technikai határvonal azonban ennél magasabban húzható meg, az exa-, illetve zettabájtok (1018, illetve 1021 bájt) nagyságrendjénél. Kétségtelen, hogy sok olyan tudományos program van (például genetikai, meteorológiai, részecskefizikai, hálózatkutatási területeken), amelyek évente több terarbájt adatot produkálnak.

    A méretezés kérdését megközelíthetjük más irányból is. Martin Hilbert és Priscila López közelmúltban végzett számításai szerint (Hilbert-López [2011] 60. o.) az emberiség 2007-ben 2,9X1020 bájtnyi adatot volt képes tárolni optimálisan tömörített formában, 2X1021 bájtnyit tudott kommunikálni, és másodpercenként 6,4X1018  utasítást tudott végrehajtani általános célú számítógépeken. E gépek kapacitása 1986 és 2007 között évente átlagosan 58%-kal növekedett; ugyanez a mutató a kétirányú távközlés kapacitására vonatkozóan évi 28%, a tárolt információ mennyiségére pedig 23%. Az új évszázad eleje óta a digitálisan tárolt információ mennyisége meghaladja az analóg módon (például nyomtatott könyvekben) rögzítettekét, 2007-ben a tárolt információ 94%-a digitális volt.

    Érdemes egy pillantást vetni az adatok jellegét mutató információkra is. Az infokommunikációs piac elemzésével foglalkozó, tekintélyes IDC cég Digital Universe Study elnevezésű rendszeres felmérése szerint 2009-ben a digitálisan tárolt információ 56,7%-a jelent meg filmekben, a televízióban és reklámokban, 31,5%-a kamerák és videófelvételek szülötte, 2,8%-a zene, 1,5%-a a kommunikációhoz kapcsolódik, 7,5%-a pedig az egyéb kategóriába sorolható (ide tartozik például a világháló is). Ebből a felsorolásból (idézi Waters [2011] 7. o.) az is látható, hogy a keletkező és tárolt információ nagy része – az IDC szerint több mint 90%-a – strukturálatlan.

    Becslések szerint a tárolt adattömeg körülbelül 18 hónaponként megduplázódik.

    Ezek a számok mindenképpen óriásiak, hétköznapi ember számára gyakorlatilag felfoghatatlanok, ugyanakkor nagy bennük a bizonytalanság, amit az is fokoz, hogy a források hol „adatot”, hol „információt” emlegetnek, miközben a kettő nem ugyanaz: az általános felfogás szerint az információ kontextusba helyezett adat. James Gleick The Information című könyvében (Gleick [2011]) alapos történeti áttekintést ad az információval kapcsolatos nézeteink, ismereteink és fogalmaink fejlődéséről, így egyebek között arról is, milyen javaslatok születtek az információ mérésére. A fenti adatok az információ mennyiségét modern felfogás szerint bitekben (1 bájt = 8 bit) mutatják. Megfelelő statisztikák birtokában elég jó becslést lehet készíteni például arról, hogy a rendelkezésünkre álló digitális tárolóeszközöknek hány bit lehet a teljes tárolókapacitása. Arról viszont nagyon nehéz képet alkotni, hogy ezeken az eszközökön mennyi „új” vagy „eredeti” információ lehet, hiszen ugyanaz a filmről, képről, szövegről, adatbázisról stb. számtalan másolat létezhet különböző helyeken.

    A „big data” jelenség alatt nem csak az adatok mennyiségének növekedése, a mennyiségi értelemben vett adatrobbanás értendő. Az infokommunikációs piac elemzésével foglalkozó, kiemelkedő szakmai tekintélynek örvendő Gartner Group a nagy adatbázisok három fontos tulajdonságát emeli ki. Az első ezek közül az adatok mennyisége (volume) – erre vonatkozóan már közöltünk adatokat. A második az adatok változatossága (variety), az adatfajták és források sokfélesége. A sejtkutatás területén például nagyon sokféle és egymással bonyolult kölcsönhatásban lévő adatot kell összegyűjteni és feldolgozni. A harmadik tulajdonság a sebesség (velocity), ami egyrészt az adatok keletkezésének gyorsaságára vonatkozik, másrészt a hasznosításhoz rendelkezésre álló időre. Mindezek alapján a „big data” jelenséget a következőképpen írhatjuk le: hatalmas, nagyfokú változatossággal és komplexitással jellemezhető, gyorsan keletkező és szaporodó adattömeg, amelynek hasznosítására kevés idő áll rendelkezésre

    Láthattuk, hogy az emberiség a modern digitális technológiáknak köszönhetően óriási kapacitásokkal rendelkezik információk feldolgozásához és tárolásához. Ezekre szükség is van, hiszen a világban ugyanilyen óriási tömegű adat keletkezik szinte folyamatosan. Egyre több olyan forrás van, amely „big data” jelenséget produkál.

    Kiapadhatatlan adatforrás például a természet. Korunk egyik leglátványosabban fejlődő tudományága a genetika. Az emberi genom bájtokban kifejezett méretéről különböző forrásokban eltérő számokat lehet találni, de ha abból indulunk ki, hogy benne minden bázispár (base pair) két bittel kódolható, akkor körülbelül 725 megabájt adatról van szó. A CERN Nagy hadronütköztetőjének használatánál évente 10-15 petabájt (1015 bájt) adat biztonságos tárolására van szükség. Óriási adattömeget ontanak folyamatosan a csillagászati teleszkópok. Szeizmográfiai, meteorológiai és környezetvédelmi mérések során is hatalmas tömegű adat keletkezik.

    A technológiai fejlődés egyre fejlettebb „adattermelő” eszközöket teremt. Egyre több területen használnak például apró szenzorokat, amelyek a környezetükben képesek egy vagy több dolgot (például hőmérsékletet, rázkódást) érzékelni és az adatokat rádiójelekkel valamilyen központba továbbítani. A közelmúltban a The Economist egy teljes mellékletet szentelt a „smart systems” néven emlegetett okos és intelligens rendszereknek (The Economist [2010]). E rendszerek működése nagyon hasonló logikára épül. Ki kell választani valamit amit ésszerűsítésre, racionalizálásra szorul: ilyen lehet például az egészségügy valamelyik területe, valamilyen termelési folyamat, egy város közlekedése, valamilyen közműrendszer működése, egy termelési folyamat stb. Az említett szenzorok segítségével nagy tömegű adatot kell gyűjteni róla, ezeket fel kell dolgozni, a feldolgozásból új ismereteket nyerni, majd mindezek alapján beavatkozási módokat kidolgozni, és mindezt, ha lehetséges, folyamatosan és automatizáltan tenni. Az említett különszám „okos városok” (smart town) példáját[2] is említi, ahol az így felépített rendszereket egyebek mellett hatékony közösségi szolgáltatások biztosítására használják.

    Hasonló projektek sok régi városban is indulnak, és minden jel szerint nagy szükség van rájuk. Csak egyetlen példa: London 16.000 kilométer hosszúságú földalatti vízhálózattal rendelkezik, a csövek több mint fele száz évnél öregebb; a rendszerből becslések szerint minden nap közel 900 millió liter víz szivárog el, és naponta átlagosan 240 repedést, csőtörést kell rendbe hozni. Amikor a rendszert gondozó Thames Water közműcég új csöveket fektet le, rádiós szenzorokat kapcsol hozzájuk, hogy folyamatosan figyelni tudja az állapotukat, időben, lehetőleg preventív módon intézkedjen, minimalizálva a veszteségeket (i.m. 6-7. o.)

    Hatalmas adattömeggel dolgozó, intelligens, racionális és olcsó működést célzó rendszerek más közműveknél is megjelenek. A brit kormány például 2009 májusában bejelentette, hogy 2020-ig minden háztartást fel kíván szerelni a gázzal, illetve elektromossággal működő készülékekhez kapcsolt intelligens mérőeszközökkel (smart meters). Ezek egyrészt a lakókat, másrészt a közműcéget tájékoztatják valós idejű adatokkal a fogyasztásról, információs bázist biztosítva az energiával való racionális és takarékos gazdálkodáshoz.

    Az emberiség egyik legnagyobb problémája az egészségügyi szolgáltatások ésszerűsítése, hozzáférhetővé és fenntarthatóvá tétele. Kétség sem fér hozzá, hogy ez nem fog menni masszív informatikai támogatás nélkül. Egészségügyi digitalizálási programokra (például az orvosi diagnózisok eredményeinek digitalizálására) számtalan példa van. Rendkívül intenzív innovációs aktivitás tapasztalható például a távdiagnosztika területén; az új eszközök tulajdonképpen a fentebb leírt „smart” logika szerint működnek: szenzorok segítségével történő mérés, nagy tömegű valós idejű adat továbbítása az erre kijelölt központokba, riasztási és beavatkozási rendszer működtetése lehetőleg megelőzési céllal.

    „Big data” forrásokra említhetünk kifejezetten hétköznapi példákat is. Hatalmas tömegű adat keletkezik folyamatosan például a távközlési hálózatok forgalmáról (telefonhívások, e-mail stb.), de a források közé sorolhatjuk természetesen a földrajzi pozicionáló (GPS) rendszereket is, amelyeket a közeli jövőben várhatóan az autók alapfelszereltségéhez tartoznak majd. Egy modern nagyvárosban kamerák milliói figyelik az emberek mozgását[3], a legújabb rendszerek már az arcfelismerés területén is jó eredményeket tudnak felmutatni. Kimeríthetetlen, hólabdaszerűen növekvő adatforrások az internetes közösségi hálók: 2011 közepén a Facebooknak már 750 millió regisztrált felhasználója volt, a regisztrált és nem regisztrált felhasználók egyedül júniusban ezermilliárd (!) oldalletöltést[4] hajtottak végre. Az internet és a világháló minden felhasználója digitális nyomok tömegét hagyja maga után strukturált és/vagy strukturálatlan adatok (kattintások, letöltések, szövegek, képek, filmek stb.) formájában.

    A „big data” jelenség technológiai hátterének bemutatása és elemzése messze meghaladná e cikk kereteit. A hatalmas adatbázisok keletkeztetésének, tárolásának, továbbításának, rendszerezésének, kombinálásnak, feldolgozásának, lekérdezésének, megosztásának számtalan technikai feltétele van. A fenti példákból látható, hogy az adatoknak, illetve adatbázisoknak több szakaszból álló, a keletkezéstől az ismételt felhasználásig terjedő életciklusa van, amelyek mindegyikéhez megfelelő technikai hátteret és támogatást kell biztosítani. Erre a hagyományos asztali gépek, tömegesen használt szerverek technikai és gazdasági szempontból egyre kevésbé alkalmasak. Az adatok feldolgozása növekvő részben megosztott rendszereken, különleges, több futballpálya méretű, számtalan egymáshoz kapcsolt gépből (computer grid) álló adatközpontokban, az úgynevezett „számítástechnikai felhőkben” történik (lásd erről pl. Dömölki et al. [2008]; Bőgel [2009/a]). A felhasználással arányosan fizetett, a felhasználóktól nagy indító beruházást nem igénylő webes szolgáltatások, valamint a nyitott forráskódú szoftverek megjelenése és elterjedése lefelé szorítja a belépési korlátokat, olcsóbbá teszi az adatkezelési- és feldolgozási technológiák használatát. Webes szolgáltatások nyújtásához, valamint természetesen a hatalmas adatbázisok továbbításához megbízható szélessávú távközlési kapcsolatok kellenek.

    A hardver természetesen nem elegendő: szoftverre is szükség van, ami alatt nem csak a számítógépes programokat, hanem az alkalmazott algoritmusokat, adatkezelési és –feldolgozási eljárásokat is értjük. A „big data” jelenség lehetővé teszi, hogy a tudományágak művelői az általuk feltett kérdésekre matematikai statisztikai, adatbányászati eszközökkel keressenek választ, az adattömegben mintázatok, sokszor nagyon bonyolult, sokváltozós összefüggések után kutassanak tanulásra is képes alkalmazásokkal. Fejlődnek a strukturálatlan adatok feldolgozására szolgáló technológiák is, így például a szövegbányászat (Fajszi-Cser-Fehér [2010] 12. fej.).

    A sokféle forrásból érkező, sokféle módon keletkeztetett adat feldolgozásához, kombinálásához és lekérdezéséhez természetesen szabványokra és szabványos metaadatokra is szükség van.

    Sajátos eljárásokat és technológiákat igényel az adatfeldolgozási műveletek eredményeinek tálalása, felfoghatóvá, kutatók és döntéshozók számára érthetővé tétele. Valós idejű rendszerekben a döntésekhez, a beavatkozáshoz sokszor nagyon kevés idő áll rendelkezésre. Nem véletlenül indult látványos fejlődésnek például a vizualizálás és azon belül a háromdimenziós megjelenítés módszertana és eszközkészlete (lásd pl. McCandless [2010]). A megjelenítés fontossága és különleges szaktudásigénye miatt a vizualizálással foglalkozó szakembereket – akár képzőművészeket is – gyakran már a kezdet kezdetén, a tervezési fázisban bevonják a kutatási programokba (Frankel-Reid [2008]). A közérthetőség érdekében a vizualizálás területén is szükség van szabványokra, típusmegoldásokra. Mindezekből az is látható, hogy a „big data” jelenség kezelése mennyire multidiszciplináris (pl. szakterületi kutatók + matematikusok + statisztikusok + informatikusok + grafikusok) csapatokat követel.

    A felsorolt és más, a „big data” jelenséghez kapcsolódó technológia fejlesztésére európai uniós projektek is indultak Ezekben magyarországi kutatóközpontoknak is van szerepe. Példaként említhetjük például a Nessi-Hungary projektet[5] (az alapokról lásd pl.  Nessi [2009]; Reding [2009]), vagy az MTA Rényi Alfréd Matematikai Kutatóintézetében működő, EU-s támogatású bioinformatikai kutatócsoportot (Palugyai [2011]).




[1] Egy mai DVD lemezre négy-öt gigabájtnyi adat fér rá. Az amerikai Kongresszusi Könyvtár (Library of Congress) honlapján található adat szerint az intézményben 2011-ben 235 terabájtnyi adatot tároltak.

[2] Ilyen „smart city” például Masdar Abu Dhabiban, Songdo City Dél-Koreában és PlanIT Valley Portugáliában. .

[3] Az Amerikai Egyesült Államokban 2005-ben már körülbelül 25 millió biztonsági kamerát üzemeltettek (tehát minden tucat polgárra egy kamera jutott), a számuk azóta minden bizonnyal tovább nőtt.

[4] A letöltési adatokat például a DoubleClick cég közli rendszeresen.

[5] A Nessi-Hungary honlapja: www.nessi-hungary.com

Post a Comment

You must be logged in to post a comment.