Big Data – uncut

“Big Data – unplugged” címmel írtam egy cikket a T-Systems Magyarország ügyfélmagazinjába, a JövőKépbe. A nyomtatott sajtóban a terjedelmi korlát nagy úr, a cikk egyszerűen nem fért be az erre a célra fenntartott helyre. A szerkesztők ügyesen megvágták az anyagot, a mondanivaló nem sérült lényegesen, ettől függetlenül úgy gondoltam, hogy publikálom a teljes cikket, hogy a kimaradt gondolatok se hiányozzanak.
Tehát: Big Data Unplugged – a vágatlan verzió: 1/3

Nagyadat – nagy zűrzavar[1]

Meggyőződésem, hogy azok a technológiai trendek, újdonságok, az adatok elemzéséhez való újszerű hozzáállás, amelyet ma összefoglalóan Big Data-nak (vagy sok helyen, magyarul nagyadatnak) hívnak, jelentős megújulást hoz az életünkben. Önmagában az elnevezéssel azonban több problémám is van.

Egyrészt félrevezető, hiszen a felületes szemlélőben az a képzet alakulhat ki, hogy itt egyszerűen nagyon sok adat kezeléséről van szó. „Nálunk nincs is olyan sok adat, nem kell nekünk Big Data” – hangzik a megcáfolhatatlannak tűnő ellenérv. Másrészt, mivel az elnevezés alapvetően az adatok volumenére koncentrál, jótékony homály fedi a lényeget: vagyis azt, hogy ez az adatok kezelésének egy újfajta megközelítése.

De mit jelent a Big Data valójában, miben rejlik az újszerűsége? Valószínűleg sokan egyetértenek velem abban, hogy ez a legfelkapottabb informatikai kifejezés manapság. Ennek megfelelően sokan „rárepülnek a trendre”, és sokféle meghatározás (sokszor belemagyarázás) keletkezik nap, mint nap. Ez persze nem kedvez az érthetőségnek, és hogy ez mennyire így van, hadd mutassak egy példát. A Gartner a BI szoftverek piacának 2012-es növekedését 7%-ra mérte, ami persze igen szép teljesítmény a vállalati szoftverpiac többi területéhez viszonyítva, azonban drámai megtorpanás a 2011-re mért több mint 16%-hoz képest. A magyarázatként felhozott okok egyike éppen az a bizonytalanság, ami a Big Data körül manapság tapasztalható.

 

Large data – Big data – Giant data

Lássuk először, hogy miért nem a méret a lényeg. Pontosabban hogy önmagában a méret miért nem lényeg. Bizonyára sokakban felmerült már a kérdés, hogy hol, például hány gigabájtnál, terabájtnál, petabájtnál kezdődik a Big Data. Ha önmagában az adatvolumenről lenne szó, ezt a kérdést nyilván könnyen meg lehetne válaszolni. Valahogy úgy, hogy: „hát…az egy-két terabájt még biztosan nem Big Data, de a pár száz tera már valószínűleg az.” A valóság azonban ennél összetettebb. Egy pár terabájtot kezelő rendszer is lehet Big Data megoldás, és ki lehet találni olyan, petabájt közeli igénnyel járó rendszereket, amelyek nem igényelnek Big Data technológiát. Az adatok volumene mindig az adatok kezelésére vonatkozó igények, elvárások és a feladat megoldásához rendelkezésre álló technológia függvényében jelent vagy nem jelent kihívást. Ha a várható adatvolumen – adatkezelési igények – technológiák hármasból kettőt rögzítünk, a harmadik – következményként – megadható. És ez mindig így volt az információtechnológia pár évtizedes történetében, azzal a kiegészítéssel, hogy természetesen nem választhattuk bármelyiket tetszés szerint, de a hardver- és a szoftver-technológiák folyamatos fejlődésével egyre „messzebbre nyújtózkodhattunk”, egyre nagyobb elvárásaink lehettek egyre nagyobb adatvolumenre vonatkozóan. De mindig létezett egy elvi méretkorlát, amelynél több adatot az adott kor, akkori igényeivel már nem igazán tudtunk kezelni. Edgar F. Codd, az IBM informatikus-matematikus kutatója 1970-ben írt egy tanulmányt, amelyben matematikai (azon belül halmazelméleti) alapokra helyezte az adatbázis kezelés elméletét. Az azóta klasszikusnak számító művet tekintik a ma már egyeduralkodónak számító relációs adatbázis kezelés elméleti alapjának. A tanulmány címe az volt, hogy „A Relational Model of Data for Large Shared Data Banks„. Érdekes, hogy Codd a „large” szót használta, pedig az 1970-es adatvolumen nyilván össze sem mérhető azzal, amit ma a „BIG” szóval illetünk, és valószínűleg elképednénk azokon a számokon, amit unokáink majd talán „giant-nek” neveznek. Azt lehet mondani, hogy az elmúlt negyven évben az adatvolumen mindig is „nagy” volt, abban az értelemben, hogy a vállalatok, a nagy adatfelhasználók igényei és az adatbázisok mérete mindig is feszegették az adott kor műszaki lehetőségeit. A műszaki fejlődés azonban időben nem egyenletes, sok apró technikai újítás mellett megjelenik néhány nagyobb „ugrás” is. Ilyen ugrásnak számít Codd relációs adatbázis kezelési elmélete, és ilyen ugrás a Big Data is. Olyan adatkezelési, modellezési koncepció és kapcsolódó technológiák, amelyek lehetővé teszik, hogy eddig irreálisnak tűnő igényekkel lépjünk fel, ráadásul a szokásosnál jóval nagyobb adatméretre vonatkozóan.


[1] Gartner alapján: „Big Data – Big Confusion”

Tagged , ,

Post a Comment

You must be logged in to post a comment.