Big Data – uncut: második rész

Az első részben szóltam pár szót a Big Data körüli felhajtásról, illetve arról, hogy miért nem csak a méret a lényeg. Ott hagytuk abba, hogy a Big Data lehetővé teszi, hogy eddig irreálisnak számító igényekkel lépjünk fel a szokásosnál jóval nagyobb adatméretre vonatkozóan. Ebben a részben arról lesz szó, hogy melyek ezek az “irreális” igények, és mitől lett hirtelen nagy az adatméret.
Big Data Unplugged – a vágatlan verzió: 2/3

Többet, többől

De melyek ezek az eddig irreálisnak tűnő igények, feladatok és mitől lett hirtelen ilyen nagy az adatméret? Kezdjük az utóbbival. Különböző tanulmányok és felmérések egyre meghökkentőbb statisztikákat mutatnak az egyre fokozódó ütemű adatrobbanásról. Az interneten bőséges képi illusztrációt lehet találni mindehhez (csak üssék be kedvenc keresőjükbe, hogy „data explosion”). A jelenség mögött alapvetően két dolog áll: 1) egyre több ember termeli ezeket az adatokat, és 2) ma már nem csak közvetlen emberi tevékenység áll az adatok generálása mögött. Egy bő évtizeddel ezelőtt az elemzésre használt adatok túlnyomó része számítógépes rendszerek adatbázisaiban található rekordokból állt. Ezek a rekordok valamilyen emberi tevékenység során kerültek oda, például egy dolgozó megnyomott egy gombot a vállalati alkalmazásban, vagy egy telefonáló elindított egy hívást. Egészen az ún. Web 2.0 forradalomig az internet oldalak is többnyire statikus információkat nyújtottak passzív (csak olvasó) látogatóiknak. Az elmúlt évtized közepétől azonban elkezdtek terjedni az olyan megoldások, amelyek a felhasználók számára lehetővé tették az interakciót, az információk (szövegek, képek, videók) megosztását és ezzel olyan új szolgáltatások jöhettek létre, mint például a blogok, wikik, kép- és videó-megosztó helyek, illetve a különböző célkitűzésű közösségi terek. Ahogy olcsóbb lett egyre jobban terjedt a szélessávú internet a „lakásokban”, így aztán egyre többen, egyre több adatot termeltünk. Ráadásul ezek az adatok már nem „rekordszerűek”, nem kezelhetőek a hagyományos relációs adatkezelő technikákkal, hiszen a szövegek, képek és videók más megközelítést kívánnak. Később megjelentek olyan személyes használatú kisgépek (kütyük), mint például az okostelefonok, a navigációs berendezések, tréner és egészségügyi eszközök. Ezek, és az olyan technológiák, mint például az RFID azonosítás, vagy az automatizált rendszerek számítógépei működésük közben folyamatosan, már közvetlen emberi interakció (például gombnyomkodás) nélkül termelték az adatokat. Az emberi léptékű adattermelésből átléptünk a gépi léptékű adattermelésbe, ahol az adatok már nem csak azért keletkeznek, mert valaki dolgozik a számítógéppel, hanem azért, mert telik az idő.

 

Az adatméreten túl

De az így hirtelen megnövekedett adatvolumen – mint írtuk – csak az egyik tényező. Az adatok kezelésével kapcsolatos igények, elvárások is erősödtek, első sorban az idő tekintetében. Már önmagában az is kihívás, hogy hagyományos (relációs) technikákkal el tudjuk tárolni az adatokat abban az ütemben, ahogy azok keletkeznek. Ha ehhez még hozzávesszük, hogy ezzel egy időben (vagyis valós időben) le is szeretnénk kérdezni ezeket az adatokat, sőt talán még különböző feldolgozásokat, elemzéseket, kiértékeléseket szeretnénk futtatni rajtuk, hogy erre alapozva – ugyancsak valós időben – be is tudjunk avatkozni a rendszer működésébe, akkor érezhető, hogy itt valami új megközelítésre, mondhatni paradigmaváltásra lesz szükség az adatmenedzsment területén.

 

Nem jobb, hanem más

Ez az új megközelítés a Big Data, amely tehát nem egyszerűen nagyobb adatvolument jelent, nem jobb, hanem más, mint a relációs adatmenedzsment. Más azért is, mert a relációs modelltől eltérően nem csak strukturált, tehát adattáblák mezőibe kényszerített adatokat, hanem szöveget, képet, hang- és videó-tartalmat is kezel. Ezen a ponton viszont adódik a kérdés: ha a Big Data megközelítés több és többféle adatot, ráadásul gyorsabban tud kezelni, mint a relációs technikák, akkor várható, hogy idővel az előbbi kiszorítja az utóbbit? Nos, nem. Legalábbis a szóban forgó technológiák jelen állapota szerint nem. A Big Data adatmenedzsment megközelítése ugyanis azért tud jobban teljesíteni bizonyos területeken, mert nem foglalkozik az adatkezelés más, fontos aspektusaival, így megszabadul azok terheitől. Ilyen például az adatbázis integritásának a védelme, amely egy igen fontos eleme a relációs adatmenedzsment koncepciójának, enélkül igen kockázatos lenne bármilyen vállalati rendszert működtetni. Amikor egy ilyen rendszer tervezője kitalálja az adatmodellt, akkor az üzleti és műszaki elvárásoknak, specifikációnak megfelelő modellt alkot meg, amelybe beépíti a vonatkozó peremfeltételeket, összefüggéseket, általános érvényű (invariáns) tulajdonságokat. Ha valamilyen előre nem látható ok folytán – ami lehet egy programhiba, de akár egy áramszünet is – ezen tulajdonságok akár a legkisebb mértékben megsérülnének, akkor a rendszer működése kerülne veszélybe, és csak egy hosszú és aprólékos munka árán lehet visszaállítani a működőképes állapotot. Egy mai relációs adatbázis kezelő szerencsére eszközök egész sorát nyújtja segítségül az adatbázis integritásának védelméhez a feltételeknek meg nem felelő adatok befogadását megtagadó megszorításoktól (constraint) kezdve, a belső összefüggések fenntartását szolgáló triggereken át, az adatbázison átfutó tranzakciók atomicitásáig (oszthatatlanság). Egy Big Data alapú adatmenedzsment eszköz nem biztosít ilyeneket, cserébe jobb paraméterek tud nyújtani olyan területeken, ahol például nincsenek összetett tranzakciók, az adatok ritkán változnak (update), inkább bővülnek (append), és keletkezésük után inkább csak olvasási műveletnek vannak kitéve.

Cimkék: , ,

Tóth Attila Zoltán 2013. október 28.

  • Kedves Attila!
    Nagyon értékesnek tartom a cikket, mert a tisztánlátást, a dolgok megfelelő helyére tételét célozza meg. Megvilágítja az informatikai szakma iránt érdeklődők, és talán nemcsak azok számára, hogy a Big Data alatt egy valóban új technológiát, egy számos újabb üzleti alkalmazási területek bevonását lehetővé tevő megoldást kell érteni.

Papp Attila 2013. november 6.

  • Köszönöm a megjegyzést, és elnézést, hogy csak most élesítettem! Próbáltam a cikkben a Big Data “másságát” hangsúlyozni, de ez valóban nem csak a technológusokat érinti. Eltérő, de jelentős feladatot jelent ez az üzleti területek számára, mert meg kell érteniük az új üzleti lehetőségeket a technológia mögött, és ne feledkezzünk meg a HR feladatokról sem: egyre többet hallani a megfelelő szakemberek hiányáról.

Hozzászólás írása

Hiba az űrlap kitöltése során!

* A csillaggal jelölt mezők kitöltése kötelező

*
*
*
*