Big Data – uncut: befejező rész

Az előző részben az adatméret növekedésének okairól volt szó, illetve azt elemeztük, hogy miben más egy Big Data megoldás, mint egy relációs adatkezelési technikákat alkalmazó rendszer. Ebből már lehet sejteni, hogy mi a Big Data, de a konkrét definícióval még adós vagyok. Az viszont tömör lesz, jó sok V betűvel. Sajnos ez a téma már csak ilyen. Viszont a végén említek néhány “tünetet”, amelyek arra utalhatnak, hogy egy Big Data megoldásra van szükségünk.
Big Data Unplugged – a vágatlan verzió: 3/3

A 3+1 V

Szóval akkor mit is jelent a Big Data? Több meghatározás létezik, amelyek nagyszerűsége egyben hasznosságának korlátja is: a tömörség. Ezen meghatározások közös eleme a sejtelmes 3V, amely a fenti sorokban bővebben kifejtett megközelítés legfontosabb jellemzőinek angol nyelvű elnevezésére utal: Volume (méret), Velocity (sebesség), Variety (változatosság – gondolva itt a szöveges, képi, hang és videó-tartalomra). A Big Data tehát olyan, új generációs technológiák és architektúrák gyűjtőneve, amelyet nagy volumenű, változatos formátumú adathalmaz gazdaságilag ésszerű kezelhetőségére terveztek, lehetővé téve az adatok gyors gyűjtését, tárolását és kiaknázását.[1]

A gyakorlatban hozzá szoktak tenni egy negyedik V betűt is: Variability (variálhatóság). Ez az igen fontos, bár laikus számára elsőre nehezen érthető tulajdonság azt jelenti, hogy a relációs megközelítéstől eltérően az üzleti modell, funkciók és elvárások itt nem képezik az adatmodell részét, nem épülnek be abba. Hogy megértsük ennek a jelentőségét talán szerencsésebb úgy fogalmazni, hogy nem szükséges előre megmondani, hogy pontosan mire fogjuk használni az adatokat, hiszen elemzések esetén az úgyis gyakran változik. Ez nagyon kényelmes olyan környezetben, ahol egy kérdésre kapott válasz újabb kérdéseket szül, amelyek megválaszolásához azonnal hozzá lehet kezdeni, nincs szükség az adatmodell átvariálására.

 

Kell ez nekem?

Informatikai vezetőkben, a vállalat különböző üzleti területeinek döntéshozóiban gyakran merül fel manapság a kérdés: „Szüksége van a vállalatomnak Big Data-ra?” Hadd segítsük a kérdés megválaszolásában néhány tipikus tünet ismertetésével.

Egy konkrét feladat megoldásához valószínűleg Big Data megoldásra van szüksége, ha…

  • …az adatok (relációs értelemben) nem strukturáltak, illetve nem lehet előre pontosan megmondani, hogy mire és milyen formában kerülnek felhasználása.
  • …az algoritmusok komoly számítási, feldolgozási kapacitást igényelnek, viszont jól párhuzamosíthatóak
  • …az adatméret idővel nagyra nőhet, ami teljesítmény gondokat okozhat, illetve nem tudjuk előre becsülni az adatméret időbeni növekedését.
  • …az adatok tárolásának sebessége nem tud lépést tartani az adatok keletkezési sebességével (összefüggésben az adatmérettel).
  • …az adatok lekérdezését, elemzését, kiaknázását és az ezzel kapcsolatos (automatizált) döntéshozatalt szigorú időkeret korlátozza (összefüggésben az adatok keletkezési sebességével, méretével és a feldolgozási kapacitással)

[1] Az IDC meghatározása nyomán: „Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis.”

Cimkék: , ,

Angyal László 2013. november 5.

  • Attila,

    azért írok, mert a “0” hozzászólás demoralizáló és igazságtalan.
    Remek összefoglaló olyasmirõl, aminek a megértéséhez szükséges definíciókat sem ismerik sokan. Pedig a bigdata-val foglalkozni kell, mert csodák nincsenek: hálózat, szerver, operációs rendszer kell ez alá is (remélem :).

    Laci

Papp Attila 2013. november 6.

  • Szia Laci!

    “0” hozzászólás: Tudod nagy szerencse, hogy összefutottunk a lépcsőházban, és mondtad, hogy írtál hozzászólást! Tök jó – gondoltam – legalább tudom, hogy valaki olvassa a cikket. A hozzászólást viszont nem láttam a blogon (mint egyszerű olvasó, persze). Aztán eszembe jutott, hogy nem valószínű, hogy “félrenyomtál” volna valamit, ezért éltem a gyanúperrel, hogy a blogmotor “belsejében” kell utána néznem a dolognak. Bejelentkeztem, és találtam még ott más hozzászólást is, a tiéden kívül. Arra vártak, hogy jóváhagyjam őket. Megkapták! :) Most már tudom, hogy így működik, bár kicsit zavar, hogy időnként be kell kukkantsak, nem jött-e valami. Kicsit olyan, mint a szüleim, meg a gyerekeim korosztálya. Mindkettőjüket fel kell hívni telefonon, hogy küldtem nektek emailt, olvassátok el. Csak a szüleimet azért, mert nekik ez még új, a gyerekeimet meg azért, mert ők már nem használnak ilyesmit.

    hálózat: Igen, kell hozzá! Sőt, van egy olyan érzésem, hogy a sok és speciális feladattal rendelkező node miatt speciális (vagyis más) a hálózati topológia.
    szerver: Na ez az a rész, ami igazán más. Azt mondják, hogy használj ún. commodity (vagyis nem különösebben combos, akár a sarki hardverboltban kapható) szervereket. A jelszó a lineáris skálázhatóság, nagyobb kapacitás kell, tegyél be több szervert. A többit a “rendszer” elintézi. Jól hangzik? Az a gyanúm, hogy annyira azért nem egyszerű a helyzet.

    op.rendszer: igen, kell hozzá! És örülhetsz: ezen a területen hasít az open source. Ha a Big Data hátán nem tör be a vállalatokhoz, akkor sehogy.

    Pau

Pados Attila 2013. november 26.

  • A fenti oldal is Big Data eszközzel (Hadoop) működik, bár itt igazából nincs akkora adattömeg amihez szükség lenne rá, csak a feldolgozás sebességének a növelése, a párhuzamosítás miatt hasznos, meg persze a kiinduló open source rendszerből sikerült megörökölni.

    Amennyi információ eljutott hozzám, a Big Data definíció szerint azokat a megoldásokat fedi le, ahol a megoldott probléma része az adat mérete. Tehát az adatmennyiség kezeléséhez van szükség új eszközökre, amelyek elősegítik az olcsó skálázhatóságot, a párhuzamos adatfeldolgozást és kezelést.

    Gyakorlatilag viszont egyelőre leginkább csak az adatok eltárolásának az igénye jelent meg, a cégek ehhez keresnek eszközt. A feldolgozás igénye jellemzően még nem jelent meg, azt úgy képzelik el, hogy a nagy tömegű adat valamilyen módon átkerül a már megszokott RDBMS/BI rendszerekbe, és onnan történik a riportok előállítása.

Kincses László 2014. július 10.

  • Erre jártam, kis késéssel ugyan, de csatlakoznék a méltatókhoz, nekem is tetszik az összefoglaló. Haladok tovább a többi cikked felé.

Papp Attila 2014. július 11.

  • Köszönöm, és jó olvasást!

Hozzászólás írása

Hiba az űrlap kitöltése során!

* A csillaggal jelölt mezők kitöltése kötelező

*
*
*
*