BD technológiák

Egy szakasz a Big Data technológiákról szóló fejezetbe. Szenvedek az elnevezések fordításával…

—————

Milyen technológák kapcsolhatók az adatrobbanás jelenségéhez? Milyen technológiák adnak valamilyen megoldást az előző szakaszban vázolt igényekre? Ezekre a kérdésekre nehéz válaszolni, hiszen a technológia állandóan fejlődik, irányai és termékei állandóan kombinálódnak egymással, nehéz azokat szétválasztani, egyenként megnevezni és elemezni, vagyis nem könnyű a leltározásuk és rendszerezésük. Már az sem világos, hogy mit is tekintünk tulajdonképpen technológiának: technológiának nevezhetünk például egy elemzésre használt matematikai statisztikai eljárást?

Azt mindenesetre le kell szögeznünk, hogy a technológiai fejlődést annak gazdasági következményeivel együtt érdemes vizsgálni. Az új technológiák általában megváltoztatják a tevékenységek költségeit, beruházási igényekkel lépnek fel, nyereségessé, gazdaságossá tehetnek valamit. Az előző szakaszban orvosbiológiai példákat emlegettünk, hozzunk most ismét innen egy példát! A teljes emberi genom szekvenálásának költsége ma pár ezer dollár és folyamatosan csökken; 2001-ben, tehát alig több, mint tíz  évvel ezelőtt még 95 millió dollárba került. Ez óriási különbség, nem csoda, hogy bekövetkezett az. 1.2.1. sz. ábrával illusztrált „adatrobbanás”. Az általános fejlődés tehát technológiai és gazdasági tényezők összjátékaként írható le. Nyilván azok a technológiák fejlődnek gyorsan és terjednek el, amelyek gazdaságos megoldást kínálnak valamire, az azokkal kapcsolatos beruházások valamilyen módon megtérülnek.

Hogyan lehetne az adatrobbanással összefüggő technológiákról valamiféle letárt készíteni? Erre többféle megoldás kínálkozik.

Az első: lássuk mit mondanak a szakértők! A tekintélyes Gartner Group az infokommunikációs piac elemzésével foglalkozik. A vállalat minden évben úgynevezett hype-ciklusok (hype cycle) formájában is közzé teszi technológiai előrejelzéseit[1]. 2014-ben 119 területbe csoportosítva több mint kétezer technológiát elemeztek így. A hype-modell szerint az új technológiák az irántuk való érdeklődés intenzitása és az azokkal kapcsolatos elvárások szempontjából jellegzetes fejlődési fázisokon mennek keresztül. Megjelenésük idején (Innovation Trigger) az érdeklődés még csekély, de szerencsés esetben, ha az újdonság üzleti szempontból izgalmas és sikerül körülötte felhajtást gerjeszteni, gyorsan nő. Az elvárások könnyen elszakadhatnak a realitásoktól: a technológia fejlesztői túl sokat ígérnek, alkalmazói túl sokra számítanak (Peak of Inflated Expectations). A csodavárás után szükségképpen a kiábrándulás, az illúziók elvesztése következik (Trough of Disillusionment). Közben egyre több felhasználói tapasztalat gyűlik össze, kiderül, hogy a technológia mire képes valójában, mire jó és mire nem, világosabban mutatkoznak meg az erényei és a gyengéi (Slope of Enlightenment). Idővel elfoglalja a neki megfelelő helyet, hasznot hajt azoknak, akik meggondoltan és ésszerűen használják (Plateau of Productivity). Az összeállítás készítői megjelölik, hogy az elemzett technológiák éppen melyik fázisban járnak, jelezve azt is, hogy az utolsó fázis (a józan és eredményes használat) elérése mikorra várható, van-e esély arra, hogy a technológia egyáltalán eljusson odáig.

Hype-elemzés Big Data kategóriában is készül. Nézzük meg, hogy a Gartner milyen technológiákat sorolt ebbe 2013-ban, és azok melyik fázisban jártak!

Összesen több mint három tucat technológiáról van szó. Látható, hogy az elemzés készítői a „technológia” szót tágan értelmezik, a csoport meglehetősen tarka: konkrét technikai termékek, általánosabb, összetettebb tevékenységek, szolgáltatások egyaránt akadnak benne.

Mivel nyilvánvaló, hogy a fejlődési görbe elején (az újdonság megjelenésénél) jóval nagyobb az előrejelzés bizonytalansága, mint a végén, a technológiák között szemezgetve haladjunk hátrafelé! A 2013-as ítélet szerint a legérettebb technológia az előrejelzési analitika (predictive analytics), vagyis nagyjából az a terület, amivel a 4. fejezetben foglalkozunk. Ez nem meglepő, hiszen statisztikai előrejelzések régóta készülnek; az újdonság nyilván a felhasznált adatbázisok méretének, az adatok változatosságának növekedése, és az a lehetőség, hogy az előrejelzés folyamatosan, késedelem nélkül készüljön el, ne csak régi adatokat használjon. Hasonlóképen érett technológiának számít a beszédfelismerés: ilyen szolgáltatást több cég fejleszt (keresés, navigáció stb.), a munkát bonyolult algoritmusok végzik el; minél több adatot használnak fel az algoritmusok finomításánál, „betanításánál”, annál jobb lesz az eredmény[2], így például az algoritmus a már elhangzott szavak alapján egyre megbízhatóban találja ki, hogy mi lesz a következő szó[3]. Ugyanezt az összefüggést (több adat → eredményesebb gépi tanulás → jobb algoritmus) használják ki a modern fordítóprogramok is, amelyek nagy tömegű, szakszerűen lefordított szövegek feldolgozásával statisztikai alapon közelítenek a fordítás bonyolult problémájához. A felhasználók tapasztalhatják, hogy bár még sok gond van a gépi szövegértéssel és fordítással, a szolgáltatások egyre jobbak lesznek, és ennek az az egyik magyarázata, hogy az adatrobbanás és egyes kapcsolódó technológiák fejlődése új fejezetet nyitott ezeken a területeken, a korábbi, jórészt zsákutcába vezető kísérleteket újak váltották fel.

A 2013-as hype-jelentésben az érettebb technológiák közé tartozik a közösségi média monitorozása, azaz folyamatos figyelése és az összegyűjtött információk feldolgozása. Az olyan közösségi médiumok, mint például a Facebook vagy a Twitter rengeteg felhasználóval büszkélkedhetnek és óriási, nagyon változatos adattömeget produkálnak. Az adatokból (szövegekből, képekből, lájkokból, linkekből stb.) kihámozható információkra, az azokból kirajzolódó mintákra, trendekre sokan kíváncsiak, és ehhez megfelelő eszközre van szükségük. A méretek és a sebesség miatt ez többnyire csak valamilyen gépi megoldás lehet, nem meglepő tehát, hogy ilyenek már jó ideje léteznek.

A Gartner szerint 2013-ban mintegy fél tucat technológia járt az illúzióvesztés fázisában. Ezzel a helyezéssel óvatosan kell bánni, már csak azért is, mert az adatrobbanás szempontjából alapvető fontosságúnak tekinthető technológiák is vannak itt. A mélypont közelében helyezkedik el például a felhő-számítástechnika (cloud computing). Az eddigi fejezetekben már több olyan példát mutattunk be, amelyeknél a beruházások nagysága vagy a kapacitásigények ingadozása miatt nem célszerű az adatfeldolgozási műveleteket valamilyen házi rendszeren végezni, jobb egy nagy, centralizált számítóközpont szolgáltatásait igénybe venni – ezzel a kérdéssel később részletesebben foglalkozunk. Illúzióvesztést jeleznek a szövegelemzés (text analytics) világában is, pedig az adatok és információk jelentős része szövegekben jelenik meg; Provost és Fawcett adattudományi szakkönyvükben külön fejezetet szentelnek ennek a témának[4].

A memórián belüli analitika (in-memory analytics) is a mélypont közelében van feltűntetve. Az okos rendszerek hatékonysága szempontjából nem mindegy, hogy az aktuális, valós idejű adatokat (is) tartalmazó adatbázisokat milyen sebességgel dolgozzák fel, a döntéshozók megkapják-e időben a gép által produkált eredményeket. Sok adatot többször mozgatni valamilyen háttértároló és a gép munkavégző memóriája között időigényes dolog, előnyösebb, ha a gép „fejben” dolgozik – lényegében erre szolgál ez a technológia. A sebességet növeli a párhuzamos feldolgozás, ami egymással hálózatba kapcsolt, ilyen munkára képes számítógépeken (grid) történhet.

A hype-ciklus csúcspontja és az illúzióvesztés mélypontja között közel tucatnyi technológiát jelenít meg a Gartner Group jelentése. Tarka társaság gyűlt itt össze. A közösségi analitikát (social analytics), bár távol vannak egymástól a hype-görbén, nehéz megkülönböztetni a közösségi média montorozásától. A csúcsponton alighogy túljutott tartalomelemzést (content analytics) valószínűleg a mélypontra süllyedt szövegelemzés rokonának kell tekintenünk. A dinamikus adatmaszkolás (data-masking) a titkosítást, anonimizálást, az adatszivárgás megakadályozását szolgálja – erre a kérdésre az 5. fejezetben térünk vissza. Az értékesítés-analitika (sales analytics) lefelé csúszása azt jelezheti, hogy következő fejezetben bemutatott előrejelző rendszerek sem mindenhatóak, egyesek túl sokat várhattak azoktól. A csúcspont és a mélypont között félúton elhelyezkedő telematika valójában egy népes informatikai és távközlési technológia- és megoldáscsalád együttes elnevezése, tulajdonképpen a második fejezetben tárgyalt okos rendszerek körébe tartozik.

A Big Data világ egyik legfontosabb adatfeldolgozási technológiája, a Hadoop a hype-görbe két pontján is megjelenik: a Hadoop distributions lefelé, a Hadoop SQL interfaces felfelé tart. A csúcs közelében egy adattárház-technológia is megjelenik logikai adattárház (logical data warehouse) néven. A Big Data Technológiák körében sajátos „együttműködési verseny” figyelhető meg az addattárházak és a Hadoop-világ között. Aktuális állapotát nem könnyű felmérni, mivel dinamikus technológiákról van szó, ahol a változások mindennaposak. Ha a technológiákat a képességeik alapján ítéljük meg, akkor adatfeldolgozási szempontból az a döntő kérdés, mennyire képesek kezelni a modern világ adatbázisainak három, az első fejezetben bemutatott jellemzőjét: a tömeget (volome), a változatosságot (variety) és a gyorsaságot (velocity). A hagyományos adattárházak  jól definiált és strukturált, relációs adatbázisokba, táblázatokba rendezhető adatok kezelésére alkalmasak: az adatok rendezett „raktárakba” kerülnek, ez után következik az analízis. A Hadoop (tulajdonképpen egy gyorsan fejlődő, nyitott forráskódú alkalmazáscsaládról van szó) az új kihívásokra igyekszik válaszolni: óriási adattömeg, sokféle adat sokféle forrásból, a rendkívül gyors reagálás igénye. Nem véletlen, hogy tipikus felhasználási területei a következők:

  • Log-adatok elemzése (log data analysis). Eseményeket, akciókat, tevékenységeket naplózó log-adatokból rengeteg keletkezik. Az ilyen adatok tulajdonképpen a mindennapos működés „melléktermékei” – tipikus példa egy webes bolt látogatóinak egérkattintás-sorozata, vagy egy modern autó szenzorainak rögzített feljegyzései. A log-adatokat gyakran nem használják semmire, pedig azok érdekes mintákra, szabályosságokra, összefüggésekre hívhatják fel a figyelmet. Ilyen tömegű (esetenként terabájtokról van szó), folyamatosan érkező adatot nehéz elemezni, a reakcióidő pedig kifejezetten rövid lehet.
  • Csalások felderítése (fraud detection). Különösen fontos lehet például a pénzügyi intézményeknél, a társadalombiztosítás területén vagy az internetes kereskedelemben. A cél általában valamilyen előrejelző, figyelmeztető modell felépítése. Ezek a modellek annál jobbak, minél több és minél többféle adatot tudnak hasznosítani. Mivel az ellenfél is tanul és változik, sokféle elemzésre, a modellek állandó frissítésére van szükség.
  • Kockázatelemzés (risk modeling). Tipikus felhasználók a bankok, ahol a kockázatok elemzésébe egyre több rosszul strukturált adatot is igyekeznek bevonni, így például elektronikus leveleket, közösségi oldalakon megjelent bejegyzéseket, ügyfélszolgálati feljegyzéseket.
  • Társadalmi közérzet vizsgálata (social sentiment analysis). Ez a Big Data világának egyik legérdekesebb, ámde legtöbbet vitatott területe. A kérdés az, hogy miként lehet a legkülönbözőbb forrásokból (például blogokból, twitteres vagy facebookos bejegyzésekből, lájkokból) származó adatokból az emberek közérzetére, hangulatára, eseményekre adott reakcióikra, szándékaira, következtetni.
  • Álló- és mozgóképek, hangok osztályozása (image, video, voice classification). Az osztályozás adatokból való tanulással kifejlesztett eszközei mintákat, jellegzetességeket fedeznek fel a strukturálatlan adatokban[5], miközben a „nyersanyag” folyamatosan és gyors ütemben bővül. elegendő például az Instagramra, a Flickrre vagy a YouTube-ra mint adatforrásra gondolni. a hasznosítás egyik kiemelt területe a képalkotásos orvosi diagnosztika lehet.
  • Gráfelemzés (graph analysis). A csomópontokból és azokat összekötő élekből álló hálózatok fontos kapcsolatokat, összefüggéseket jeleníthetnek meg. Az egyik felhasználási terület magának a világhálónak a feltérképezése.

A felsorolt feladatok adattárház-eszközökkel nem vagy nehezen kezelhetők, a Hadoop-technológiát viszont eredményesen alkalmazzák. Az adattárházak és a Hadoop-világ között viszont nincs éles határvonal, azok kölcsönösen kiegészíthetik egymást, fejlődésük során közelednek egymáshoz

Ezzel a hype-ciluson át is kerültünk a hegy csúcsára, illetve másik oldalára, a felkapaszkodó technológiák közé. A csúcson tanyázó complex event processing például ambiciózus technológia: különböző külső és belső forrásokból áramló adatok fogadására és gyors, valós idejű feldolgozására és következtetések levonására vállalkozik, vagyis vezetési szempontból fontos eseményeket (lehetőségeket, veszélyeket) kell beazonosítania a döntéshozók számára. A csúcsra éppen felérő internet of things (a dolgok, tárgyak internete) inkább jelenség, mint technológia: arról van szó, hogy az internet nem csak az embereket (internet of people), hanem egyre inkább a különböző eszközöket, tárgyakat is összeköti a háztartási elektromos eszközöktől kezdve a gépkocsikon át az orvosdiagnosztikai eszközökig. Előrejelzések szerint hamarosan jóval több tárgy fog az internethez csatlakozni, mint ember, ami témánk szempontjából még több feldolgozható adatot jelent.

Érdekes, hogy a Gartner 2013-as Big Data  hype-modellje technológiaként kezeli és jeleníti meg az adattudományt (data science) is, és annak beérési idejét több mint tíz évre teszi.

A csúcs felé egyébként tarka társaság kapaszkodik, többnyire képlékeny, néha homályos határvonalakkal: videós keresés, szemantikai szolgáltatások, gráf-adatbázisok stb. A sor legelején az ügyfélkiszolgálást támogató Big Data analízis (Big Data analytics for customer service) áll. Az egyik úttörő ezen a területen az internetes közvetítő kereskedelemmel foglalkozó, százmilliós ügyfélbázissal rendelkező eBay, ahol a számítógépek naponta 50 terabájtnyi adatot produkálnak és sok petabájtnyi adatot kell feldolgozni. A vállalat célja az, hogy a vevők és az eladók minél könnyebben egymásra találjanak, az ügyletek létrejöjjenek, a résztvevőknek pozitív élményeik legyenek a tranzakcióról.  Ügyfeleik jobb megismerése érdekében az adatelemzés eszközeit vetik be: megpróbálják kitalálni a szándékaikat és a preferenciáikat, segítik őket a keresésben, testre szabott ajánlatokat tesznek. Az adatok jól mutatják a vásárlók és az eladók útját, a tranzakciók kibontakozását. Az eBay ebben a munkában adattárház- és Hadoop-eszközöket egyaránt használ[6].

Vessünk most egy pillantást a Gartner Group 2014-es hype-jelentésére a feltörekvő technológiákról. Ennek egyik érdekessége, hogy a Big Data egyetlen technológiaként szerepel benne, méghozzá a csúcs után, a leszálló ág elején. A csúcson éppen a dolgok internete áll, aminek a korábbinál gyorsabb beérést jósolnak. Ha sorra vesszük a hype görbén feltűntetett technológiákat, szinte mindegyiknek van valamilyen köze az adatrobbanáshoz: internetre kapcsolódó otthonok, okos robotok, 3D-s nyomtatás, tartalomelemzés, mobil orvosi diagnosztika…

Hogyan lehet leltárt készíteni az adatrobbanással kapcsolatos technológiákról? – tettük fel a kérdést a jelen szakasz elején. Egyik megoldásként a Gartner Group hype-jelentéseit javasoltuk, de természetesen másra is van lehetőség. Említsünk meg egy másik lehetőséget: megvizsgálhatjuk, milyen technológiák jelennek meg egy modern infokommunikációs eszközben. Válasszuk ki az okostelefont, a modern világ egyik legfontosabb és legnépszerűbb adattermelő eszközét. Az Apple iPhone-jában a következő alapvető technológiák jelennek meg[7]:

  • félvezető eszközök: mikroprocesszorok, központi feldolgozó egységek;
  • dinamikus random-access memory;
  • mikrodrájv-tároló;
  • folyadékkristályos kijelző;
  • lithium-polimer és lithium-ion telepek;
  • Fourier-transzformáció-algoritmussal dolgozó digitális jelfeldolgozás;
  • az internet maga;
  • Hypertext Transfer Protocol (HTTP);
  • Hypertext Markup Language (HTML);
  • cellás kommunikációs technológia és hálózat;
  • globális pozicionálási rendszer (GPS);
  • multi-touch gördülő képernyő képernyő;
  • mesterséges intelligenciával, gépi tanulással támogatott hangalapú felhasználói interfész (SIRI).

Az adatrobbanás egyik legfontosabb eszközének létrejöttéhez tehát a fenti technológiák megjelenésére és fejlődésére volt szükség. Egyes technológiák a számítógépek alapvető komponenseit adják, mások a kapcsolatot biztosítják, ismét mások valamilyen szolgáltatást nyújtanak vagy a felhasználást könnyítik meg. Minden változik, egymás után jönnek ki az újabb és újabb technológia- és termékgenerációk.

Az adatrobbanás jelenségéhez kapcsolódó technológiákat a funkciójuk szerint is csoportosíthatjuk. Az előző fejezet 2.2.1. sz. ábráján bemutattuk az okos rendszerek építésének és használatának logikai modelljét. Ha áttekintjük a fentebb felsorolt technológiákat, láthatjuk, hogy azok egy vagy több tevékenységet támogatnak, így például az adatok előállítását és gyűjtését, az adatok rendezését, feldolgozását, a döntések végrehajtását. Egyes technológiák szinte minden lépésnél megjelennek, mások egy-egy speciális tevékenységet segítenek.


[1] Forrás: http://www.gartner.com/technology/research/hype-cycles/

[2] Az adatok tömege és az algoritmusok hatékonysága közötti összefüggést fejti ki a Google fejlesztőinek egyik tanulmánya: Chelba 2012

[3] Vagyis tulajdonképpen az adatalapú előrejelzés egy sajátos válfajáról van szó.

[4] Provost-Fawcett 2013

[5] Lásd például az IBM IMARS (Multimedia Analysis and Retrieval System): http://researcher.watson.ibm.com/researcher/view_group.php?id=877

[6] Lásd erről bővebben a Computer Weekly cikkét: http://www.computerweekly.com/news/2240219736/Case-Study-How-big-data-powers-the-eBay-customer-journey

[7] A felsorolás Mariana Mazzucato (2013) könyve alapján készült.

Post a Comment

You must be logged in to post a comment.