Kategória: BI és analitikus alkalmazások

Az eddig leírtakból úgy tűnhet, hogy a SMAC alapvetően a fogyasztói oldalt érinti, a vállalatok közül legfeljebb a nagyobb, tömegpiacon működőek érdekeltek. Lehet, hogy a kezdeti időszakot ez jellemzi majd, az idő előrehaladtával azonban egyre átfogóbbá válik a négy technológiai hajtóerő hatása. Az utolsó részben nézzük meg, hogy hogyan kapcsolódik …

A SMAC és a vállalati IT Read More »

Cimkék: ,

A sorozat mai posztjából végre kiderül, hogy …

Mi az a SMAC? Read More »

Cimkék: , ,

Ez a cikksorozat bemutatja, hogy milyen trendek fogják jellemezni az infokommunikáció következő egy-két évtizedét. Pontosabban, amit ma látunk ezekből. Talán emlékeznek még, hogy az elején abból indultunk ki, hogy miért túl leegyszerűsítő azt mondani, hogy a Big Data a jövő. Remélem ma kiderül, hogy hogyan áll össze ez az egész, és hogy hol van ebben a Big Data szerepe. A negyedik hajtóérő ugyanis – ahogy Önök már nyilván sejtik – az…

Analitika Read More »

Cimkék: , ,

„A Big Data a jövő!” – egyre sűrűbben lehet hallani, olvasni ezt a kijelentést. Nos, szerintem nem! Pontosabban részben, de a dolog nem ilyen egyszerű. Az infokommunikáció következő egy-két évtizedét négy, egymásra is jelentősen ható trend határozza meg. A Big Data ezen hajtóerők egyikének műszaki, arhitektúrális alapját adja. Ez nem kevés, de a teljes kép ennél jóval összetettebb.

Nemrégiben írtam egy összefoglalót a témában, amit szeretnék itt, a Szakértői blogon elérhetővé tenni. Terjedelmi okok miatt hét részre szedtem. Ez az első rész, melynek alcíme:

A négy nagy hajtóérő

Read More »

Cimkék:

Több cikket olvastam mostanában az inBloom történetéről. Az érdeklődést nyilván az gerjeszti, hogy a non-profit szervezet nemrég bejelentette: becsukja kapuit, feladja a meccset.

Az inBloom pár éve látta meg a napvilágot, dollármilliókat fektettek bele, Bill Gates ismert alapítványa például 100 millióval járult hozzá a megszületéséhez. Technlógiai szempontból a szervezet a felhő-számítástechnikához és az adatrobbanáshoz (Big Data) kapcsolódik. Működési területeként az iskolákat jelölte meg. Az iskolákban rengeteg gyerek tanul, és erről a rengeteg gyerekről rengeteg adat képződik: osztályzatok, teszteredmények, életkor, lakcím, családi körülmények, egészségi állapot, sporteredmények és így tovább. Ezek az adatok különböző forrásokból származnak, különböző helyeken és formátumokban tárolják őket, sok esetben nem használják őket semmire, vagy egyszeri használat után megfeledkeznek róluk.

Kézenfekvő a következtetés: ennek az adattömegnek hasznosulni kellene, módszeresen, egy helyen (a felhőben) kellene gyűjteni, tárolni, fel kellene dolgozni, az eredményeket hozzáférhetővé kellene tenni; és így, klasszikus adatfeldolgozási-adatbányászati eszközökkel okosabbá lehetne tenni az oktatást, vagy mondjuk inkább így: okosabbá lehetne tenni az iskolákat. Ki lehetne mutatni például, hogy mi működik és mi nem, melyik diáknak mire van szüksége, testre lehetne szabni a feladatokat, az oktatási módszereket, a tananyagokat, hatékonyabbá lehetne tenni a tanári munkát, okosabbá lehetne tenni az erőforrások, a kapacitások elosztását. Trendeket, korrelációkat, hatásmechanizmusokat, oksági összefüggéseket lehetne feltárni.

E nemes gondolatok jegyében jött létre az inBloom, az iskolai adatok tárolására, feldolgozására, hozzáférhetővé tételére hivatott, nyitott forráskódó szoftverrel dolgozó, társadalmi ellenőrzés alatt álló non-profit szervezet. Okos gondolatok, szakszerű technikai kivitelezés, modern technológia – hát akkor mi a baj? Baj a bizalommal támadt. Szülők egy csoportja törvény elé vitte az inBloomot. Veszélyben érzik a gyerekeik adatait, féltik az iskolások magánéletét.

Van-e okuk félni, illetve kiktől félhetnek egyáltalán? Félhetnek a profitéhes vállalatoktól: el lehet képzelni, mekkora a csábítás arra, hogy az adatokat megvásárolják és marketing célokra felhasználják. Félhetnek a vállalatoktól mint potenciális munkaadóktól is: mi lesz, ha a személyes adatokat valaki toborzási-személyzeti célokra használja fel? Félhetnek a bűnözőktől is, akik a személyes adatokon kersztül hálózhatják be a gyerekeket. Félhetnek az államtól is: ki tudja, milyen formában ütközik ki rajta a Big Brother hajlam. A gyerekem élete nyitott könyv lesz: szabad ezt hagyni? Számtalan negatív példa van: az amerikai kémügy, nagy adatlopások, internetes zaklatás…

Félni tehát tényleg van mitől. Szögezzük le azonban világosan: az akció leállítása, miközben eloszlathatja félelmet, veszteséggel is jár, hiszen a szülők, a gyerekek, az iskolák, az önkormányzatok, maga az állam elbúcsúzhatnak a rendszer előnyeitől. Az oktatási rendszer nem lesz okosabb, legalábbis ezen a Big Data vonalon nem. Pedig biztos ráférne némi okosodás. A probléma, vagyis a félelem, a bizalmatlanság a nagy és összevolt adatbázisokkal szemben nem egyedi jelenség: elegendő ha az egészségügyre és azon belül az elektronikus, felhőben tartott nyilvántartások (electronic health records) ügyére gondolunk.

 

Cimkék: ,

Mozi: Exek és szeretők. A nő elvált, felnőtt lányával él (meglehetősen jó körülmények között), aki hamarosan elmegy otthonról, mert felvették valamelyik egyetemre. A férfi szintén elvált, és neki is van egy hasonló korú, hasonló helyzetű lánya.

Mindketten nyitottak, nem tekintik lezártnak az életet. Véletlenül összefutnak egy bulin, megérzik egymásban a társkereső magányos embert, vagyis a potenciális partnert. Óvatosan kerülgetik egymást, tesztelik a másik szellemi és testi reakcióit, tudják, hogy talán ez az utolsó igazi esélyük. Beszélgetnek, közelednek egymáshoz, ugratják a másikat, a szó szoros értelmében szagolgatják, tapogatják egymást, tudni akarják, működik-e az esetükben a kapcsolatok kémiája.

Végül összejönnek, de a történet ezzel még nem ér véget, jön egy csavar a kapcsolatban, jön egy végső teszt. Ki kell derülnie, ki milyen kompromisszumokra kész, egy amúgy életképes kapcsolat érdekében mit hajlandó elviselni a másiktól. A befejezés optimista, a film kellemes, nézhető, tanulságokkal is szolgál.

Mindazonáltal ne csukjuk be még a billentyűzetet. Ez a két ember, a testes férfi és a sportos nő, mint mondtam, egy bulin jönnek össze, személyesen, a maga emberi valójában. Összejöhettek volna virtuálisan is, úgy értem, először virtuálisan, csak utána személyesen. Társkeresőkként megadhatták volna az adataikat egy internetes társkereső szolgáltatásnak, válaszolhattak volna a gép kérdéseire, hogy minél teljesebb legyen a profiljuk: szeretik-e a virágot, mi a kedvenc színük, milyen zenét hallgatnak szívesen, járnak-e bulikba, tartanak-e állatot, melyik politikai táborhoz tartoznak, stb. A gép a profiljuk alapján küldene nekik címeket, vagyis azokat hozná össze, akik az algoritmusa szerint összeillenek.

Sok ilyen internetes partnerközvetítő példájával találkoztam mostanában a szakirodalomban. Érdekesek, méghozzá több szempontból. A társkeresés fontos emberi igény, van rá kereslet. A számítógép és az internet kibővíti a lehetőségeket, vagyis sokkal nagyobb bőségben mutatja be a keresletet és a kínálatot, mint a való élet. E tekintetben tehát az elektronikus kereskedelemhez hasonlít. A gép és a háló segítségével olyanok is egymásra találhatnak, akik egyébként soha nem jönnének össze, például azon egyszerű okból, mert az egyikük Kisvárdán lakik, a másik pedig Sopronkőhidán, vagy éppenséggel Albániában.

A gép azonban ennél is többet tudhat: megkeresheti, hogy kik illenek egymáshoz. Na, itt kezd a dolog igazán érdekesé válni. Az egyszerűbb internetes közvetítők azonosságokat, hasonlóságokat keresnek a profilokban. Feltételezik, hogy aki esténként Arany Jánost olvasgat a kandalló mellett, ahhoz leginkább egy másik Arany János rajongó illik. Focidrukkernek olyan asszony jár, aki szívesen kimegy vele a meccsre, és nem az ellenfélnek szurkol. Főzni nem szerető feleség mellé éttermeket kedvelő férj illik. Liberális liberális párt keres, konzervatív konzervatívat.

Az élet azonban ennél általában bonyolultabb, és ezért a társkeresők sem elégednek meg ennyivel. Keresik a Szent Grált, a tökéletes házasságközvetítő algoritmust.

Mi a teendő? Intelligens, tanulásra képes programot kell készíteni. Nem az a kérdés, hogy mi, emberek mit gondolunk a tökéletes illeszkedésről, hanem az, hogy mi történik a valóságban, vagyis miből lesz tartós kapcsolat, ne adj’ isten holtig tartó jó házasság. Az intuíciót, az előítéletet, a spekulációt, az elméleteket váltsák fel a tények, az adatok!  A példa kedvéért: lehet, hogy az tartjuk ideális illeszkedésnek, ha mindkét partner kedvenc színe a zöld, de lehet, hogy tévedünk: az adatokból kiderülhet, hogy tartósabbak azok a kapcsolatok, ahol az egyik partner a zöldet szereti, a másik pedig a lilát.

Mi következik ebből? Az hogy a jövőben sikeresebbek lehetnek a Big Data alapú, matematikai statisztikai algoritmusokkal dolgozó, nagy adatbázisokat felhalmozó vagy ilyenekhez hozzáférő partnerközvetítő szolgáltatások, amelyek adatbányászattal tárják fel a szerelem kémiáját. Gondos és furfangos adatelemzéssel kell kimutatni a jó kapcsolat titkát. Az ilyen elemzés sok meglepetéssel szolgálhat: a gép olyan partnerrel hozhat össze minket, akire nem is gondoltunk, egyszerűen azért, mert neki (mármint a gépnek), ha jól csinálják meg a rendszerét, nincsenek előítéletei, koncepciói, nincs neki önképe, nem áltatja önmagát: egyszerűen tudja, hogy a valóságban mi működik és mi nem. Csendesen mosolyog a dobozában: most még gyanakodva mustráljátok egymást, gondolja magában, azt hiszitek, hogy nem vagytok egymáshoz valók, de én tudom, hogy igen, mert bennem van sok ezernyi jó kapcsolat adata, én a tényekre támaszkodom, az igazolt korrelációkra és regressziókra. Beszélgessetek csak, nézegessétek, szagolgassátok egymást! Én tudom, hogy jó lesz ez így, csak ti nem tudjátok még.

Cimkék:

Meg lehet mondani?

Posted in BI és analitikus alkalmazások /

Viktor Mayer-Schönberger – Kenneth Cukier: Big Data: A revolution that will transform how we live, work, and think. A nagy adattömegekkel foglalkozó könyvekből sok jelenik meg mostanában. Ezek általában befutják a kötelező köröket: mekkora a „big”, honnan a csudából jön ez a rengeteg adat, kik gyűjtik, hová teszik, mit csinálnak velük, mi lesz jobb ettől az egésztől, kinek jó ez, mik a kockázatok, igaz-e, hogy mindent lát a nagy testvér… Nagyjából ezeket kapjuk ettől a könyvtől is.

A stílus olvasmányos, a tartalomtól nem kell megijedni: bár tulajdonképpen az egész a matematikai statisztikáról szól, nincsenek benne képletek, levezetések, csak vájtfülűek és furtagyúak számára érthető jelentésű egzotikus betűk és más jelek. Az indítás is szokványos: tisztességes Big Data könyv nincs a Google influenzás példája nélkül: meg lehet-e mondani keresések alapján, hol kezdenek garázdálkodni a vírusok, merre terjed a járvány?

Nos, a jelek szerint meg lehet mondani.

Példából van itt még rengeteg. A Big Data ígérete így hangzik: minél több adatunk van a világról valós időben, minél izmosabbak, okosabbak az adatelemzési módszereink, annál világosabban tudjuk feltárni a világ lelkületét, rendjét, működési módját. Vagyis: látjuk, amit eddig nem láttunk. Meglátjuk a világ lelkét. A jobb látás nem feltétlenül azonos a jobb megértéssel: a szerzők fontos üzenete (bár ezt eddig is tudtuk), hogy a matematika statisztika módszerei, a korrelációkeresés gazdagodó eszköztára kapcsolatot mutat ki, amit nem szabad összetéveszteni a tudományos (természettudományos) módszerekkel feltárt oksági viszonnyal. Ráadásul az sem biztos, hogy a kapcsolat valódi kapcsolat. A lényeg az, hogy a feltárt modell vagy minta működjön, elég jó legyen arra a célra, amire használni kívánják.

…És lám, sokszor tényleg elég jó. Oksági viszonyt keresni és bizonyítani drága, időigényes és fáradságos dolog, a nagy adatközpontokban viszont szélsebesen dolgoznak a gépek. A Google nem azt kutatta, hogyan szaporodnak a vírusok, miként ugrálnak emberről emberre, fúrják be magukat a nyálkahártyákba, hanem a maga matematikai módszereivel indikátorokat keresett, a sok felhasználó szövegeiben olyan szókapcsolatok, szövegkombinációk után kajtatott, amelyek összefüggésben állnak az influenza terjedésével, jól jelzik a gonosz vírusok útvonalát. A feladatot statisztikusokra bízták, nem biológusokra és orvosokra. A vírusokról, az influenzáról tulajdonképpen nem tudtunk meg semmit, a modell mégis jó, arra legalábbis, amire használni kívánják.

Mi a cél? A legfontosabb cél tulajdonképpen az előrejelzés: azt keressük, miből lehet megjósolni a jövőt, az adott példa esetében azt, hogy hol fogják az emberek rövidesen ellepni az orvosi rendelőket és patikákat.

A könyvben rengeteg más példa is van: jól látszik, hogy aki felveszi a Big Data szemüveget, az mindenütt adathegyeket, modellezési és valószínűségi problémákat lát. Kik valók egymáshoz, kik kellenek egy sikeres házassághoz? Ki fogja megvenni az én cuccaimat és menyiért? Megveszi-e azt, ha megvette ezt? Fogja szeretni ezt, ha szerette azt? Kik lesznek hűségesek, kik hagynak itt minket azonnal, ha megszólal a szirén dala? Hol lesz dugó a belvárosban? Melyik gépem fog legelőször lerobbanni a gyárban? Melyik alkatrész fog kikészülni az autómban legközelebb? Kikre fizetek rá a biztosításnál? Kiknek ne adjak hitelt? Ki jön szembe az utcán és mit lehetne neki gyorsan eladni? Ki lesz cukorbeteg tíz év múlva? Kik csalnak bankkártyával? Hol találom meg az adócsalókat? Kik fognak rám szavazni a következő választáson? Kikből lesz bűnöző, terrorista? Hogyan változik a befektetői hangulat? Hol tör ki forradalom? Egy adott szövegben mi a legjobb fordítás arra, hogy „insight”? Melyik dal lesz sláger, melyik film dönti be a kasszákat? Mit fog csinálni fél óra múlva az, aki most tankolta tele az autóját? Melyik gyógyszer használ köhögés ellen? Melyik utcai szerelőakna fog legközelebb kigyulladni?

A könyv valóságos tárháza ismerős és új példáknak, de nem ez a legfőbb erénye, ilyenekkel tele van az újság. Nagyobb érdeklődéssel olvastam a szerzők gondolatait a Big Data ökoszisztéma tagjairól és fejlődéséről. E világnak egyre több szereplője van, különböző státuszokkal, adottságokkal és képességekkel. A nagy kérdés így szól: ki fog a Big Data-ból pénzt csinálni? A szerzők szerint hosszú távon az adattulajdonosok pénzszerző pozíciója a legerősebb, de a többiek (közvetítők, adatbrókerek, profi elemzők stb.) sem járnak rosszul, ha ügyesek és szemfülesek.

A verseny megindult, észnél kell lenni.

Cimkék:

Az előző részben az adatméret növekedésének okairól volt szó, illetve azt elemeztük, hogy miben más egy Big Data megoldás, mint egy relációs adatkezelési technikákat alkalmazó rendszer. Ebből már lehet sejteni, hogy mi a Big Data, de a konkrét definícióval még adós vagyok. Az viszont tömör lesz, jó sok V betűvel. Sajnos ez a téma már csak ilyen. Viszont a végén említek néhány “tünetet”, amelyek arra utalhatnak, hogy egy Big Data megoldásra van szükségünk.
Big Data Unplugged – a vágatlan verzió: 3/3

Read More »

Cimkék: , ,

Az első részben szóltam pár szót a Big Data körüli felhajtásról, illetve arról, hogy miért nem csak a méret a lényeg. Ott hagytuk abba, hogy a Big Data lehetővé teszi, hogy eddig irreálisnak számító igényekkel lépjünk fel a szokásosnál jóval nagyobb adatméretre vonatkozóan. Ebben a részben arról lesz szó, hogy melyek ezek az “irreális” igények, és mitől lett hirtelen nagy az adatméret.
Big Data Unplugged – a vágatlan verzió: 2/3

Read More »

Cimkék: , ,

Big Data – uncut

Posted in BI és analitikus alkalmazások /

“Big Data – unplugged” címmel írtam egy cikket a T-Systems Magyarország ügyfélmagazinjába, a JövőKépbe. A nyomtatott sajtóban a terjedelmi korlát nagy úr, a cikk egyszerűen nem fért be az erre a célra fenntartott helyre. A szerkesztők ügyesen megvágták az anyagot, a mondanivaló nem sérült lényegesen, ettől függetlenül úgy gondoltam, hogy publikálom a teljes cikket, hogy a kimaradt gondolatok se hiányozzanak.
Tehát: Big Data Unplugged – a vágatlan verzió: 1/3 Read More »

Cimkék: , ,