Meg lehet mondani?

Viktor Mayer-Schönberger – Kenneth Cukier: Big Data: A revolution that will transform how we live, work, and think. A nagy adattömegekkel foglalkozó könyvekből sok jelenik meg mostanában. Ezek általában befutják a kötelező köröket: mekkora a „big”, honnan a csudából jön ez a rengeteg adat, kik gyűjtik, hová teszik, mit csinálnak velük, mi lesz jobb ettől az egésztől, kinek jó ez, mik a kockázatok, igaz-e, hogy mindent lát a nagy testvér… Nagyjából ezeket kapjuk ettől a könyvtől is.

A stílus olvasmányos, a tartalomtól nem kell megijedni: bár tulajdonképpen az egész a matematikai statisztikáról szól, nincsenek benne képletek, levezetések, csak vájtfülűek és furtagyúak számára érthető jelentésű egzotikus betűk és más jelek. Az indítás is szokványos: tisztességes Big Data könyv nincs a Google influenzás példája nélkül: meg lehet-e mondani keresések alapján, hol kezdenek garázdálkodni a vírusok, merre terjed a járvány?

Nos, a jelek szerint meg lehet mondani.

Példából van itt még rengeteg. A Big Data ígérete így hangzik: minél több adatunk van a világról valós időben, minél izmosabbak, okosabbak az adatelemzési módszereink, annál világosabban tudjuk feltárni a világ lelkületét, rendjét, működési módját. Vagyis: látjuk, amit eddig nem láttunk. Meglátjuk a világ lelkét. A jobb látás nem feltétlenül azonos a jobb megértéssel: a szerzők fontos üzenete (bár ezt eddig is tudtuk), hogy a matematika statisztika módszerei, a korrelációkeresés gazdagodó eszköztára kapcsolatot mutat ki, amit nem szabad összetéveszteni a tudományos (természettudományos) módszerekkel feltárt oksági viszonnyal. Ráadásul az sem biztos, hogy a kapcsolat valódi kapcsolat. A lényeg az, hogy a feltárt modell vagy minta működjön, elég jó legyen arra a célra, amire használni kívánják.

…És lám, sokszor tényleg elég jó. Oksági viszonyt keresni és bizonyítani drága, időigényes és fáradságos dolog, a nagy adatközpontokban viszont szélsebesen dolgoznak a gépek. A Google nem azt kutatta, hogyan szaporodnak a vírusok, miként ugrálnak emberről emberre, fúrják be magukat a nyálkahártyákba, hanem a maga matematikai módszereivel indikátorokat keresett, a sok felhasználó szövegeiben olyan szókapcsolatok, szövegkombinációk után kajtatott, amelyek összefüggésben állnak az influenza terjedésével, jól jelzik a gonosz vírusok útvonalát. A feladatot statisztikusokra bízták, nem biológusokra és orvosokra. A vírusokról, az influenzáról tulajdonképpen nem tudtunk meg semmit, a modell mégis jó, arra legalábbis, amire használni kívánják.

Mi a cél? A legfontosabb cél tulajdonképpen az előrejelzés: azt keressük, miből lehet megjósolni a jövőt, az adott példa esetében azt, hogy hol fogják az emberek rövidesen ellepni az orvosi rendelőket és patikákat.

A könyvben rengeteg más példa is van: jól látszik, hogy aki felveszi a Big Data szemüveget, az mindenütt adathegyeket, modellezési és valószínűségi problémákat lát. Kik valók egymáshoz, kik kellenek egy sikeres házassághoz? Ki fogja megvenni az én cuccaimat és menyiért? Megveszi-e azt, ha megvette ezt? Fogja szeretni ezt, ha szerette azt? Kik lesznek hűségesek, kik hagynak itt minket azonnal, ha megszólal a szirén dala? Hol lesz dugó a belvárosban? Melyik gépem fog legelőször lerobbanni a gyárban? Melyik alkatrész fog kikészülni az autómban legközelebb? Kikre fizetek rá a biztosításnál? Kiknek ne adjak hitelt? Ki jön szembe az utcán és mit lehetne neki gyorsan eladni? Ki lesz cukorbeteg tíz év múlva? Kik csalnak bankkártyával? Hol találom meg az adócsalókat? Kik fognak rám szavazni a következő választáson? Kikből lesz bűnöző, terrorista? Hogyan változik a befektetői hangulat? Hol tör ki forradalom? Egy adott szövegben mi a legjobb fordítás arra, hogy „insight”? Melyik dal lesz sláger, melyik film dönti be a kasszákat? Mit fog csinálni fél óra múlva az, aki most tankolta tele az autóját? Melyik gyógyszer használ köhögés ellen? Melyik utcai szerelőakna fog legközelebb kigyulladni?

A könyv valóságos tárháza ismerős és új példáknak, de nem ez a legfőbb erénye, ilyenekkel tele van az újság. Nagyobb érdeklődéssel olvastam a szerzők gondolatait a Big Data ökoszisztéma tagjairól és fejlődéséről. E világnak egyre több szereplője van, különböző státuszokkal, adottságokkal és képességekkel. A nagy kérdés így szól: ki fog a Big Data-ból pénzt csinálni? A szerzők szerint hosszú távon az adattulajdonosok pénzszerző pozíciója a legerősebb, de a többiek (közvetítők, adatbrókerek, profi elemzők stb.) sem járnak rosszul, ha ügyesek és szemfülesek.

A verseny megindult, észnél kell lenni.

Tagged

Post a Comment

You must be logged in to post a comment.