Újmagyarul: datafication

Az adat-példák után ezek most itt adatosítási példák.

————————————————-

Tanúi lehetünk, hogy életünk és környezetünk egyre több szelete, aspektusa „adatosul”, adathalmazok formájában jelenik meg, jórészt függetlenül attól, hogy személyesen akarjuk-e ezt vagy sem. Az „adatosulás” trendjét egyrészt a technológiai fejlődés, másrészt a várható haszon élteti.

Az „adatosítás” tárgya egyszerű és összetett dolog egyaránt lehet. Lássunk egy-egy példát a skála két végéről!

Shigeomi Koshimizu, a japán Advanced Institute of Industrial Technology munkatársa nyomásérzékelők százait helyezte el egy megfelelően kialakított székbe. Egy skála segítségével ezek mindegyike pontosan megadja a rá nehezedő nyomást. A szék tehát azt “adatosítja”, ahogyan ülünk. Készítője szerint az adatok együttese jellemző a székben ülő személyre, az adathalmaz tehát személyi azonosításra alkalmas ugyanúgy, mint egy aláírás. Bár az ülés “adatosítása” tulajdonképpen mulatságos kísérlet, a felhasználási lehetőségek komolyak: egy autó például jelezheti, ha a vezetői székbe idegen ül be, vagyis az érzékelők részei lehetnek a kocsi biztonsági rendszerének.

Bontsuk ki alaposabban a példát! A mozgó test nyomásának “adatosítása”, ilyen adatok folyamatos, valós idejű gyűjtésének és feldolgozásának lehetősége mások fantáziáját is megindította. Térjünk megint vissza az orvosi diagnosztikához: a mozgásról kapott adatok változásokat jelezhetnek valaki egészségében, a változások kezdődő problémákra, elhatalmasodó kórokra utalhatnak. A levett adatok jelezhetik például, hogy egy idős ember mozgása elbizonytalanodik, egyensúlyozási problémái vannak, várható, hogy el fog esni, ami akár végzetes következményekkel is járhat. E koncepcióra vállalkozásokat lehet építeni. A Tactonic Technologies nevű cég például különleges nyomásérzékelő szenzorokkal ellátott felületeket épít, amelyek képet adnak a rajtuk haladó személy mozgásáról, az adatokat egy központi számítógépbe továbbítják, feldolgozásuk a számítástechnikai felhőben történik, majd az esetleges figyelmeztető jelzéseket a megfelelő személy számítógépébe vagy mobiltelefonjába továbbítják.

Lépteink tehát egy érzékelőkkel megpakolt, hálózatba kapcsolt „varázsszőnyeg” segítségével „adatosíthatók”. Minden lépés sok adatot produkál, amelyek adattárakba, táblázatokba rendezhetők és számítógéppel feldolgozhatók.

Vegyünk most egy másik példát a bonyolultsági skála másik végéről! Egy vállalat, különösen egy nagyobb méretű, összetett, bonyolult jelenség, sokféle komponenssel. A vállalatvezetés története tulajdonképpen „adatosítási” történet. Minden ugrás ebben a folyamatban új vezetési eszközök bevezetését, az irányítás módszertanának megváltozását eredményezi.

A vállalatok „adatosításának” (állapotuk rendezhető, feldolgozható adatokkal való megjelenítésének) fontos állomása volt a kettős könyvelés bevezetése. Az ötlet már a 13. században felbukkant, ekkor kezdték használni a tartozik-követel számlák rendszerét. A szabályokat később egy Luca Pacioli nevű ferences szerzetes vetette papírra egy matematikai tankönyvben a 15. század végén. A kettős könyvelés terjedését az üzleti érdek segítette: az adatok módszeres gyűjtésére, tárolási és feldolgozási szabályokra, beépített önellenőrzésre épülő rendszer átláthatóbbá, kezelhetőbbé, következésképpen könnyebben irányíthatóvá tette a folyamatokat, támogatta a döntéseket, ami nyilván előnyös volt a felhasználóknak. Az itáliai dúsgazdag Mediciek például a korai alkalmazók közé tartoztak.

A 20. század elején megjelent a tudományos vezetés irányzata, a tudományosság pedig akkor már megkövetelte a pontos mérést, adatok gyűjtését és elemzését. Az egyre növekvő méretű, széles termékpalettával rendelkező, decentralizált vállalatok irányítási rendszerét „számokkal való vezetés”-nek (angolul: management by numbers) is szokták nevezni.

A vállalati szférában a hatvanas évek végén jelentek meg a számítógépek, új lökést adva az „adatosításnak”. Egyre több tranzakció, nyilvántartás, szerződés, jegyzőkönyv stb. került számítógépre. Az üzleti szervezetek növekvő hányadánál már kiépült vagy éppen épülőfélben van az operatív működést támogató informatikai infrastruktúra, a digitalizált tranzakciós rendszer. Ennek sokféle, egymással összekapcsolt vagy egymástól függetlenül működő eleme van, így például az integrált operatív irányítási rendszer (ERP), a beszállítói lánc kezelésre szolgáló rendszer (SCM) és az ügyfélkapcsolatok menedzsmentje (CRM), hogy csak a legfontosabbakat említsük. Ezekben rengeteg adat keletkezik és rögzül, gyakorlatilag szinte minden esemény, mozgás, változás, tranzakció gépre kerül.

A folyamat egyáltalán nem tekinthető befejezettnek: ma is egymás után jelennek meg azok az új technológiák és eszközök, amelyek még nagyobb tömegű adatot generálnak. Gyorsan terjed például az elektronikus kereskedelem: rendszereiben az eladók és a vevők minden lépése nyomon követhető. Az internet és a világháló népszerű reklámozási eszközzé vált; a hagyományos reklámozási módokkal (pl. újsághirdetés, televíziós reklámfilm) szemben a „kattintós” internetes reklámoknak az az előnyük, hogy nyomon lehet követni a marketing üzenetek hatását, elemezni lehet a megcélzott ügyfélkör viselkedését. A rádiófrekvenciás azonosítás (RFID) terjedése tovább növeli a kereskedelmi forgalomban keletkező adattömeget, akárcsak az elektronikus banki átutalások és kártyás fizetések.

A források köre kibővült, a mennyiség mellett megnőtt a változatosság is, a strukturált adatok (például az előbb említett könyvelési rend számai) mellé felsorakoztak a szövegek, képek, filmek, hanganyagok formájában megjelenő strukturálatlanok. A határvonalak elmosódtak, a belső adatforrásokat külsőkkel egészítik ki. Ma már természetes igény az is, hogy a vezetők az adatokban ne a napokkal vagy hetekkel korábbi állapotot lássák, hanem valós időben tudják szemlélni a helyzeteket és történéseket. Mennyiség, változatosság, sebesség – összeállt a „Big Data” jelenség minden kritériuma.

Az „adatosítás” kiterjedt és megállíthatatlan folyamat, amely számtalan helyen és irányban tör magának utat. A természettudományok különböző ágaiban elemi követelmény az adatok gondos gyűjtése, és erre manapság számtalan eszköz áll rendelkezésre. A legkézenfekvőbb példa a meteorológia: a mai előrejelzések hatalmas adattömegre épülnek. Az időjárási adatok gyűjtéséhez, továbbításához és feldolgozásához a mindenkori infokommunikációs eszközök adnak segítséget, a technológiai fejlődés pedig új felismeréseket hoz. Sokáig úgy gondolták például, hogy a szelek „egyenesen”, például nyugatról keletre fújnak; a telegráf elterjedése kellett annak felismeréséhez, hogy az összegyűjtött felrajzolt szélirány-adatokból leolvasható legyen: a szelek bizony örvénylenek. Valószínűleg sokan emlékeznek arra a filmre[1], amelyikben a pusztító tornádók tölcséreit „adatosították” pingponglabdákba épített rádiós szenzorok segítségével.

Életünknek alig van már olyan aspektusa, amit kimarad az „adatosulásból”. A példák sora szinte végtelen.

A távközlési cégek, elektronikus levelezési szolgáltatók „adatosítják” a kapcsolatainkat és a kommunikációnkat: mikor, hol, kit hívtunk fel, mennyit beszéltünk, kikkel leveleztünk, stb. Az adatokból sok érdekes és értékes következtetés vonható le[2]. Példaként hozhatjuk fel a Carnegie Mellon Egyetem által végzett, a század legelején számviteli botrányba keveredett Enron cég nyilvánosságra hozott belső elektronikus levelezési adatait használó vizsgálatot. A kutatók két időpontban készítettek felvételt a forgalmi hálózatról (ki kivel levelez és milyen intenzitással): a botrány előtt és a botrány kirobbanásának idején. A két kép között érdekes különbségek mutatkoznak: az agónia heteiben egy egészen új hálózat bontakozott ki, nagyon intenzív levélforgalommal.

A milliárdos felhasználói bázissal rendelkező Facebook egyebek mellett „adatosítja” a személyes kapcsolati hálónkat, a különböző dolgokról alkotott véleményünket. Egy Michal Kosinski nevű pszichológus a Cambridge-i Egyetemről nemrég arra volt kíváncsi, mit mondanak el rólunk a Facebook-oldalakon elpötyögtetett lájkok. A lájkok nyilvános adatok. Kosinski a munkatársaival létrehozott egy myPersonality elnevezésű Facebook-alkalmazást, amin önkéntesek válaszolhatnak mindenféle kérdésekre és tölthetnek ki teszteket. A válaszokból bizonyos személyes tulajdonságra lehet következtetni, így például az IQ-ra, a személyiség nyitottságára, versenyzési hajlandóságára stb. Rengeteg önkéntes jelentkezett, a kutatók végül 58.000 amerikai válaszadó adatait használták fel. A többi már alkalmazott matematika, modellépítés és tesztelés kérdése. A számítógép összefüggéseket, korrelációkat keresett a lájkok és a személyes tulajdonságok között. Felismeréseit egy másik csoport adatain tesztelték megvizsgálva, hogy a lájkok milyen megbízhatósággal jeleznek bizonyos személyes tulajdonságokat, beállítottságokat, nézeteket. Az eredmény meghökkentő, de nem meglepő: lájkjaink sok mindent elárulnak, elfecsegnek rólunk. Nagy biztonsággal (93%) megállapítható például a nemünk, s szexuális beállítottságunk (88%), a vallásunk (82%), politikai kötődésünk (85%). Elég jól következtetni lehet bizonyos fogyasztási szokásinkra, szenvedélyeinkre (alkohol, cigaretta, drogok). A lájkok érdekes összefüggéseket mutatnak az általános intelligenciával is…

A Facebookhoz hasonlóan a Twitternek is több száz millió aktív felhasználója van, jnaponta körülbelül félmilliárd új rövid feljegyzés születik. A népszerű alkalmazás a velünk történt eseményeket, érdeklődésünket, hangulatunkat „adatosítja”. Kísérletek folynak például azzal kapcsolatban, hogy a sok millió kis feljegyzésből, az azokban elszórt témákból, szavakból miként lehet a piaci hangulatra következtetni. Közgazdasági tény, hogy az általános hangulat (optimizmus, pesszimizmus) hatással van a befektetésekre, az értékpapír-piacokra, az árfolyamok emelkedésére és süllyedésére.

Az olyan nagy elektromos kereskedelmi cégek, mint például az Amazon vagy az eBay „adatosítják” a keresletünket, a vásárlásainkat és azokon keresztül még sok minden mást is. Az Amazon több száz terméket értékesít másodpercenként – mivel a folyamat online folyik, a vevő és az eladó minden lépését követni lehet, mindegyikről digitális nyomok maradnak a rendszerben.

Az elektronikus kereskedelem mellett az internetes oktatás, az online kurzusok népszerűsége is határozottan növekszik. A felhasználói az internetes vásárlókhoz hasonlóan gyűjtésre, rendezésre és feldolgozásra alkalmas digitális nyomokat hagynak maguk után. Az adatokból megállapítható, hogy melyek voltak a legnépszerűbb témakörök, azokat mikor és hol tanulmányozták, hol álltak meg, hol akadtak el a felhasználók, hányszor ismételtek meg egy-egy anyagrészt, milyen kérdéseket tettek fel a fórumokon, miről leveleztek egymással, milyen eredményt produkáltak a teszteken, stb. Röviden: az internetes kurzusok „adatosítják” a tanulást, vagy írjuk inkább így: a tömegek tanulását. A Big Data jelenség itt is egyértelműen megmutatkozik. Csak egyetlen példa: a népszerű és ingyenes Khan Academy oldalain több ezer rövid, matematikai, egészségügyi és egyéb tárgyú oktatási program található, a tanulók és a letöltések száma sok milliós nagyságrendű.

A LinkedIn több száz milliós felhasználói táborához 2014 első felében két új tag csatlakozott másodpercenként. A személyes ajánlások száma nagyjából egymilliárd volt. A cég személyzeti vonatkozású sajátosságainkat „adatosítja”: tudásunkat, képességeinket, tapasztalatainkat, szakmai kapcsolatrendszerünket, munkahelyi múltunkat és elhelyezkedési szándékainkat.

Egy TellSpec nevű új vállalkozás az asztalunkon lévő ételt „adatosítja”: az általuk kifejlesztett kézi étel-szkenner fényt bocsát az ételre, majd a visszaverődésekből bonyolult algoritmus segítségével másodperceken belül adatokat közöl az étel összetételéről. Az algoritmus nem a készülékben fut, az adatok feldolgozása mobiltelefon közbeiktatásával a számítástechnikai felhőben történik.

Egy Matthew Fontaine Maury nevű térképész-polihisztor a 19. század közepén megállapította: minden hajó egy mozgó obszervatórium, adatgyűjtő állomás. Ma ugyanezt mondhatjuk az okostelefonokról, az autókról, a televíziós adapterünkről, a népszerű online játékokról és egy sor más hálózatba kapcsolt eszközről. A GPS rendszer a földrajzi helyzetünket „adatosítja”. A lengyel 3Deling cég a fizikai környezetünkkel teszi ugyanezt: három dimenziós szkennelési szolgáltatásokat nyújtva épületek és más objektumok „adatosítására” vállalkozik. Az Open Worm projekt egy izgő-mozgó élőlényt „adatosít” és jelenít meg virtuális formában.

A szövegszerkesztő és karakterfelismerő alkalmazások szövegek adatok formájában történő megjelenítését és elemzését teszik lehetővé. A nagy könyvtár-digitalizálási és más hasonló projektek a felhalmozott emberi tudás „adatosításaként” is felfoghatók.

Egy ilyen listáról kihagyhatatlan a Google. A hatalmasra nőtt vállalkozás megmutatta, miként lehet érdeklődésünk és kereséseink „adatosításából” jövedelmező üzletet csinálni, majd ezt a modellt több irányba kiterjeszteni. A cég gyakran emlegetett influenza-előrejelző rendszere nem azt vizsgálja, hogyan szaporodnak a vírusok, biológiai értelemben miként terjed a fertőzés emberről emberre, hanem a beírt keresések tartalmát figyeli: olyan szókapcsolatok, szövegkombinációk után kutat, amelyek statisztikai összefüggésben állnak az influenza terjedésével, jól jelzik a gonosz vírusok útvonalát. A feladatot statisztikusokra bízták, nem biológusokra és orvosokra…


[1] Twister, 1996, rendező: Jan de Bont

[2] Lásd erről pl. Barabási 2010

Post a Comment

You must be logged in to post a comment.