Részlet

Lásd az előző bejegyzést – íme egy részlet egy készülő fejezetből.

———————————————————–

Adatrobbanás és gépi intelligencia

 

 

Hasonló, kazlakban tűket megtaláló, a pontos célzást segítő rendszerekre másoknak is szüksége van. Ez az egyik oka annak, amiért napjainkban látványos fejlődés indult ezen a területen, amit angol szakmai nyelven „predictive analytics”-nek, előrejelző elemzésnek neveznek. Az áruház rendszere a rendelkezésre álló (és mint láttuk, igen bőséges) adatok alapján előre jelzi a fogyasztási szokások megváltozását: a hölgy nagy valószínűséggel terhes, rövid idő múlva szüksége lesz erre és erre… Olyan ez, mintha a boltban fényképet készítenének a bent vásárló tömegről, majd az elemzés alapján egyesek feje fölé csillagot festenének: ők azok, akik nagy valószínűséggel hamarosan babasampont, rácsos kiságyat és hasonló dolgokat fognak keresni, egy darabig erősen a lakóhelyükhöz lesznek kötve, teljesen megváltozik az életmódjuk.

    Mások is feltesznek hasonló kérdéseket. Egy bankár például így fogalmazhatja meg a problémáját: ezer hitelkérelem fekszik az asztalomon – meg tudnád mondani, kik lesznek közülük a nem fizetők? Egy biztosítótársaság kérdése így hangzik: ezren kötnek nálam biztosítást – kik fogják összetörni a kocsijukat? Tegyünk egy látogatást a rendőrségre, ahol a következőt kérdik: ezren laknak ebben az utcában – kik közöttük a potenciális bűnözők? Maradjunk a bűnüldözésnél! A repülőtér biztonsági főnöke így fordul a maga szakértőjéhez: ezer ember van most a várócsarnokban – meg tudod mutatni, hogy kik lehetnek közöttük terroristák? A politikust a választások érdeklik: ezer ember lakik a körzetemben – vajon kik fognak közülük rám szavazni? Az adóhivatal ellenőrének kérdése: ezer vállalkozás tartozik hozzám – vajon hogy találom meg közöttük az adócsalókat? A vállalati személyzetis a lojalitásra kíváncsi: ezer alkalmazottunk van – kik azok, akik leghamarabb fognak elmenni tőlünk? Kukkantsunk be egy telefonos ügyfélszolgálatra: ezren hívnak bennünket – kikből lesznek a problémás esetek? Az edző érmeket szeretne: ezer gyerek jelentkezett a klubunkba – kik lesznek közülük világbajnokok? Az egészségügyi szakember problémája: itt van ezer ember genetikai kódja – kik lesznek közülük cukorbetegek? A meteorológus kérdése jól ismert: kérjük be az adatokat a műszereinkből – milyen valószínűséggel lesz jégeső Cegléd körzetében?

    Látható, hogy a kérdezők köre nagyon tarka. Mégis mi a közös bennük, mennyiben hasonlóak a kérdéseik, és milyen minta figyelhető meg a válaszokban?

    Mindegyik kérdezőnek valamilyen problémája van, valamilyen döntést kell meghoznia. Lehetőségeik, erőforrásaik korlátozottak: ennyit költhetünk marketingre, ennyi árut tudunk kirakni a polcainkra, ennyi rendőr van a körzetben, ennyi hitelkérővel tudunk foglalkozni, ennyi támogatást kaptunk a politikai kampányunkhoz, ennyi adóellenőrzést tudunk lebonyolítani, stb. A forrásokkal ésszerűen kell gazdálkodni, ezért van szükség minél pontosabb célzásra, minél nagyobb valószínűséggel bíró előrejelzésre. Az adóhivatal például pazarol, ha olyan cégek vizsgálatára költi a pénzét, amelyek rendesen fizetik a tartozásaikat. Az áruház is feleslegesen szórja a pénzét, ha olyanoknak küld babaruha-kupont, akik nem is várnak gyereket, sőt, mint láttuk, ezzel nagyobb galibát is okozhat.

    Az előrejelzéshez a körülményekhez és a feltételekhez igazított modell kell. A modell adatokkal táplálkozik, kimenetként pedig sokaság (példáinkban az „ezer ember”) tagjaihoz a maga logikájával valószínűségeket rendel. Az eredeti példánknál maradva: ez a vevőnk 30%-os valószínűséggel terhes, az pedig 80%-ossal.

    Hogyan születik meg a modell? Ehhez is adatokra van szükség. A rendőrségnek például rengeteg adata van az elfogott bűnözőkről, a boltnak a vásárlókról és a múltbeli vásárlásokról, a biztosítónak az ügyfelekről és a múltbeli káreseményekről. Az adatokban a szakértők matematikai eljárásokat alkalmazva összefüggéseket, mintákat keresnek. Az eljárások között egyszerűek és nagyon bonyolultak egyaránt lehetnek. A megtalált összefüggéseket kontrollcsoporton tesztelik, és amelyik kiállta a próbát, bekerül az előrejelző modellbe.

    A technológiai fejlődésnek köszönhetően a feltételek egyre jobbak ilyen modellek készítéséhez. A példa kedvéért térjünk vissza a kereskedő problémájához: kikből lesznek a jó vásárlók, kiktől számíthatunk komoly megrendelésekre? Manapság sok cég számítógépes ügyfélkapcsolat-menedzsment rendszert használ, ezekben található a meglévő és a potenciális ügyfelek listája. Kikre érdemes közülük időt és fáradságot fordítani? Az igény egyértelmű: a listán szereplő személyeket vagy ügyfeleket rangsorolni kell. Ahol igény mutatkozik, hamar megjelenik a kínálat is, hiszen a feladat megoldása jó lehetőség vállalkozásoknak. 2013 nyarán például az Infer, egy nemrég alapított kisvállalkozás előrejelző modellje a rangsoroláshoz 150 indikátort használt, amelyeket sokféle külső és belső forrásból szedtek össze.

    Az Infer más előrejelzéssel, rangsorolással foglalkozó vállalkozásokhoz hasonlóan az adatrobbanás (angolul big data) jelenséget lovagolta meg, ami korunk egyik meghatározó általános technológiai trendjének tekinthető.

    Az angol elnevezés nagyon sok adatból álló adatbázist vagy adatkészlet jelent. Olyan sokból, hogy azt már nehéz a megszokott, általánosan rendelkezésre álló adatbázis-kezelő alkalmazásokkal manipulálni. Óriási adattömeg, amelynek kezelése (létrehozása, tárolása, feldolgozása, továbbítása, lekérdezése stb.) a technikai lehetőségek határát feszegeti. Mivel a technika állandóan fejlődik, ez a határ folyamatosan előre tolódik, a „big data” tehát értelmezhető, de folyamatosan mozgó célpont.

    Adatokban nincs hiány: a technológiai fejlődés egyre fejlettebb „adattermelő” eszközöket teremt. Említsünk meg néhány példát! Hatalmas tömegű adat keletkezik folyamatosan a távközlési hálózatok forgalmáról (telefonhívások, e-mail stb.), de a források közé sorolhatjuk természetesen a földrajzi pozicionáló (GPS) rendszereket is, amelyeket a közeli jövőben várhatóan az autók alapfelszereltségéhez tartoznak majd. Rendkívül intenzív innovációs aktivitás tapasztalható a távdiagnosztika területén: az emberi testhez kapcsolt szenzorok folyamatosan valós idejű adatokat gyűjtenek a páciens állapotáról és azokat rádión egészségügyi központokba továbbítják. Egy modern nagyvárosban kamerák milliói figyelik az emberek mozgását, a legújabb rendszerek már az arcfelismerés területén is jó eredményeket tudnak felmutatni. A spanyolországi Santander városában, egy úgynevezett „okos településen” sok ezer szenzor figyeli a forgalmat, az időjárást, a vízfogyasztást, a levegő szennyezettségét, a taxik mozgását, az üres parkolóhelyeket. Az internet és a világháló minden felhasználója digitális nyomok tömegét hagyja maga után strukturált és/vagy strukturálatlan adatok (kattintások, letöltések, szövegek, képek, filmek stb.) formájában. Kimeríthetetlen, hólabdaszerűen növekvő adatforrások az internetes közösségi hálók, a blogok, a Twitter-üzenetek.

    Az adatoknak, illetve adatbázisoknak több szakaszból álló, a keletkezéstől az ismételt felhasználásig terjedő életciklusa van, amelyek mindegyikéhez megfelelő technikai hátteret és támogatást kell biztosítani. Erre a hagyományos asztali gépek, tömegesen használt szerverek technikai és gazdasági szempontból egyre kevésbé alkalmasak. Az adatok feldolgozása növekvő részben megosztott rendszereken, különleges, több futballpálya méretű, számtalan egymáshoz kapcsolt gépből (computer grid) álló adatközpontokban, az úgynevezett „számítástechnikai felhőkben” történik.

    A hardver természetesen nem elegendő: szoftverre is szükség van, ami alatt nem csak a számítógépes programokat, hanem az alkalmazott algoritmusokat, adatkezelési és –feldolgozási eljárásokat is értjük. A „big data” jelenség lehetővé teszi, hogy a tudományágak művelői az általuk feltett kérdésekre matematikai statisztikai, adatbányászati eszközökkel keressenek választ, az adattömegben mintázatok, sokszor nagyon bonyolult, sokváltozós összefüggések után kutassanak tanulásra is képes alkalmazásokkal. Fejlődnek a strukturálatlan adatok feldolgozására szolgáló technológiák is, így például a szövegbányászat.

 

 

Post a Comment

Hiba az űrlap kitöltése során!

* A csillaggal jelölt mezők kitöltése kötelező

*
*
*
*