Index index hátán

Előző bejegyzésem folytatásaként álljon itt egy gondolatsor a Big Data alapon készített customer scoring indexekről.

—————–

A FICO gyógyszerezési engedetlenségi indexet tesz az emberek mellé, a Target pedig terhességi indexet. Mindkettő adott skálán mutatja valamilyen magatartás vagy állapot valószínűségét, de úgy is mondhatjuk, hogy mindkettő előrejelzés: aki magas pontszámot kap a FICO-indexen, az (a modell szerint) nagy valószínűséggel nem vagy rendetlenül fogja szedi a gyógyszerét, aki pedig magas Target-indexet kap, az várhatóan gyermekáldás elé néz a közeli jövőben.

Foglaljuk össze, hogy milyen fontosabb dolgokat tudunk a hasonló indexekről!

  • A valamilyen viselkedést, szokást, irányultságot leíró, azok valószínűségét összegyűjtött adatokból kalkuláló, az embereket ilyen módon kategorizáló úgynevezett fogyasztói indexek száma gyorsan nő. A fentebb említett World Privacy Forum nevű szervezet 2007-ben még csak húszegynehányat talált, 2014-ben viszont már több százat tartott nyilván, de feltételezi, hogy sok százról nem sikerült még tudomást szereznie, vagyis a használatban lévő „customer scoring” indexek száma akár ezres nagyságrendű is lehet.
  • Indexek sok területen jelentek meg, így az üzleti, kereskedelmi világon kívül például az államigazgatásban, az egészségügyben, a politikában, a bűnüldözésben. Elterjedésüket az igények mellett (jobb döntéseket hozni) az adatforrások rohamos bővülése, az „adatosítás” terjedése magyarázza.
  • Indexeket nem csak egyénekhez, hanem csoportokhoz is lehet kapcsolni, hiszen bizonyos viselkedési mintákat, szokásokat családok vagy más közösségek (például egy bizonyos környéken lakó emberek) egyaránt mutathatnak.
  • Az indexeket általában döntéstámogatásra használják, azok tehát valamilyen okos rendszerbe épülnek be: valaki valamilyen probléma megoldása céljából adatokat gyűjt, elemez, modellt épít, az eredményt döntéshozóknak tálalja, akik cselekednek. A FICO és a Target példájánál jól követhető ez a logikai vonal. Az indexek kalkulálása beépül a döntési folyamatokba.
  • Az indexek számításához növekvő mennyiségű és változatosságú adatot használnak fel, vagyis a Big Data jelenség világosan megmutatkozik ebben a körben. Ma már nem ritkák az olyan indexszámítási modellek, amelyek több száz, vagy akár több adatfajtával (factor, data stream) dolgoznak. Egy elemző vállalkozás például azt állítja, hogy előrejelző modelljéhez 300 milliárd adatot használ, amiket 8000 adatfájlból hoz össze.
  • Mivel a számítástechnikai kapacitás nem jelent kemény korlátot, nagy a csábítás minél több adatfajta bekapcsolására. Az adatok sokféle forrásból származhatnak, a belső forrásokat gyakran külsőkkel (vásárolt vagy más módon megszerzett) adatokkal egészítik ki. A felhasznált adatfajták között gyakran felbukkannak olyanok is, amelyek (látszólag) nincsenek oksági kapcsolatban a vizsgálni kívánt jelenséggel: hátha kimutat a modell valami érdekeset…
  • A külső adatforrások között kiemelt szerepet kap a közösségi média, ami nem meglepő: aki az emberek viselkedését, szokásait szeretné megismerni és befolyásolni, az nem elégedhet meg a belső adatokkal: a döntések támogatásához szélesre kell tárni az ablakokat, körül kell nézni a külvilágban: mit csinálnak az emberek? Hogyan viselkednek? Mi fontos nekik? Mire reagálnak? Miről vitatkoznak, mit szidnak, mit dicsérnek? Mire vágynak, mire költenek, mit mérlegelnek? Milyennek találják a versenytársaink? A közösségi hálókon rengeteg bejegyzés, vélemény, hír, fénykép stb. található mindezekről – az indexek készítői ezeket is igyekeznek felhasználni, ami nem könnyű feladat, hiszen nagyon sokféle, kétes megbízhatóságú, nagyrészt strukturálatlan adatról, fölöttébb tarka „adatbányáról” van szó.
  • Mivel a hasznosnak bizonyuló indexek jó hatással vannak a döntésekre és azok révén az eredményességre, analitikai („indexelési”) verseny bontakozott ki. Erre a versenyre közvetlen hatással van a szükséges eszközök (hardver, szoftver) árának csökkenése, ingyenes és felhasználóbarát megoldások megjelenése, egyes adatbázisok és adatfajták tömegcikkesedése.
  • Az indexek gazdái általában igyekeznek titokban tartani a számításba bevont adatok körét, az elemző algoritmusokat és az előrejelző modell jellemzőit. ennek következtében sokan egyáltalán nincsenek tisztában azzal, hogy a nevükhöz kik milyen indexeket kapcsolnak, azokat miből és hogyan számítják, hogy ezek az indexek mit mutatnak, és miként használják fel azokat a döntéseknél, például egy kérelem jóváhagyásánál, valamilyen biztosítási díj kalkulálásánál, célzott marketing akció indításánál. Miközben az indexek számítása és felhasználása önmagában se jónak, se rossznak nem tekinthető, a helyzetből számos személyes kockázat, jogi és etikai probléma adódik.

Post a Comment

You must be logged in to post a comment.