Csak óvatosan!

Foster Provost és Tom Fawcett Data Science for Business című könyvét olvasom, nemsokára be is fejezem. Közben rendre régi egyetemi statisztikai tanulmányaim jutnak az eszembe. Közgazdász hallgatóként természetesen levizsgáztam a kötelező statsztika-tárgyból, sőt, még egy speciális kurzust is felvettem a többváltozós regresszióról. Rengeteget számoltam, mivel akkor még nem volt számológép; úgy emlékszem, talán az utolsó egyetemi tanévben jutottam hozzá az elsőhöz.

Gép híján mindent kézzel kellett számolni papíron ceruzával. Kellemetlen feladat volt ez: órákat kellett egy-egy (amúgy egyszerű) feladattal bíbelődni, pedig a feladathoz tartozó táblázatokban a sorok száma általában nem haladta meg a tízet-tizenötöt. A számolásnak tulajdonképpen egy előnye volt: az ember jobban megértette az eljárásokat és azok eredményét, hiszen az anyag gyakorlatilag a keze között formálódott, az adatfeldolgozás sajátos kézműves munkának tűnt.

Nem tudom, most hogyan tanítják a statisztikát, de biztos vagyok benne, hogy a számolást a gépre bízzák, amitől minden gyorsabb, gazdagabb és látványosabb lesz, de abban már nem vagyok biztos, hogy ez a megértésnek is használ. Időnként elolvasok egy-egy doktori értekezést, szakcikket, és gyakran tapasztalom a megértés bizonytalanságát. Nyilván általános követelmény, hogy egy gazdasági-gazdálkodási tárgyú írásban az állításokat lehetőleg adatokkal is alátámasszák. A szükséges adatbázist sokan kérdőíves megkérdezésekkel állítják elő. Ez sem lenne baj, ha nem jönnének sorra az elhallgatások, csúsztatások, logikai bakugrások: a kérdésekre adott válaszokat, véleményeket gyakran összetévesztik a valósággal, a minta reprezentativitásának kérdését fel sem vetik vagy lazán kezelik, a statisztikai korrelációkat alaposabb vizsgálat és ellenőrzés nélkül oksági kapcsolatnak állítják be, a vizsgált változókat önkényesen sorolva be a független, illetve függő kategóriába. A feldolgozáshoz az algoritmusokat természetesen a gép biztosítja, ami látványos és elegáns produktumokat (táblákat, hányadosokat, grafikonokat stb.) ad, ám azok más eszközökkel való igazolása gyakran elmarad.

Összefoglalva: hiányos, bizonytalan, kétes eredetű adatokból indulunk ki, azokat a gép segítségével átnyomjuk egy fejlett adatfeldolgozási algoritmushalmazon, majd megfeledkezünk arról, hogy milyen nyersanyagból dolgozunk tulajdonképpen. Úgy teszünk, mintha hipotéziseket igazolnánk (elengedhetetlen kellék egy doktori értekezéshez), pedig jó esetben csak hipotézisek felállításához teremtettünk némi alapot. Még ez sem lenne igazán baj, ha a dolgozat önkritikus lenne, vagyis tisztázná, mi az, amit valóban komolyan lehet venni belőle, és mi tekinthető pusztán adatfeldolgozási hadgyakorlatnak éles lőszer és valódi ellenség nélkül.

Provost és Fawcett könyve a modern adattudományról (data science) és a részének tekintett adatbányászatról szól. Kiindulópontjuk egyszerű: jobb üzleti döntéseket kell hozni, ez adja a munka értelmét. Egy modern adatbányász munkáját fejlett eszközök, gépek, algaritmusok támogatják – bolond lenne, ha ezeket nem használná. A kiindulópont azonban mindig maga az üzleti probléma: a helyzetet és a feladatot kell alaposan megérteni, ezeket kell szembesíteni a rendelkezésre álló vagy megszerezhető adatbázisokkal.

A döntéstámogatási folyamat iterációs jelegű: a fontosabb lépések után mindig vissza kell térni a megoldandó üzleti problémához. Meg kell vizsgálni, miben jutottunk előrébb, az adatokból kibányászott eredményeink mennyire megbízhatók, elkerültük-e az algoritmusok eleganciájával eltakart csapdákat. Az adatbányász éljen együtt az üzlet felhasználóval, soha ne szakadjon el attól, különben munkája öncélúvá, haszontalanná, sőt kifejezetten veszélyessé válhat.

Provost és Fawcett türelmesen elemzik a korlátokat, a jellegzetes hibákat, feldolgozási-értelmezési hiányosságokat. Mindig tudd, mit csinálsz tulajdonképpen, miért pont ezt az algoritmust használod, használhatnál-e mást is. Az eredmények értelmezésénél légy realista, ne kelts illúziókat, válaszd el egymástól a tényeket és a feltételezéseket, módszeresen ellenőrizz és tesztelj mindent, a matematikai-statisztikai apparátus mellett keress másfajta szakmai igazolási lehetőségeket is.

A könyv az üzleti példáit általában a marketing és a pénzügyek világából veszi (piacszegmentálás, lemorzsolódás-előrejelzés, hitelképesség-vizsgálat stb.), nyilván nem véletlenül. Ezeknek nyoma sem volt az én régi statsztika-tanköyveimben: nyilván mulatságos lett volna egy előfizető-lemorzsolódási példa egy olyan világban, ahol hét-nyolc évig kellett telefonra várni egy abszolút monopolhelyzetben lévő szolgáltatótól.

Post a Comment

You must be logged in to post a comment.