CRISP-DM

Fejezetrész a CRISP-DM folyamatmodellről a maga (még) nyers valójában. Az ábrát kihagytam.

——————————————

Az adatelemzéssel történő szakszerű problémamegoldásnak konzisztensnek, megismételhetőnek és objektívnek kell lennie. A folyamatnak meghatározott lépései és szabályai vannak. Ehhez ad keretet a széles körben elterjedt folyamatmodell, a Cross Industry Standard Process for Data Mining (CRISP-DM), amit a 4.2.1. sz ábrán mutatunk be. A modell a kilencvenes évek közepén született meg egy EU-s projekt egyik eredményeként, fő vállalati propagálója az IBM.[1]

A folyamat fő lépései a következők:

  • Az üzlet megértése (business understanding). A folyamat elején át kell tekinteni magát a feladatot, meg kell ismerni a helyzetet, az adott rendszer problémáit, a felhasználók elvárásait, a feltételeket és a körülményeket – ezekből a szempontokból a hasonlóságok ellenére minden probléma és helyzet egyedi, óvakodni kell az egy kaptafára készülő, egyszerűen lemásolt megoldásoktól. Az üzleti problémát adatelemzési kérdésként kell megfogalmazni, vagyis le kell fordítani az adatbányászat nyelvére. Meg kell vizsgálni, hol és hogyan lehet az üzleti teljesítményt adatok segítségével javítani, van-e mód erre egyáltalán. A kiindulópont tehát ugyanaz, mint az okos rendszerek építésénél (lásd a 2.2.1. sz ábrát). Az adatbányászati projektek sikeressége nagyrészt azon múlik, mennyire sikerült az üzleti problémát megérteni. Fel kell készülni arra, hogy az üzleti felhasználók (döntéshozók) sokszor maguk sincsenek teljesen tisztában a probléma természetével (bár érzik, tapasztalják annak létét), homályos, bizonytalan meghatározást adnak rá. Előfordul, hogy az üzleti probléma adatelemzési kérdésként való megfogalmazása világosabbá teszi magát a problémát: át kell gondolni az üzlet működési mechanizmusát, esetleg az egész üzleti modellt, a döntéseknél számításba vehető tényezőket, a lehetséges oksági, befolyásolási kapcsolatokat, ki kell jelölni az üzleti szempontból fontos mutatókat, célokat kell meghatározni. Ez a lépés tehát önmagában is iteratív és párbeszédes jellegű, jó együttműködést kíván az üzleti és az adatelemzési szakértők között.
  • Az adatok megértése (data understanding). Meg kell kezdeni a szükséges adatok összegyűjtését, miközben meg kell ismerni az adatok tartalmát, keletkezésük módját. Ez a vizsgálat hipotézisek megfogalmazását, mintázatok gyors felismerését, az adatokkal kapcsolatos problémák azonosítását is elősegítheti. Elképzelhető, hogy a felismerések alapján vissza kell térni az előző lépéshez, újra kell fogalmazni a megoldandó problémát, át kell értelmezni a feladatot. Aki elmélyült az adatokban, valószínűleg a problémát és a körülményeket is jobban át tudja tekinteni. A meglévő, illetve megszerezhető adatoknak, adatbázisoknak erős és gyenge pontjai egyaránt lehetnek, és természetesen nem szabad megfeledkezni a költség-haszon elemzésről sem.
  • Az adatok előkészítése (data preparation). A cél annak az adatkészletnek az előállítása, ami a modellezés inputja lesz. Az összegyűjtött adatok nyersanyagnak tekinthetők, ami csak megfelelő előkészítés után használható fel. Ez a munka a helyzettől függően többféle feladatot jelenthet, például táblázatokba való rendezést, transzformálást, adattisztítást. adatbányászati projektek során gyakran kell olyan adatokat használni, amelyeket eredetileg más célokra, esetleg lazább minőségi elvárások alapján gyűjtöttek, más szempontok alapján rendeztek. Nagyon eltérő lehet az egyes adatfajták pontossága, megbízhatósága.
  • Modellezés (modeling). A problémához általában többféle modellezési technikával lehet közelíteni, ezek közül ki kell választani a legmegfelelőbbet. Az egyes modellek csak a számukra „fogyasztható” adatok birtokában használhatók, tehát előfordulhat, hogy vissza kell térni az előző lépéshez, az adatok előkészítéséhez.
  • Értékelés (evaluation). A modell megszületett, de mielőtt használatba vennénk, ellenőrizni kell az elkészítése során végrehajtott lépéseket, meg kell vizsgálni, hogy alkalmas-e az üzleti probléma megoldására, támogatja-e a kapcsolódó döntéseket, tisztázni kell, hogy hol, mikor, milyen körülmények között használható, mire kell ügyelni a hadrendbe állításánál. Az értékelés szisztematikus munkát kíván, ami hasonlíthat a gyógyszerek teszteléséhez: olcsóbb és biztonságosabb lehet laboratóriumi körülmények között kezdeni.
  • Hasznosítás (deployment). Az összegyűjtött adatok elemzésével felépített modell új adatok betáplálásával eredményeket, outputokat produkál, amiket a döntéshozók felhasználhatnak a döntéseiknél. A döntéshozók, vagyis a felhasználók általában nem azonosak az adatbányásszal. A hasznosítás fontos feltétele, hogy a felhasználó értse a modell logikáját, megértse, hogy a használatba vett modell „mit mond neki”, az eredmények hogyan értelmezhetők. (Éppen ezért ajánlatos, hogy a felhasználó mindvégig részt vegyen a munkában – erre a kérdésre a 6. fejezetben még visszatérünk.) Az adatbányászat eredményei gyakran nem adnak teljes megoldást valamilyen üzleti probléma megoldására, egyéb lépésekre, intézkedésekre is szükség lehet. Ha egy vállalat például a saját belső információs rendszerét szeretné idegenektől megvédeni, adatbányászati eszközökkel felépített modelleket is használhat (amelyek például jelzik az illetéktelen behatolásokat, gyanús eseményeket), de ez önmagában minden bizonnyal kevés, egyéb politikákra, szabályokra, eljárásokra is szükség van.

E leírásból látható, hogy a folyamatmodell logikája tulajdonképpen egyszerű: a probléma meghatározásától halad a modellezésen át a hasznosítás felé. Az ábra dupla nyilai is arra utalnak, hogy az eljárás iterációs jellegű, vagyis gyakran szükség lehet a megelőző lépésekhez való visszatérésre, a külső kör pedig azt jelzi, hogy a használatba vétellel a folyamat nem ér véget, a tapasztalatok és az újabb adatok alapján a modell tovább fejleszthető, sőt, fejlettebb megoldásoknál automatikusan tanul a saját tapasztalataiból.

Legyünk konkrétabbak, és vizsgáljuk meg újra, miként születhetett meg a példaként használt terhességi index!

Láthattuk, hogy az áruházlánc sokféle adatot gyűjt a vásárlóiról. marketing akcióknak köszönhetően sok kisgyermekes anyát ismernek, tehát az adatbázisból ki tudják válogatni azokat, akik terhesek voltak. A teljes sokaságot véletlenszerűen két csoportra kell bontani: az egyik lesz a vizsgálati, a másik pedig a kontrollcsoport. Az előbbin hajtják végre az előrejelző modell (terhességi index) felépítéséhez szükséges, az adott feladathoz kiválasztott statisztikai elemzéseket. A feladat olyan viselkedési minták megtalálása az adatokban, amelyek a terhes nőkre jellemzőek, a többiekre viszont nem.

Mivel többféle elemzés használható, többféle modell születhet; ezek hatékonyságát a kontrollcsoport segítségével hasonlítják össze. Azt a modellt kell kiválasztani, amelyiknek nagyobb a találati pontossága, vagyis a kontroll csoport tagjainál a legjobban mutatja ki, hogy kik közülük a terhesek. Úgy is mondhatjuk, hogy a modelleket annak alapján értékelik és hasonlítják össze, hogy „milyen pontossággal jelzik előre a múltat”.

A modellt ez után használatba kell venni, rendszeresen elemezni kell vele a vállalat állandóan bővülő, változó adatbázisát. Akkor lesz egy okos rendszer analitikai komponense, ha támogatni tudja a lánc kereskedelmi döntéseit: a vállalat a számukra megfelelő árucikkeket kínálja a mindenkori terheseknek, vonzó ajánlatokkal jelenik meg, a megfelelő helyre juttatja el a hirdetéseit, és így növelni tudja a forgalmát, erősíteni tudja vevői hűségét, csökkenteni tudja a költségeit.

Mivel a helyzet nem statikus (változik az árukínálat, a divat, a demográfiai helyzet, változhat a gyűjthető, illetve megszerezhető adtok köre, a jogi szabályozás stb.), a modellt rendszeresen frissíteni kell. A CRISP modellen láthattuk, hogy a folyamat iterációs jellegű, valószínű tehát, hogy a Targetnél is többször volt szükség korábbi fázisokhoz való visszatérésre. Arra is utaltunk, hogy az eljárás a kutatás-fejlesztési programok sajátosságait mutatja: a sikerre nincs garancia, miközben az sem kizárt, hogy az eljárás nem tervezett eredményeket (is) hoz. A modell használata során tapasztalatok halmozódnak fel – egy jól megcsinált, gépi tanulásra (machine learning) képes  rendszer ezekből is okulhat.

E leírásból látható, hogy a modellt a már meglévő adatok (historic data) felhasználásával építik fel, a hasznosításánál pedig friss adatokat táplálnak bele, a friss adatok pedig idővel „történelmi” adatokká válnak, ami lehetővé teszi a modell finomítását, rendszeres felülvizsgálatát, a tapasztalatokból való tanulást (4.2.2. ábra).


[1] Chapman 2000

Post a Comment

You must be logged in to post a comment.