Recenziók: Szövegbányászat

Nyitóoldal / Könyvek / Szövegbányászat / Recenziók

Megjelenés: 2007. 01. 01.
Oldalszám: 300 oldal
Formátum: B/5, fűzve
ISBN: 978-963-9664-45-6
Sorozat: Az informatika alkalmazásai

Elfogyott

Szövegbányászat

Tikk Domonkos (szerk.)

Ugrás a recenziók listájához

Tüdőembólia keresése (adat)bányászati módszerekkel

Természet Világa

2007 február

Az interjút készítette: BACSÁRDI LÁSZLÓ és DÉZSI JÁNOS

Beszélgetés Kardkovács Zsolttal, Tikk Domonkossal és Szidarovszky Ferenccel

Az Amerikai Számítástudományi Társaság által meghirdetett KDD (Tudásfeltárás és Adatbányászat) kupán a Budapesti Műszaki és Gazdaságtudományi Egyetem fiatal oktatói csapata (Kardkovács Zsolt, Tikk Domonkos, Szidarovszky Ferenc, Bálint Zoltán, valamint Biró György) 2006-ban egy I. díjat és egy II. helyezést szerzett két külön kategóriában. A résztvevőknek a Siemens által javasolt informatikai problémát kellett megoldaniuk. A kupán idén nem kevesebb, mint 18 ország 68 csapata képviseltette magát. Honnan hallottak a versenyfelhívásról, hogyan kerültek kapcsolatba a kiírókkal?

Kardkovács Zsolt: Minden évben megrendezik ezt a versenyt, az idei volt a tizedik. Általában májusban hirdetik meg, és július elején kell leadni a megoldásokat. Tavaly is indultunk, egy keresőmotor szimulációját kellett elvégezni. Már akkor is sikerrel szerepeltünk: a kiírt három kategóriából két második helyezést szereztünk. Megadtak bizonyos kulcsszavakat, és ennek alapján kellett kategóriákba sorolni dokumentumokat. A keresést ugyanis úgy lehet könnyíteni, ha megpróbáljuk a keresőszót valamilyen kategóriához hozzárendelni, és ezen a kategórián belül keresünk. Többek közt a pontosságot, valamint a kreativitást pontozták. Idén figyeltük a versenyfelhívást, és a kiírást követő második napon már regisztráltunk is a versenyre.

Milyen egy átlagos versenyfeladat?

Tikk Domonkos: A feladat olyan probléma, melyet egy valós helyzet teremt: rendszerint nincs rá általános megoldás. Egy saját heurisztikát, eszköztárat fejlesztettünk ki, és ennek segítségével a kapott tesztadatokon végeztünk kísérleteket. A feladat alapvetően két részből állt. Az első egy hosszabb, kb. két hónapos modellépítési fázis, amihez tanuló adatokat kaptunk. A második a beadási fázis, erre most 24 óránk volt. Ekkor újabb adatokat kaptunk, amelyeken futtathattuk a modellünket. A következőkét hétben az általunk adott eredményeket ellenőrizték és értékelték ki a szervezők. Július 20-án készítettük el az egynapos tesztet, és augusztus elején értesítettek az eredményekről.

Szidarovszky Ferenc: A csapatok olyan terveket állítanak elő, melyek iparilag és kereskedelmileg is felhasználhatók, így megpróbálják minél jobban elejét venni a visszaélésnek. A verseny amerikai szemléletű: nagyon védik a versenyzők érdekeit, csak a nyertesek neve ismert.

Hogyan állt össze a BME-csapat?

T. D.: Zsolttal három, Ferivel egy éve dolgoztunk együtt. Még két tagja van a csoportnak, akik kisebb feladatokkal segítettek be: egy képfeldolgozással foglalkozó hallgató, hiszen a feladat képek numerikus adatainak feldolgozásáról szólt, és egy másik kolléga, aki az egyik korábban kidolgozott osztályozómotor fejlesztésében segített.

Orvosi témában alkalmaztak adatbányászati eszközöket.

Pontosan mi volt a kiírás?

K. Zs.: Egy háromdimenziós tüdőröntgenképeket készítő gép felvételei alapján azt próbálják megállapítani, van-e embólia a tüdőben. Jelenleg az orvosok saját maguk vizsgálják a képeket, de új, automatizált módszereket keresnek. A verseny érdekében a képeket számokká alakították, és ezekből kellett megállapítani, hogy a felvételek mutatnak-e tüdőembóliát.

Sz. R: Azért érdemes foglalkozni ezzel a betegséggel, mert Amerikában ez a harmadik leggyakoribb természetes halálok, ráadásul olyan tünetekkel jár, melyek összekeverhetők sok más, kevésbé súlyos betegség tüneteivel. A röntgenvizsgálat is rengeteg pénzbe kerül mind a gép, mind a felvétel, és a felvételeket elemző orvosok is sok órát áldoznak a képek vizsgálására.

T. D.: Adatbányászatról akkor beszélünk, ha nagyon sok adat között kell különböző összefüggéseket felismerni, osztályozni, rendszerezni, vagy javítani. Lényegében itt is hasonló feladatról volt szó. A tüdőrendellenességet a diagnosztikai eszköz által előállított, különféle attribútumokkal leírt, egymással nem összefüggő térbeli egységek jellemzői alapján kellett detektálni. Egy képdarabot tehát sok számmal jellemeztek. Úgy kell elképzelni a feladat első részét, hogy nagyon sok adatot kaptunk, amelyekről megmondták, hogy melyek tartoznak beteg tüdőrégiókhoz. A felvételek különböző helyen, többféle beállítással és több betegről készül(het)tek, és az is ismert volt, hogy több megadott képi egység is tartozhatott ugyanahhoz a rendellenességhez. A képi információt 116, lényegében ismeretlen jelentéssel bíró, 0-1 intervallumra normalizált, zajos jellemzővel adták meg.

A 24 órás feladat során újabb adatokat kaptunk a szervezőktől. Ezeken futtattunk az elemzőnket, és az eredményeinket (melyik adatsor tartozik „beteg", illetve „nem beteg" tüdőrégióhoz) kellett visszaküldeni. Bizonyos feltételeknek meg kellett felelnünk, például megadták, hogy egy betegnél maximum hányszor lehet hibázni. Aki ezt túllépte, kizárták.

K. Zs.: Három kategóriát hirdettek meg, de mind a háromnak ugyanaz volt a gyökere: azonosítani kellett egy bizonyos jelenséget a kapott adatok alapján. Mivel a kiírásban is úgy szerepelt, hogy a harmadik probléma a terület Szent Grálja, erre nem akartunk energiát pazarolni. A harmadik kategóriában végül egyetlen egy csapat sem teljesítette a kiírás követelményeit, ugyanis itt teljes biztonsággal kellett felismerni az egészséges pácienseket, azaz nem tévedhetett úgy a program, hogy egy beteg embert egészségesnek diagnosztizált.

Hogyan épül fel az elkészített modell? T. D.: A feladat két egységből állt: először olyan modelleket kellett létrehoznunk, amelyek a rendelkezésre álló adatok segítségével képesek ismeretlen adatokról eldönteni, hogy tartalmaznak-e betegségre utaló jeleket vagy sem. A második egység során pedig ismeretlen adatokra kellett futtatni a modellünket.K. Zs.: Mi két neuronhálóból és egy statisztikai modellből álló eszköztárral dolgoztunk. A statisztikai modellben egy Oracle adatbázisba betöltött adatokat különböző aritmetikai eljárásoknak vetettünk alá. Ahogy említettük, normalizált, azaz 0 és 1 közé eső adatokat kaptunk, melyek a készülék beállításától is függtek. Abból az ötletből indultunk ki, hogy nézzük meg azokat a tipikus intervallum-együtteseket, melyekben betegségre utaló jeleket találunk.Sz. F.: A modell másik eleme egy neuronhálózat. Ha a rendelkezésre álló adatok nem elégségesek, akkor a neuronháló képes olyan tendenciákat is figyelembe venni, melyeket az adatok a mögöttük álló világról hordoznak magukban.T. D.: A harmadik elemhez pedig egy már korábban épített szövegosztályozó motor adta az alapot. A szövegosztályozás során nagy mennyiségű szöveget kell bizonyos (megadott vagy ismeretlen) paraméterek alapján osztályokba sorolni. Ezt alakítottuk át úgy, hogy a képből kapott számsorokkal tudjon dolgozni. Sikerült úgy beállítani a modellt, hogy ne adjon gyorsan elhamarkodott választ, ráadásul ez a módszer nagyon gyorsan futott.

Volt még egy olyan fázis, hogy az adott 116 jellemzőből megnézzük, melyik az, ami ténylegesen hatással van a kimenetre, az eredményre. Kiderült, hogy majdnem mindegyiknek van rá hatása, akad 3~, ami elhanyagolható, viszont nem romlik nagyon az eredmény, ha csak 62 jellemzőt tartunk meg. Néhány programnál pedig a jellemzők száma jelentősen hat a futásidőre. A szövegosztályozó nem ilyen, így mind a két verziót (összes jellemző, 62 jellemző) teszteltük, és azt tapasztaltuk, hogy bizonyos esetekben kiugróan jó eredményt adott a 62 jellemzős változat, de ez nem volt általános.

K. Zs.: A legutolsó s talán a legfontosabb lépés , hogy a három módszer eredményeit (ami igazából négy eredménysort jelent) összesítenünk kellett, s erre alkottunk egy új eljárást. Mindegyik önálló megoldás aránylag nagy hibával dolgozik. A statisztikus módszer és a szövegosztályozó motor sok helyes találatot produkált, de túl sok hamisat is, míg a neuronhálóról azt tudtuk, hogy ha valakiről azt mondja, hogy beteg, akkor az nagy valószínűséggel az is, viszont ezt elég kevés esetben mondta.

Ha azonban az egyik módszer azt mondta valamire, hogy pozitív, de valójában nem volt az, akkor a többi módszerrel ezt ki lehetett szúrni. Hiába szavazott két módszer is betegségre, nem tekintettük annak, ha volt olyan módszer, ami nagyon erős meggyőződéssel ellene szavazott.

Ez bevett módszer?K. Zs.: A teljes találati lista a legkonzervatívabb esetben 67, a legmegengedőbb esetben 242 elemből állt (51, illetve 98 helyes találattal a 156-ból), vagyis ennyi képegységre mondták a modelljeink, hogy betegségre utaló jeleket tartalmaznak. 17 olyan eset volt, amit mind a négyen megszavaztak. Ez viszonylag kis része a teljes halmaznak, de ezek egyike sem volt tévedés. Három egyenlő szavazat esetén azt kellett megnézni, hogy mennyire tiltakozik a negyedik módszer, kettő esetén mennyire erős az a kettő szavazat a többi ellenében stb.

T. D.: El is neveztük a módszert parametrizált vétóval rendelkező szavazásos eljárásnak, ugyanis tudományos területen fontos nevet adni a gyereknek, hogy ne a „ZZ23-as eljárás”-ról beszéljünk. A szavazási eljárás az életben is jól működhet: a demokráciában a többség szavazata dönt. De ha be tudnánk vezetni az ellenszavazatokat is azt, hogy hányan tiltakoznak valaki ellen, miközben erősítenek valakit, akkor optimális döntést tudnánk hozni. Nem feltétlenül az a jó jelölt, akit elég sokan támogatnak, hanem az, akit sokan támogatnak, és csak kevesen elleneznek.

Meddig tartott a teszt?K. Zs.: A tanulás során viszonylag hosszú idő, amíg beillesztjük az adatokat a fennálló modellbe, tehát a rendelkezésre álló eredmények (kimeneti adatok, vagyis „beteg", „nem beteg”) alapján tanítjuk a rendszert, hogy minél több bemeneti adatról el tudja dönteni, tartalmaz-e betegségre utaló jeleket. Egy teljes futás két órát is eltartott. A tesztadatok kiértékelése a végső problémával már csak egy gombnyomás: az adatokat mindössze a programjaink által alkalmazott formátumra kellett átalakítani.

Sz. F.: A végső teszt során délután kezdtük el a munkát, hajnalig dolgoztunk Domonkossal, aztán átadtuk Zsoltnak, aki frissen és üdén foglalkozott vele tovább.

Megéri a munka a belefektetett időt? Lesznek ezután publikációs vagy ipari megvalósítási lehetőségek?

T. D.: Tavaly és az idén is majdnem a nulláról fejlesztettük ki azokat az elemeket, amelyekkel elindultunk. Egy kategorizáló motor már a rendelkezésünkre állt, de ezt is rá kellett hangolni a feladatra. Az egész rendszernek volt olyan része, amelyre egy hónap alatt építettünk fel modellt, és volt néhány embernapnyi olyan próbálkozás is, ami zsákutcába vezetett. Idén az első helyezetteket felkérik a szervezők, hogy egy neves folyóiratban publikálják a módszerüket. Remélem, az alkalmazás sem marad el. Meglepődnék azonban, ha Magyarországon sok lenne abból a tüdőröntgen-készülékből, amely a versenyen használt felvételeket készítette; inkább az amerikai Siemens érdeklődhet a rendszerünk iránt. De kívánjuk a magyar orvostársadalomnak, hogy jusson hasonló műszerek birtokába.

Tavaly két második, idén egy első és egy második helyezés. Jövőre a két első lesz a cél?T. D.: Sok függ a feladattól is. Tavaly úgy éreztem, szerencsénk volt, idén azonban jobb eredményt értünk el. Meglátjuk, mi lesz a jövő évi kiírás. Amikor elolvastuk az idei feladatokat, nem hittük, hogy bármilyen eredményt el fogunk érni: az eddigi kutatásainktól elég messze állt a feladat témája.K. Zs.: Azt hiszem, hogy itt, a Műegyetemen ideértve a hallgatókat és a kollegákat is a kreativitással és az időráfordítással nem lesz baj: ha indulunk, akkor a felsőbb régiókban érhetünk el helyezést. Az, hogy elsők leszünk-e, nem csak rajtunk múlik; idén a legjobbak közt nagyon kicsi volt a különbség. De amit külföldön pénzzel meg erővel győznek, azt itt sok lelkesedéssel lehet pótolni.

BACSÁRDI LÁSZLÓ és DÉZSI JÁNOS

Kapcsolódó recenziók

Tüdőembólia keresése (adat)bányászati módszerekkel (BACSÁRDI LÁSZLÓ és DÉZSI JÁNOS, Természet Világa, 2007 február)
Szövegbányászat (Virágh Judit, Műszaki Magazin, 2007/10.)
Nyelvtechnológia a PC-világban (Kerekes Tamás, sznoberia.blogter.hu., 2007-11-21)