0 db
0 Ft
EN / HU
Felhasználó neve / E-mail cím

Jelszó

Elfelejtett jelszó
 
 
 
Megjelenés: 2007
Oldalszám: 300 oldal
Formátum: B/5, fűzve
ISBN: 978-963-9664-45-6
Témakör: Informatika
Sorozat: Az informatika alkalmazásai

Eredeti ár: 3700 Ft
Webshop ár: 2220 Ft

KOSÁRBA
Szövegbányászat
Tikk Domonkos (szerk.)

Nyelvtechnológia a PC-világban

sznoberia.blogter.hu.
2007-11-21

Nyelvtechnológia a PC-világban

Kémek, üzleti hírszerzők, menetrendösszeállítók, figyelem

Új alkalmazott nyelvészeti stúdium van születőben

a haszon a gyorsaságban rejlik

A módszer ereje abban rejlik, hogy csak azokat a kifejezéseket és szerkezeteket veszi figyelembe, amely a szoftver hátteréül szolgáló adatbázisban közvetlenül elérhetőek predikatívumok formájában. Hiszen a lexikon tartalmát csak le kell kérdezni.Mindez nagyban függ az adatbázis szerkezetétől. Vegyük például azt az életszerű helyzetet, hogy pilótákat, repülőgépeket, célállomásokat és kiindulási időpontokat tárolunk az adatbázisunkban, azaz, hogy melyik repülőgép, kivel, hova és mikor repül. Joggal várnánk el ettől a rendszertől, hogy a Melyik pilóta repül Berlinbe? Mikor repül a Boeing 747-es?, Mikor repül a 2008. december 24.-ik járat? Hová repül a Boeing 747-es gép 2008. december 24-én? Mikor repül Gipsz Jakab? kérdések mindegyikére választ adjon-feltéve persze, hogy a rendszer számára rendelkezésre állnak a szükséges adatok. A repül ige megfeleltetése azonban komoly probléma, mert az univerzálék egyesítése nem lebecsülendő probléma.

Az alkalmazott stúdiumra igényt tarthat az ügyfélszolgálat, a biztonság, bűnüldözés, az üzleti információszerzés, gyógyszerkutatás, államigazgatás, internetes keresés.

A szövegbányászat (angolul text mining) a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerésének tudománya; olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt.Az egyszerű keresésnél jóval többet hivatott nyújtani a szövegbányászat. Míg szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciájú találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert kívánunk tenni, ami explicite nem volt benne a rendelkezésre álló dokumentumállományban (korpuszban), csak indirekt módon, rejtve, látensen. Bár a teljes szövegű keresés is a szövegbányászat része, a szövegbányászat a keresésnél jóval többet jelent, hasonlóan, ahogy az adatbányászat is jóval többet jelent az egyszerű adatkeresésnél.

A szövegbányászat nagymértékben épít az adatbányászat eredményeire, ahol elsősorban számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, statisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól strukturált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot.

http://www.szovegbanyaszat.hu/ Magyarország szövegbányászat témájú portálja

http://szovegbanyaszat.typotex.hu/ A Typotex Kiadó gondozásában megjelent Szövegbányászat című könyv honlapja.

www.szovegbanyaszat.lap.hu Tematikus linkgyűjtemény a szövegbányászat hazai vonatkozásairól

http://www.textmining.lap.hu/ Tematikus linkgyűjtemény a szövegbányászat nemzetközi vonatkozásairól

www.vazsonyi.hu/szovegbanyaszat Vázsonyi Miklós szövegbányászati cikkei

http://textminer.hu/h_index.html Szövegek automatikus osztályozásáról szóló oldal

WIKIPÉDIA

Magyar nyelven már bőséges linktár áll rendelkezésre:

http://szovegbanyaszat.lap.hu/

A szövegbányászat üzleti haszna(Vázsonyi Miklós)

szövegbányászat elsősorban az üzleti életben kerül előtérbe a figyelem középpontjába. Az üzleti szférán kívül természetesen a kutatásban és az akadémiai intézetekben, könyvtárakban, és egyéb nonprofit szervezeteknél is van gyakorlati haszna a szövegbányászati rendszereknek, azonban a kiélezett üzleti versenyhelyzetben, amit korunk telített és igen rugalmas piaci körülményei diktálnak, az üzlei életben egyenses nélkülözhetetlenné válik. A tanuló szervezet koncepciója alapján az az üzleti entitás, amely kis reakcióidő mellet, tehát gyorsan képes adaptálódni, alkalmazkodni a folyamatosan és turbulensen változó üzleti és piaci környezethez, annak túlélési és hosszú távú nyereségrealizálási potenciálja nagyobb lesz, mint azoké az üzleti szervezeteké, akik kellően pontos és mély tudás üzleti tudás hiányában lassabban képesek reagálni a környezetük változásaira. A folyamatos ismeretkinyerés az óriási sebességgel keletkező szöveges adatállományokból emberi erőforrás igényevételével kivitelezhetetlen. A gépi intelligencia és számítási kapacitás elérte azt a szintet, hogy képes a tömeges szöveges állományok gyors feldolgozására, és azokból korlátozott mértékű ismeret kinyerésére. A szövegbányászat olyan ismeretekkel és információkkal képes ellátni az őt alkalmazó üzleti szervezetet, amely információk birtokába nem jutnak azok a vállalatok, amelyek nem alkalmaznak szövegbányászati rendszereket, vagy netán az ekvivalens feladatokat emberi erővel tervezik megoldani.

Belátható módon egy-egy nagyvállalat intranetje esetében a teljes vállalati dokumentum állomány akkora mennyiségű információt rejt magában szöveges és alapvetően strukturálatlan dokumentumok formájában, amit ember nem képes szintetizáltan átlátni és nyilvántartani. Ekkora adatállományból az ismeretkinyerés már csak gépi intelligencia használatával oldható meg. A vállalati dokumentumok pedig igen fontos információkat tartalmazhatnak egy-egy termékre, szolgáltatásra, a piacra, fogyasztókra, versenytársakra, stb. vonatkozóan. Azoka az üzleti szervezetek, amelyek ezt az ismeretanyagot kellően hatékonyan és gyorsan fel tudják használni üzleti opertaív tevékenységeik során, azok üzleti előnyre tehetnek szert versenytársaikkal szemben.

Hasonlóképpen az Internet is az ismeretek kimeríthetetlen tárháza. Az Interneten olyan üzleti tudásanyag is megjelenhet, amelyet emberi böngészés útján reménytelen lenne összegyűjteni, csoportosítani, rendszerezni, és a fontos elemeket kinyerni. Gépi intelligenciával, online szövegbányászati rendszerek használatával azonban egy-egy vállalat az Interneten tárolt ismeretanyag birtokába is juthat. Ilyen ismeretanyag lehet például a konkurrenciáról szóló média információk, fogyasztók viselkedésének és elégedettségének monitorozása, célzott hírfigyelés, szabályozási környezet változásainak figyelése, stb.

A szövegbányászati alkalmazások használata alapvetően kettős üzleti előnnyel jár. Egyrészt nő az az ismeretanyag, amelyhez a vállalat hozzá tud férni, és nő az ismeret különböző aspektusainak lekérdezését biztosító keretrendszer rugalmassáa, lehetőségeinek száma. Másrészről a szövegbányászat alkalmazásával a kritikus információkhoz a vállalatok gyorsabban jutnak hozzá, mint egyébként, így csökkentve ezáltal reakcióidejüket, és az információ keresésre és ismeret kinyerésre feláldozott idejüket. Az idő szűk keresztmetszet, így kiemelten fontos, hogy egy versenyelőnyt megszerezni szándékozó vállalat az ismereteket gyorsabban elő tudja állítani.

Tudásmenedzsment nézőpontból a szövegbányászat a kodifikálható tudásanyaghoz történő hatékonyabb hozzáférést, és annak több célú feldolgozását teszi lehetővé. A tudástőke a vállalati érték egy jelentős hányadát kitevő immateriális jószág. Ezen tudástőke egy része látens módon a vállalat strukturálatlan szöveges dokumentumaiban lelhető fel, azonban ennek a tudástőkének a felszínre hozásához és kitermeléséhez hatékony szövegbányászati módszerek szükségesek.

Vázsonyi Miklós

Szövegbányászat az interneten

Vázsonyi Miklós

Az internetes szövegbányászat (web mining) és annak a szövegbányászati tevékenységeket érintő kihívásai külön fejezetet érdemelnek jelen szövegbányászatról szóló könyvben. Az Internet az 1980-as évek második felétől számított megjelenése óta folyamatosan motiválta és magával húzta a szövegbányászat irányú kutatásokat. Az Internet rohamos elterjedése nagymértékben hozzájárult a szövegbányászat, a szöveges információ visszakeresés és automatikus ismeret kinyerés tudományterületek rohamos fejlődéséhez. Az Internet jelenleg is közel exponenciális ütemben növekszik, így intenzív húzó hatása továbbra is érezhető. Az Interneten elérhető szöveges dokumentumok száma roppant módon megszaporodott, és a tendencia egyre jobban érvényesül. Ezzel egyidőben a szöveges dokumentumok iránti igény is jelentősen megnőtt. Korunkat az információs társadalom tudástársadalommá történő kiteljesedéseként élhetjük meg. Az emberek és egyéb szervezetek információ– és tudás éhsége csillapíthatatlannak tűnik. Nap-mint-nap igényeljük a friss információkat, kimutatásokat, összefoglalókat, elemzéseket. Az Internet a szöveges dokumentumok egy óriási strukturálatlan tárháza. Strukturálatlanságából adódóan reális az igény az olyan modern szövegbányászati módszerekre, amelyek képesek megbirkózni a szövegek mennyiségével és azok strukturálatlan jellegével, és ezek leküzdésével képesek hatékonnyá tenni az emberi hozzáférést a szöveges információkhoz és ismeretanyaghoz. A szükséges internetes szövegbányászati módszereknek hatékony szövegtárolási, -visszakeresési és feldolgozási potenciállal kell rendelkezniük. A kihívás kisebb skálás már egy nagyobb vállalati intranet esetében is megjelenik, amikor a vállalati személyzetet kell tudni kiemelkedően hatékony módon ellátni releváns információkkat. A tudás ugyanis napjainkra a legértékesebb erőforrás lett. A tudásintenzív iparágakban a tudásmenedzsment fontosságát felismerő cégek versenyelőnyre tesznek szert. A tudás, mint nyersanyag megszerzéséhez a hatékony szövegbányászati rendszereken keresztül vezet az út. Üzleti szempontból az Internet a szövegbányászati rendszerek nyersanyagainak kimeríthetetlen lelőhelye. Üzleti hírszerzést, konkurencia figyelést, hírfigyelést, és hasonló, egyre nagyobb üzleti értékkel bíró funkciókat látnak el szövegbányászati alkalmazások.

Az online szövegbányászati rendszerek szempontjából az Internet egy kihívásokkal teli platform. A kihívások az Internet jellegéből, felépítéséből, struktúrájából adódnak. A legfontosabb ilyen kihívások az alábbiak.

Eloszott adatstruktúra. Az Interneten az adatok fizikailag más-más helyen lelhetőek fel, ezeket egységesen kell kezelni, függetlenün forrásuktól. A szöveges információk nemcsak rengeteg fizikai hely felett oszlanak el, de más-más formátumban, más-más operációs rendszren és más-más időben érhetőek el. Az Interneten jelen lévő információtároló szerverek egy előre meg nem határozott, önszerveződő struktúrájú kapcsolatban állnak egymással. A hálózati topológia ráadásul dinamikusan változik, az adatátviteli sávszélességek, rendelkezésre állási idők, megbízhatóságok, hitelességek, stb. mind-mind hozzájárul ahhoz, hogy az online szövegbányászat egy turbulensen változó környezetben kénytelen megvalósítani céljait. Az alosztott adatstruktúra tehát egy olyan kihívás, amit a szövegbányászati tevékenység során mindenképpen le kell küzdeni.

Változó tartalmak. Az Interneten elérhető tartalom egy része egyik pillanatról a másikra eltűnhet (mert például lekapcsolnak egy szervert a hálózatról), vagy új tartalmak keletkezhetnek egy pillanat alatt, meglévő tartalmak módosulhatnak, stb. Becslések szerint az Interneten elérhető tartalom 40%-a legalább havi rendszerességgel módosul, változik. Ebbe a kategóriába tartozó kihívás a tartalmak elköltözése egyik helyről a másikra, hiszen ekkor az eredeti helyre mutató linkek nagy száma válik használhatatlanná.

Óriási méretek. Az interneten tárolt szöveges információk óriási méreteket öltenek. Egyik, fizikailag egy helyen lévő adatbázis sem látott még akkora szöveges adattömeget, amely az Interneten jelen van elosztott struktúrában. Ekkora méreteknél már komoly kérdéssé válik a szövegek feldolgozásának sebessége. A jelenlegi méret ráadásul exponenciális ütemben folyamatoan nő.

Redundáns és struktúrálatlan szövegek. Az Interneten elérhető szövegek egyrésze több példányban jelen van a hálózaton, redundánsan, tükrözve. Az egyes példányok sok esetben más-más formátumban jelennek meg, előre definiált struktúra nélkül. Becslések szerint az Interneten jelen lévő szöveges állományok 30%-a közel azonos információtartalmú.

Ellenőrizhetetlen adatminőség. Az Internet egy új publikációs lehetőséget biztosító médium lett. Szerkesztői feladatokat senki nem végez, az új szöveges tartalmak cenzúra és szervezési lépések megtétele nélkül kerülnek ki a webre mindenki számára elérhető módon. Ebből kifolyólag egyes szövegek nem feltétlen erik el a megfelelő minőséget (például mert már elavultak vagy valótlan állításokat közölnek, stb.), szegényes stílusban íródtak, hibák sokaságát tartalmazzák, stb.

Heterogén adattípusok. Az Interneten elérhető szöveges tartalmak változó típusú dokumentumként jelennek meg, így az online szövegbányászati rendszereknek sok formátummal, nyelvvel és más-más karakterkészlettel kell megbirkózniuk. Legelterjedtebb formátumoknak a HTML, XML, ASCII TXT és PDF dokumentumok tekinthetőek.

A fent említett kihívások várhatóan nem csillapodni, hanem vélhetően erősödni fognak, folyamatosan sarkallva ezáltal a szövegbányászati rendszerek alkalmazkodóképességének és hatékonyságának növekedését. Nem várható például, hogy az Interneten lévő nyelvek száma csökkenjen, hogy a struktúra rendeződjön, hogy a tartalmak fizikailag egy helyen legyenek elérhetőek. Ezek nyilván hiú ábrándok. Ebből adódóan a szövegbányászati rendszerek is folyamatos fejlődésre vannak ítélve még egy jó ideig biztosan.

Vázsonyi Miklós

(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com

a kiadó:

szövegbányászat célja, hogy a szöveges formában - interneten, szöveges adatbázisokban, vállalati intraneteken vagy személyi számítógépeken - tárolt, azaz jellemzően strukturálatlan elektronikus adatokból a rejtett, nem triviális információkat felderítse, illetve a hozzáadott információkat kinyerje. Mivel az elektronikus formában tárolt adatok egyre növekvő hányadát a szöveges dokumentumok teszik ki (a Merill Lynch elemzői szerint az üzleti információk 85%-a strukturálatlan adat: e-mail, emlékeztető, üzleti és kutatási beszámoló, prezentáció, hírek, reklámanyag, weboldal, stb.), ezért egyre nagyobb igény van olyan megoldásokra, amelyekkel hatékonyan lehet szövegeket intelligens módon feldolgozni és elemezni.

A könyv a következő témákat tárgyalja: előfeldolgozás, modellalkotás, reprezentáció, információkinyerés, keresések, osztályozás, csoportosítás, kivonatolás, válaszkereső rendszerek, egyéb feladatok, piaci alkalmazások.

Mivel a szövegbányászati problémák nagy része nyelvfüggő, ezért a mű kiemelten foglalkozik a magyar nyelvű szövegek feldolgozását segítő módszerekkel és eredményekkel, amivel a hazai piaci igények kielégítését is elő kívánja segíteni.

A könyv szovegbanyaszat.typotex.hu címen elérhető internetes mellékletén az anyaghoz kapcsolódó példák, esettanulmányok, kiegészítő anyagrészek találhatók, amelyet gazdag linkgyűjtemény egészít ki.

http://sznoberia.blogter.hu./?post_id=208013

http://www.nolblog.hu/index.php?action=edit_post&blog_id=596b

Kerekes Tamás

Kapcsolódó recenziók

AJÁNLOTT KÖNYVEK