Az Eszterházy Károly Tanárképző Főiskola Tudományos Közleményei. 2003. Oktatástechnológia. (Acta Academiae Paedagogicae Agriensis : Nova series ; Tom. 26)

LENGYELNÉ MOLNÁR TÜNDE: Hatékonyságnövelés a könyvtárakban szóstatisztikai eljárások alkalmazásával

egyes személyekhez kapcsolódtak, ugyanis 1972-ben a fővárosban működő Doku­mentációs Csoport felszámolásával megszűnt a magyarországi nyelvészeti munka. Az 1979-es újraindulással elkezdődik a negyedik korszak, mely próbálja behozni a 70-es években kiesett tapasztalatok hiányát. Ez időszaktól kezdve Európa-szerte fellendülés tapasztalható a nyelvfeldolgozó rendszerek területén, melynek hatására Magyarországon is elkezdték fejleszteni az Ml-nyelvet, és létrejött egy magyar mor­fológiai elemző alkalmazás is. A 90-es években óriási fejlődés indult meg a szemé­lyi számítógépes szoftverek megjelenésével. Az előrelépés egyik állomása a magyar nyelv sajátosságainak megfelelő helyesírás-ellenőrző megjelenése, melynek során algoritmussal írták le szavak összetételét, tehát a szótő és a toldalékok kapcsolódá­sát. A készítő Morphologic cég napjainkra a magyar számítógépes nyelvészet egyik legmeghatározóbb alakjává vált, amikor a Microsoft megvásárolta programjukat. Munkájuk újabb eredményei már a szövegkörnyezetet is vizsgálja, mely kiszűri az irrelevánsnak tűnő értelmezéseket. (Prószéki Gábor, 1989. p. 489-492.) Napjainkra egyre több magyarországi intézmény válik világszerte ismertté számítógépes nyel­vészeti munkájával. Az MTA Szegedi Egyetem Mesterséges Intelligencia Kutatóla­boratóriumában készült ILP, azaz az Inductive Logic Programming az egész világ­ban kísérleti nyelvészeti alkalmazások egész sorát vonultatta fel. A fenti eredmények lehetővé teszik a szavak szótövének megkeresését a magyar nyelv esetén is. Viszont ezeket az eredményeket eddig nem alkalmazták a könyvtár­informatika területén. A szótő megállapításának problémája után a gyakorisági vizsgálatok elvégzésé­hez a szavak megszámlálása szükséges, mely egyszerű programozási utasításokkal megoldható. A gyakorisági vizsgálatok, illetve a kivonatolás elvégzéséhez meg kell határozni a szignifikáns kifejezéseket. Zipf törvénye szerint a szignifikáns kifejezések a gyakorisági lista adott tartomá­nyátjelentik, ami szakterületenként változik, de minden egyes tudományágban igaz, hogy nem a lista eleje és nem is a vége. A szignifikáns szavak listáját megkapjuk, ha a gyakoriság eloszlási függvényére rávetítjük a tudományterületre jellemző tapaszta­lati úton meghatározott Gauss-görbét. (Horváth Tibor-Papp István, 1999. p. 56.). Magyar szövegeket tekintve kevés tudományágnak létezik gyakorisági szótára, mely alapján a Gauss-görbe felállítható lenne. Jelenleg a Magyar Tudományos Aka­démia foglalkozik szógyakorisági szótárak összeállításával. Ha számítógéppel szeretnénk meghatározni a releváns helyekhez vezető kifeje­zéseket, akkor mindenképpen figyelembe kell venni azt, hogy vannak-e a szövegben olyan szópárok, illetve szóhármasok melyek többször fordulnak elő. Ez az elgondo­lás Luhn-tól ered, aki 195 l-ben jelentette meg elképzelését. A szomszédos szavakat, illetve szóhármasokat, a triviális szavak elhagyása után kell vizsgálni, majd egy súlyozás bevezetésével jutunk el a releváns szövegrészekhez. Ennek módja, hogy a két- vagy többtagú nem triviális szóelőfordulások magasabb súlyt kapnak, mint azok egyszeres előfordulásai. A súlyok megalkotása után dönteni kell arról, hogy milyen egységeket akarunk visszakapni releváns helyként: mondatot vagy bekezdést. Ez­után történik az automatizálás: hozzárendelünk egy számértéket a választott egység­135

Next

/
Thumbnails
Contents