Az Eszterházy Károly Tanárképző Főiskola Tudományos Közleményei. 2003. Oktatástechnológia. (Acta Academiae Paedagogicae Agriensis : Nova series ; Tom. 26)

LENGYELNÉ MOLNÁR TÜNDE: Hatékonyságnövelés a könyvtárakban szóstatisztikai eljárások alkalmazásával

egyes személyekhez kapcsolódtak, ugyanis 1972-ben a fővárosban működő Dokumentációs Csoport felszámolásával megszűnt a magyarországi nyelvészeti munka. Az 1979-es újraindulással elkezdődik a negyedik korszak, mely próbálja behozni a 70-es években kiesett tapasztalatok hiányát. Ez időszaktól kezdve Európa-szerte fellendülés tapasztalható a nyelvfeldolgozó rendszerek területén, melynek hatására Magyarországon is elkezdték fejleszteni az Ml-nyelvet, és létrejött egy magyar morfológiai elemző alkalmazás is. A 90-es években óriási fejlődés indult meg a személyi számítógépes szoftverek megjelenésével. Az előrelépés egyik állomása a magyar nyelv sajátosságainak megfelelő helyesírás-ellenőrző megjelenése, melynek során algoritmussal írták le szavak összetételét, tehát a szótő és a toldalékok kapcsolódását. A készítő Morphologic cég napjainkra a magyar számítógépes nyelvészet egyik legmeghatározóbb alakjává vált, amikor a Microsoft megvásárolta programjukat. Munkájuk újabb eredményei már a szövegkörnyezetet is vizsgálja, mely kiszűri az irrelevánsnak tűnő értelmezéseket. (Prószéki Gábor, 1989. p. 489-492.) Napjainkra egyre több magyarországi intézmény válik világszerte ismertté számítógépes nyelvészeti munkájával. Az MTA Szegedi Egyetem Mesterséges Intelligencia Kutatólaboratóriumában készült ILP, azaz az Inductive Logic Programming az egész világban kísérleti nyelvészeti alkalmazások egész sorát vonultatta fel. A fenti eredmények lehetővé teszik a szavak szótövének megkeresését a magyar nyelv esetén is. Viszont ezeket az eredményeket eddig nem alkalmazták a könyvtárinformatika területén. A szótő megállapításának problémája után a gyakorisági vizsgálatok elvégzéséhez a szavak megszámlálása szükséges, mely egyszerű programozási utasításokkal megoldható. A gyakorisági vizsgálatok, illetve a kivonatolás elvégzéséhez meg kell határozni a szignifikáns kifejezéseket. Zipf törvénye szerint a szignifikáns kifejezések a gyakorisági lista adott tartományátjelentik, ami szakterületenként változik, de minden egyes tudományágban igaz, hogy nem a lista eleje és nem is a vége. A szignifikáns szavak listáját megkapjuk, ha a gyakoriság eloszlási függvényére rávetítjük a tudományterületre jellemző tapasztalati úton meghatározott Gauss-görbét. (Horváth Tibor-Papp István, 1999. p. 56.). Magyar szövegeket tekintve kevés tudományágnak létezik gyakorisági szótára, mely alapján a Gauss-görbe felállítható lenne. Jelenleg a Magyar Tudományos Akadémia foglalkozik szógyakorisági szótárak összeállításával. Ha számítógéppel szeretnénk meghatározni a releváns helyekhez vezető kifejezéseket, akkor mindenképpen figyelembe kell venni azt, hogy vannak-e a szövegben olyan szópárok, illetve szóhármasok melyek többször fordulnak elő. Ez az elgondolás Luhn-tól ered, aki 195 l-ben jelentette meg elképzelését. A szomszédos szavakat, illetve szóhármasokat, a triviális szavak elhagyása után kell vizsgálni, majd egy súlyozás bevezetésével jutunk el a releváns szövegrészekhez. Ennek módja, hogy a két- vagy többtagú nem triviális szóelőfordulások magasabb súlyt kapnak, mint azok egyszeres előfordulásai. A súlyok megalkotása után dönteni kell arról, hogy milyen egységeket akarunk visszakapni releváns helyként: mondatot vagy bekezdést. Ezután történik az automatizálás: hozzárendelünk egy számértéket a választott egység135

Thumbnails

Contents