Az Eszterházy Károly Tanárképző Főiskola Tudományos Közleményei. 2003. Oktatástechnológia. (Acta Academiae Paedagogicae Agriensis : Nova series ; Tom. 26)

LENGYELNÉ MOLNÁR TÜNDE: Hatékonyságnövelés a könyvtárakban szóstatisztikai eljárások alkalmazásával

indikatív (tárgyra utaló) közlésnek. Az indikatív közlés előállítása automatizálható, hisz nincs szükség olyan szakemberre, aki az elhangzott, vagy elolvasott anyagot értelmezi és kiemeli annak lényeges elemeit mindenki számára érthető megfogalmazásban, „csupán" a legnagyobb hangsúlyt kapott elemeket megismétli, kivonatolja. (A két típus nagyon gyakran kombinált formában jelenik meg.) A lenti osztályozás a kivonat tartalmi megközelítése szerint történt. Ha a nyelv és a logika oldaláról közelítjük meg a kivonat fogalmát, akkor a fent leírt módszereket összefoglaló (summa) és kiválasztó kivonatnak (excerptum) nevezzük. Az összefoglaló kivonat esetén a kivonat készítője a számára fontosnak, hasznosnak tünő részeket saját megfogalmazásában ismerteti, míg a kiválasztó kivonat esetén a közlemény szövegrészei, vagy annak egységei változatlan formában történő leírásából áll össze a kivonat anyaga. (Szafai, 1963. p. 9-15.) Statisztikai módszerek Több statisztikai módszer létezik, melyek között vannak olyanok, amelyeket csak speciális célú elemzések során használunk, és vannak olyanok, amelyek a kivonatolás során elhagyhatatlanok. Ilyen a gyakoriság vizsgálat. A kivonatkészítés automatizálásának első lépése, hogy a benne lévő szavakat önálló egységnek tekintve összeszámoljuk előfordulásaikat. Majd a gyakoriságok szerint rendezzük a kapott adathalmaz, és ez alapján megkapjuk a szöveg statisztikai szótükrét. Gyakoriság vizsgálatok Zipf volt az első, aki a szöveg szavainak és szerkezeteinek eloszlásában szabályszerűséget fedezett fel. A vizsgálatokat Joyce Ulysses című regényén végezte és kimutatta, „a regény szavait előfordulási számuk szerint rendezve a kommulatív előfordulásszámok és a bennfoglaló gyakori ságértékek szorzata állandó." (Horváth Tibor-Papp István, 1999. 107. p.) Ahhoz, hogy gyakoriságvizsgálatokat végezhessünk, a szövegben előforduló szavaknak meg kell keresni a szótövét - ezt típusnak nevezzük és ezen szavak különböző megjelenési formáit, előfordulásait - amit jelnek hívunk - fogjuk összesíteni. Az előfordulást gyakoriságuk sorrendjébe rendezzük. A szótőkeresés elég hosszadalmas és fárasztó munka, ezért ez az a fázis, ahol igyekezni kell a számítógépet bevonni a munkába. Viszont a magyar nyelv esetén ez a legnehezebben megoldható feladat. A számítógépes nyelvészet jelentheti az egyetlen megoldást. Magyarországon a számítógépes nyelvészet fejlődése 1960-ban kezdődött a gépi fordítás korszakával. Ezt az időszakot az orosz-magyar gépi fordítási algoritmus alapjainak kidolgozása jellemezte. A második korszakot (1967-1971) a dokumentációs nyelvészeti csoport munkája alkotja, melynek során kidolgoztak egy saját fejlesztésű, szintaktikai elemző eljárást. A harmadik lexikológiai korszak (1972-1978) eredményei az irodalmár-filológus kutatók igényeinek kielégítésére jöttek létre. Ebben az időszakban kezdődött el a nyelvoktatásban használatható szoftverek fejlesztése, illetve a kvantitatív elemzéseken alapuló gyakorisági szótárak létrehozása a magyar köz- és irodalmi nyelv területén. Ezek az eredmények viszont 134

Thumbnails

Contents