Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 107 magyar nyelvtörténeti korpusz egyik alapvető előfeltétele éppen az lenne, hogy legyen egy szintaktikailag annotált korpusz a mai magyarról, amely általánosan elfogadott annotálási elvekre épít - csak ezután lehetne ezeket az elveket kiter­jeszteni, illetve módosítani úgy, hogy a nehezebben értelmezhető történeti szö­vegekre is alkalmazhatók legyenek. Ugyanakkor a magyar nyelv gazdag morfo­lógiájának köszönhetően már a morfológiai annotáció megléte is lehetővé teszi sokféle szintaktikai jelenség vizsgálatát. Egy megfelelően összeállított kereső­­kérdés pusztán a morfoszintaktikai jegyek alapján is eredményezhet olyan talála­ti listát, amely döntő többségében releváns találatokat tartalmaz egy adott szin­taktikai probléma vizsgálathoz. 8. Összegzés Elvileg a korpuszépítés folyamata lezártnak tekinthető, ha az automatikus elem­ző kimenetének kézi egyértelműsítése elkészül, és a korpuszhoz illeszkedő kere­sőfelület hiba nélkül működik. A gyakorlatban azonban mindig van még lehető­ség a fejlesztésre. Magától értetődő, hogy a korpusz bővítésének tulajdonképpen nincs határa. így azonban az újabb és újabb szövegek feldolgozása során újabb és újabb olyan esetekkel találkozunk, amelyek a normalizálás szempontjából problémát okoznak, és így mind a normalizálási útmutató, mind pedig az auto­matikus normalizálásban szerepet játszó eszközök folyamatosan bővülnek, illet­ve időnként módosulnak is. Az utóbbi esetben pedig a korábban, más elvek sze­rint normalizált szövegek elemzését is frissíteni kell, hogy a végeredmény egysé­ges legyen. További célunk, amelyen jelenleg is folyik a munka, hogy a korpusz keresőfelülete lehetővé tegye a szövegekhez társított metaadatok szerinti kere­sést is, amelyek a szociolingvisztikai és dialektológiai vizsgálatokat teszik köny­­nyebbé. Ha pedig az adatok nemcsak nyelvészeti, hanem a standard szocioling­visztikai faktorok szerint is kereshetők és osztályozhatók lesznek, akkor ez lehe­tővé teszi majd a változószabály-elemzést, azaz annak feltárását, hogy egy nyel­vi változó változatai közötti választást milyen faktorok és faktorcsoportok hatá­roznak meg. Terveink között szerepel az is, hogy egy későbbi írásunkban olyan konkrét kutatási kérdéseket mutatunk be, amelyek a TMK segítségével vizsgál­hatók, s ebben további segédlet is szerepel majd a keresőfelület használatához. Összegzésképpen elmondható, hogy a projekt két kulcsfogalmának a rugalmas­ság és a dokumentáció bizonyult. Elengedhetetlen volt, hogy megtaláljuk az arany középutat a filológiai, leíró és diakrón adekvátság, valamint azon lehetőségeink között, amelyek a morfológiailag annotált korpusz létrehozásához rendelkezésünk­re álltak az eszközöket és adatreprezentációs módokat illetően. A történeti nyelvé­szek (akik a normalizálást, ellenőrzést és kézi egyértelműsítést végezték) és a szá­mítógépes nyelvész (aki a morfológiai elemzésért és a keresőfelület fejlesztéséért volt felelős) közötti kooperáció mindkét féltől igényelt némi alkalmazkodóképes­

Next

/
Thumbnails
Contents