Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 107 magyar nyelvtörténeti korpusz egyik alapvető előfeltétele éppen az lenne, hogy legyen egy szintaktikailag annotált korpusz a mai magyarról, amely általánosan elfogadott annotálási elvekre épít - csak ezután lehetne ezeket az elveket kiterjeszteni, illetve módosítani úgy, hogy a nehezebben értelmezhető történeti szövegekre is alkalmazhatók legyenek. Ugyanakkor a magyar nyelv gazdag morfológiájának köszönhetően már a morfológiai annotáció megléte is lehetővé teszi sokféle szintaktikai jelenség vizsgálatát. Egy megfelelően összeállított keresőkérdés pusztán a morfoszintaktikai jegyek alapján is eredményezhet olyan találati listát, amely döntő többségében releváns találatokat tartalmaz egy adott szintaktikai probléma vizsgálathoz. 8. Összegzés Elvileg a korpuszépítés folyamata lezártnak tekinthető, ha az automatikus elemző kimenetének kézi egyértelműsítése elkészül, és a korpuszhoz illeszkedő keresőfelület hiba nélkül működik. A gyakorlatban azonban mindig van még lehetőség a fejlesztésre. Magától értetődő, hogy a korpusz bővítésének tulajdonképpen nincs határa. így azonban az újabb és újabb szövegek feldolgozása során újabb és újabb olyan esetekkel találkozunk, amelyek a normalizálás szempontjából problémát okoznak, és így mind a normalizálási útmutató, mind pedig az automatikus normalizálásban szerepet játszó eszközök folyamatosan bővülnek, illetve időnként módosulnak is. Az utóbbi esetben pedig a korábban, más elvek szerint normalizált szövegek elemzését is frissíteni kell, hogy a végeredmény egységes legyen. További célunk, amelyen jelenleg is folyik a munka, hogy a korpusz keresőfelülete lehetővé tegye a szövegekhez társított metaadatok szerinti keresést is, amelyek a szociolingvisztikai és dialektológiai vizsgálatokat teszik könynyebbé. Ha pedig az adatok nemcsak nyelvészeti, hanem a standard szociolingvisztikai faktorok szerint is kereshetők és osztályozhatók lesznek, akkor ez lehetővé teszi majd a változószabály-elemzést, azaz annak feltárását, hogy egy nyelvi változó változatai közötti választást milyen faktorok és faktorcsoportok határoznak meg. Terveink között szerepel az is, hogy egy későbbi írásunkban olyan konkrét kutatási kérdéseket mutatunk be, amelyek a TMK segítségével vizsgálhatók, s ebben további segédlet is szerepel majd a keresőfelület használatához. Összegzésképpen elmondható, hogy a projekt két kulcsfogalmának a rugalmasság és a dokumentáció bizonyult. Elengedhetetlen volt, hogy megtaláljuk az arany középutat a filológiai, leíró és diakrón adekvátság, valamint azon lehetőségeink között, amelyek a morfológiailag annotált korpusz létrehozásához rendelkezésünkre álltak az eszközöket és adatreprezentációs módokat illetően. A történeti nyelvészek (akik a normalizálást, ellenőrzést és kézi egyértelműsítést végezték) és a számítógépes nyelvész (aki a morfológiai elemzésért és a keresőfelület fejlesztéséért volt felelős) közötti kooperáció mindkét féltől igényelt némi alkalmazkodóképes