Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 97 melyek időközben elavultak. A tőtárhoz több mint 5000 új lemmát adtunk hozzá, a toldaléktárba 50 új toldalék került be (nem számítva az allomorfokat). Ezen kívül a morfológiai elemző nyelvtanát kb. 20%-ban kellett módosítani, illetve kiegészíteni, hogy az elemző képes legyen a mai magyar köznyelvben már nem létező morfológiai konstrukciók kezelésére. Jóllehet a toldalékok egy része nem tűnt el a nyelvből, de elvesztette produktivitását. Bár az ezeket a morfémákat tartalmazó szavak továbbra is részei a magyar szókincsnek, általában lexikalizált elemek a szótárban, gyakran az eredetihez képest módosult jelentéssel. Ugyan ezek a lexikalizált alakok jelen voltak a mai magyar köznyelv elemzésére szolgáló morfológiai elemző lexikonában, ezeket a toldalékokat produktív elemekként fel kellett vennünk a morfológiai elemző történeti szövegek annotálására szánt változatába. Az egyik tényező, amely megnehezítette az eredeti morfológiai modellünk adaptálását, az volt, hogy nem állnak rendelkezésre megbízható leírások a paradigmák változásáról. így magukból a szövegekből kellett kinyernünk az arra vonatkozó adatokat, hogy melyik toldalékallomorfok melyik tőallomorfokkal kapcsolódhattak össze. Bizonyos morfológiai (pl. bizonyos igenévi) konstrukciókkal kapcsolatban, amelyek már az ómagyar kor végére kihaltak a nyelvből, nagyon kevés adatot találtunk a forrásokban, és gyakran ezeknek a ritka részparadigmáknak olyan elemei is vannak, amelyekre más elemzés is adható. Emiatt sokszor nem volt nyilvánvaló az, hogy hiányzik a megfelelő elemzés. Mint a 3.3.1. részben említettük, számos olyan toldalékot kellett felvenni, amelyeket inherensen többértelmű alakok elemzésénél használunk. Ezekben az esetekben az adott toldalékhoz tartozó címkében szereplő kérdőjel jelzi azt, hogy az adott szóalak többértelmű annak a grammatikai jegynek a szempontjából, amelyet a címke jelöl, például: mondtam {mond[V.Past.Sl.Def?]}, monda '{mond[V.Ipf.S3 .Def?]}, kézivel {kéz[N.PxS3 .Pl?=i.Ins]}. A morfológiai elemző fejlesztése során a legidőigényesebb feladat a tőtár bővítése volt. Amellett, hogy új lemmákat kellett felvenni, számos olyan lexikai tétel lexikonbeli reprezentációját is módosítani kellett, amelyek a mai magyar elemző tőtárában is szerepelnek. Az okok sokfélék voltak, némelyik tő a mai magyarban más szófajú, mint a történeti szövegekben, vagy bizonyos szintaktikai szerkezetekben másképp kell őket elemezni, mint a mai magyarban. Ezen kívül jóval magasabb volt a névmások száma a vizsgált időszakban, mint ma (pl. tekegyelmed, tinagyságtok, tefelséged, egyetmásaik, ugyanőkegyelmük stb.). E- zeknek a sok elemből álló és meglehetősen szabálytalan névmási paradigmáknak a leírása komoly kihívást jelentett, különös tekintettel arra, hogy a paradigmák számos eleme meglehetősen alulreprezentált volt a korpuszban. Néhány olyan fejlesztést, amelyet a történeti szövegek annotálására irányuló projekt során végeztünk az elemzőn, a mai magyar szövegek elemzésére szolgáló elemzőváltozatba is érdemesnek láttunk átemelni. Ilyen módosítás volt példá-