Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 97 melyek időközben elavultak. A tőtárhoz több mint 5000 új lemmát adtunk hozzá, a toldaléktárba 50 új toldalék került be (nem számítva az allomorfokat). Ezen kí­vül a morfológiai elemző nyelvtanát kb. 20%-ban kellett módosítani, illetve kie­gészíteni, hogy az elemző képes legyen a mai magyar köznyelvben már nem lé­tező morfológiai konstrukciók kezelésére. Jóllehet a toldalékok egy része nem tűnt el a nyelvből, de elvesztette produk­tivitását. Bár az ezeket a morfémákat tartalmazó szavak továbbra is részei a ma­gyar szókincsnek, általában lexikalizált elemek a szótárban, gyakran az eredeti­hez képest módosult jelentéssel. Ugyan ezek a lexikalizált alakok jelen voltak a mai magyar köznyelv elemzésére szolgáló morfológiai elemző lexikonában, eze­ket a toldalékokat produktív elemekként fel kellett vennünk a morfológiai elem­ző történeti szövegek annotálására szánt változatába. Az egyik tényező, amely megnehezítette az eredeti morfológiai modellünk a­­daptálását, az volt, hogy nem állnak rendelkezésre megbízható leírások a paradig­mák változásáról. így magukból a szövegekből kellett kinyernünk az arra vonatko­zó adatokat, hogy melyik toldalékallomorfok melyik tőallomorfokkal kapcsolód­hattak össze. Bizonyos morfológiai (pl. bizonyos igenévi) konstrukciókkal kapcso­latban, amelyek már az ómagyar kor végére kihaltak a nyelvből, nagyon kevés a­­datot találtunk a forrásokban, és gyakran ezeknek a ritka részparadigmáknak olyan elemei is vannak, amelyekre más elemzés is adható. Emiatt sokszor nem volt nyil­vánvaló az, hogy hiányzik a megfelelő elemzés. Mint a 3.3.1. részben említettük, számos olyan toldalékot kellett felvenni, a­­melyeket inherensen többértelmű alakok elemzésénél használunk. Ezekben az e­­setekben az adott toldalékhoz tartozó címkében szereplő kérdőjel jelzi azt, hogy az adott szóalak többértelmű annak a grammatikai jegynek a szempontjából, a­­melyet a címke jelöl, például: mondtam {mond[V.Past.Sl.Def?]}, monda '{mond[V.Ipf.S3 .Def?]}, kézivel {kéz[N.PxS3 .Pl?=i.Ins]}. A morfológiai elemző fejlesztése során a legidőigényesebb feladat a tőtár bő­vítése volt. Amellett, hogy új lemmákat kellett felvenni, számos olyan lexikai té­tel lexikonbeli reprezentációját is módosítani kellett, amelyek a mai magyar e­­lemző tőtárában is szerepelnek. Az okok sokfélék voltak, némelyik tő a mai ma­gyarban más szófajú, mint a történeti szövegekben, vagy bizonyos szintaktikai szerkezetekben másképp kell őket elemezni, mint a mai magyarban. Ezen kívül jóval magasabb volt a névmások száma a vizsgált időszakban, mint ma (pl. tekegyelmed, tinagyságtok, tefelséged, egyetmásaik, ugyanőkegyelmük stb.). E- zeknek a sok elemből álló és meglehetősen szabálytalan névmási paradigmáknak a leírása komoly kihívást jelentett, különös tekintettel arra, hogy a paradigmák számos eleme meglehetősen alulreprezentált volt a korpuszban. Néhány olyan fejlesztést, amelyet a történeti szövegek annotálására irányuló projekt során végeztünk az elemzőn, a mai magyar szövegek elemzésére szolgá­ló elemzőváltozatba is érdemesnek láttunk átemelni. Ilyen módosítás volt példá-

Next

/
Oldalképek
Tartalom