Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 93 lemzést választottuk (az eredeti szövegváltozatban azonban megmutatkozik a kettős értelmezés, hasonló problémákról más korpuszokban 1. Bennet et al. 2010). Egy másik olyan eset, ahol a kétértelműséget a normalizálás elfedi, a határozott névelő vs. mutató névmás használatának egyes eseteihez köthető. A korszakban az az házat egyaránt értelmezhető volt ’a házat’ és ’azt a házat’ jelentésben, azonban ha a normalizált változatban az utóbbi olvasatot próbálnánk közvetíteni, az átírásba olyan elem is került volna, amely az eredetiből hiányzik, ez pedig sértené a morfémahűség elvét. Az ilyen esetekben tehát mindig határozott névelőként normalizáltuk és elemeztük a kétértelmű formát (noha az eredeti sorban látszik, hogy másfajta értelmezés is lehetséges). B) Kettősségek jelölése speciális eljárásokkal. - A kétértelműségek egy másik típusa speciális eljárást igényelt mind a normalizálás, mind a morfológiai annotálás során. Ezekben az esetekben az adott normalizálási eljárás egy azt kiegészítő annotálási eljárással kapcsolódott össze (helyenként ez megkövetelte a morfológiai elemző címkekészletének kibővítését is, ezekről az esetekről a következő pontban esik majd szó). Az inesszívuszi -bAn és az illatívuszi -bA disztribúciója például a korpuszban (és a korpuszon belül az egyes forrásokban) eltér a mai írásos normától. Azokban az esetekben, amelyekben a szövegbeli használat különbözik a mai írott normától, megtartottuk a szövegben szereplő alakot, de aposztróffal jelöltük az eltérést a mai standardtól (pl. házba’n, ha az eredeti szövegben olyan szövegkörnyezetben fordult elő a lokatívuszi alak, melyben a kontextus illatívuszi használatot valószínűsítene, és házba’, ha a kontextus alapján a lokatívuszi alak lenne a várható, de a szövegben a latívuszi alak szerepel). A morfológiai elemző a jelölést érzékelve a kontextusnak megfelelő módon annotálja az adott alakot (azaz az illatívuszt igénylő környezetben illatívuszként, a lokatívuszt igénylő környezetben lokatívuszként). Ennek az eljárásnak az az előnye, hogy így ezek az alakok a formára és a funkcióra történő együttes keresés alapján könnyen listáztathatók. A feloldhatatlan kétértelműség egy további példája a magánhangzók hosszúságának, illetve minőségének nem konzisztens jelöléséből következik. Mivel az ékezetek kitétele esetleges a szövegekben, az elbeszélő múlt egyes szám harmadik személyében a határozatlan és határozott ragozás gyakran nem különböztethető meg, így például az egyik leggyakoribb ige, a monda esetében sem. Közismert, hogy a korábbi századokban a mai magyar standardtól eltérő volt a kétféle igeragozás használatának szabályrendszere, így aztán fel sem merülhetett, hogy a mai magyaron alapuló intuíció alapján normalizáljuk ezeket az alakokat. Ezekben az esetekben repülő ékezetet használtunk (monda *) a normalizálás során, és az elemző az ilyen alakokat a tárgy határozottsága szempontjából kétértelműnek tekinti. Az E/l befejezett múlt idejű alak (mondtam) és a T/2 elbeszélő múlt idejű alak (mondátok) szintén kétértelmű a tárgy határozottságának jelölése szem-