Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 93 lemzést választottuk (az eredeti szövegváltozatban azonban megmutatkozik a ket­tős értelmezés, hasonló problémákról más korpuszokban 1. Bennet et al. 2010). Egy másik olyan eset, ahol a kétértelműséget a normalizálás elfedi, a határo­zott névelő vs. mutató névmás használatának egyes eseteihez köthető. A kor­szakban az az házat egyaránt értelmezhető volt ’a házat’ és ’azt a házat’ jelentés­ben, azonban ha a normalizált változatban az utóbbi olvasatot próbálnánk közve­títeni, az átírásba olyan elem is került volna, amely az eredetiből hiányzik, ez pe­dig sértené a morfémahűség elvét. Az ilyen esetekben tehát mindig határozott névelőként normalizáltuk és elemeztük a kétértelmű formát (noha az eredeti sor­ban látszik, hogy másfajta értelmezés is lehetséges). B) Kettősségek jelölése speciális eljárásokkal. - A kétértelműségek egy másik tí­pusa speciális eljárást igényelt mind a normalizálás, mind a morfológiai annotá­­lás során. Ezekben az esetekben az adott normalizálási eljárás egy azt kiegészítő annotálási eljárással kapcsolódott össze (helyenként ez megkövetelte a morfoló­giai elemző címkekészletének kibővítését is, ezekről az esetekről a következő pontban esik majd szó). Az inesszívuszi -bAn és az illatívuszi -bA disztribúciója például a korpuszban (és a korpuszon belül az egyes forrásokban) eltér a mai írá­sos normától. Azokban az esetekben, amelyekben a szövegbeli használat külön­bözik a mai írott normától, megtartottuk a szövegben szereplő alakot, de aposzt­róffal jelöltük az eltérést a mai standardtól (pl. házba’n, ha az eredeti szövegben olyan szövegkörnyezetben fordult elő a lokatívuszi alak, melyben a kontextus il­latívuszi használatot valószínűsítene, és házba’, ha a kontextus alapján a lokatí­vuszi alak lenne a várható, de a szövegben a latívuszi alak szerepel). A morfoló­giai elemző a jelölést érzékelve a kontextusnak megfelelő módon annotálja az a­­dott alakot (azaz az illatívuszt igénylő környezetben illatívuszként, a lokatívuszt igénylő környezetben lokatívuszként). Ennek az eljárásnak az az előnye, hogy így ezek az alakok a formára és a funkcióra történő együttes keresés alapján könnyen listáztathatók. A feloldhatatlan kétértelműség egy további példája a magánhangzók hosszú­ságának, illetve minőségének nem konzisztens jelöléséből következik. Mivel az ékezetek kitétele esetleges a szövegekben, az elbeszélő múlt egyes szám harma­dik személyében a határozatlan és határozott ragozás gyakran nem különböztet­hető meg, így például az egyik leggyakoribb ige, a monda esetében sem. Közis­mert, hogy a korábbi századokban a mai magyar standardtól eltérő volt a kétféle igeragozás használatának szabályrendszere, így aztán fel sem merülhetett, hogy a mai magyaron alapuló intuíció alapján normalizáljuk ezeket az alakokat. Ezek­ben az esetekben repülő ékezetet használtunk (monda *) a normalizálás során, és az elemző az ilyen alakokat a tárgy határozottsága szempontjából kétértelműnek tekinti. Az E/l befejezett múlt idejű alak (mondtam) és a T/2 elbeszélő múlt ide­jű alak (mondátok) szintén kétértelmű a tárgy határozottságának jelölése szem-

Next

/
Thumbnails
Contents