Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

94 DÖMÖTÖR ET AL. pontjából, de ebben az esetben a kétértelműség oka nem a helyesírási norma hiá­nya, hanem a paradigma szinkretizmusa. Ugyanakkor a kézi elemzés során (1. a­­lább) ezekhez a formákhoz sem rendelhet az annotátor a mai intuíciója alapján morfológiai elemzést, mert egyértelmű, hogy a vizsgált korban a kétféle ragozás között részben eltérő szabályok szerint választottak a nyelvhasználók. Ezek a formák azonban csak a morfológiai elemzés és a kézi egyértelműsítés során je­lölhetők meg inherensen kétértelmű szóalakként, míg azokat az alakokat, melyek esetében a helyesírás következetlensége okozza a kétértelműséget, már a norma­lizálás során jelölni kell. Szintén a helyesírás következetlensége miatt egy betűsornak nemcsak két, ha­nem akár több értelmezése is lehetséges, így például a halla alak egyaránt lehet a halla (E/3 elbeszélő múlt alanyi ragozás), hallá (E/3 elbeszélő múlt határozott ragozás), és - a mássalhangzó-palatalizáció jelölésének következetlensége miatt — a hallja (E/3 felszólító mód határozott ragozás, vagy E/3 kijelentő mód határo­zott ragozás) írott formája. Mivel ez egy nem különösebben gyakori típus, amely egyrészt szóalakok egy szűk körére korlátozódik, másrészt pedig a többértelmű­ség különféle jegykombinációkra vonatkozik, nem pedig csak egyetlen tulajdon­ságra, a fent bemutatott eljárás itt nem alkalmazható. Ezekben az esetekben a normalizáló kiválasztja a legvalószínűbbnek tartott értelmezést (bár ez maga is lehet egy kétértelmű forma, mint például a hallá), és ebben az esetben ez a vá­lasztás már meghatározza, hogy a morfológiai elemző milyen címkét rendel az alakhoz. Ilyen esetekben a szóalak megcsillagozása hívja fel a korpusz használó­jának a figyelmét arra, hogy további értelmezések is lehetségesek. Az inherens kétértelműség egy másik példája a birtokos személyragozás egy nyelvtörténeti-nyelvjárási változatához köthető, amely nagyon gyakori a kor­puszban, és elfedi az egyes és többes számú birtok közötti különbséget. A cselekedetitül forma például egyaránt jelentheti azt, hogy ’cselekedetétől’, és azt is, hogy ’cselekedeteitől’, és sok esetben még a kézi egyértelműsítés során, a kontextus figyelembe vételével sem dönthető el, hogy melyik a szándékolt olva­sat. Ebben az esetben azt a megoldást választottuk, hogy az eldönthetetlen esete­ket speciális formában, az -i változat használatával normalizáltuk, tehát a jelen e­­setben cselekedetitől-ként. Ezeket a speciális, nem-standard formákat az elemző felismeri, és az ezekhez társított speciális címkével látja el (bővebben 1. az alábbi szakaszt). Ebben a konkrét esetben a használt címke (PxS3.Pl?=i) egyaránt tük­rözi, hogy az adott morfoszintaktikai jegy (azaz szám) szempontjából az alak kétértelmű (Pl?), és hogy a toldalék egy nem-standard, neutralizált formában je­lenik meg. A szavak egy speciális csoportjánál (elsősorban határozószóknál és határozói névmásoknál) a mai standard alakra történő normalizálás nem feltétlenül járt volna szigorúan értelmezve a morfológiai szerkezet leegyszerűsítésével, de nyelvtörténeti szempontból mindenképpen értékes morfológiai információ vált

Next

/
Thumbnails
Contents