Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
94 DÖMÖTÖR ET AL. pontjából, de ebben az esetben a kétértelműség oka nem a helyesírási norma hiánya, hanem a paradigma szinkretizmusa. Ugyanakkor a kézi elemzés során (1. alább) ezekhez a formákhoz sem rendelhet az annotátor a mai intuíciója alapján morfológiai elemzést, mert egyértelmű, hogy a vizsgált korban a kétféle ragozás között részben eltérő szabályok szerint választottak a nyelvhasználók. Ezek a formák azonban csak a morfológiai elemzés és a kézi egyértelműsítés során jelölhetők meg inherensen kétértelmű szóalakként, míg azokat az alakokat, melyek esetében a helyesírás következetlensége okozza a kétértelműséget, már a normalizálás során jelölni kell. Szintén a helyesírás következetlensége miatt egy betűsornak nemcsak két, hanem akár több értelmezése is lehetséges, így például a halla alak egyaránt lehet a halla (E/3 elbeszélő múlt alanyi ragozás), hallá (E/3 elbeszélő múlt határozott ragozás), és - a mássalhangzó-palatalizáció jelölésének következetlensége miatt — a hallja (E/3 felszólító mód határozott ragozás, vagy E/3 kijelentő mód határozott ragozás) írott formája. Mivel ez egy nem különösebben gyakori típus, amely egyrészt szóalakok egy szűk körére korlátozódik, másrészt pedig a többértelműség különféle jegykombinációkra vonatkozik, nem pedig csak egyetlen tulajdonságra, a fent bemutatott eljárás itt nem alkalmazható. Ezekben az esetekben a normalizáló kiválasztja a legvalószínűbbnek tartott értelmezést (bár ez maga is lehet egy kétértelmű forma, mint például a hallá), és ebben az esetben ez a választás már meghatározza, hogy a morfológiai elemző milyen címkét rendel az alakhoz. Ilyen esetekben a szóalak megcsillagozása hívja fel a korpusz használójának a figyelmét arra, hogy további értelmezések is lehetségesek. Az inherens kétértelműség egy másik példája a birtokos személyragozás egy nyelvtörténeti-nyelvjárási változatához köthető, amely nagyon gyakori a korpuszban, és elfedi az egyes és többes számú birtok közötti különbséget. A cselekedetitül forma például egyaránt jelentheti azt, hogy ’cselekedetétől’, és azt is, hogy ’cselekedeteitől’, és sok esetben még a kézi egyértelműsítés során, a kontextus figyelembe vételével sem dönthető el, hogy melyik a szándékolt olvasat. Ebben az esetben azt a megoldást választottuk, hogy az eldönthetetlen eseteket speciális formában, az -i változat használatával normalizáltuk, tehát a jelen esetben cselekedetitől-ként. Ezeket a speciális, nem-standard formákat az elemző felismeri, és az ezekhez társított speciális címkével látja el (bővebben 1. az alábbi szakaszt). Ebben a konkrét esetben a használt címke (PxS3.Pl?=i) egyaránt tükrözi, hogy az adott morfoszintaktikai jegy (azaz szám) szempontjából az alak kétértelmű (Pl?), és hogy a toldalék egy nem-standard, neutralizált formában jelenik meg. A szavak egy speciális csoportjánál (elsősorban határozószóknál és határozói névmásoknál) a mai standard alakra történő normalizálás nem feltétlenül járt volna szigorúan értelmezve a morfológiai szerkezet leegyszerűsítésével, de nyelvtörténeti szempontból mindenképpen értékes morfológiai információ vált