Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
92 DÖMÖTÖR ET AL. Normalizáltuk: — pusztán helyesírásbeli változat: szöllő —> szőlő, szarnyajval —> szárnyaival, szállott —> szállt — pusztán nyelvjárási ejtésbeli változat: gyi/vás- —* jövés; files bagoly —*■ fülesbagoly, igenessen —* egyenesen — nevek: Ersok, Érsek —► Erzsók — latin kifejezések, amelyek a magyar szövegbe kerültek magyar toldalékkal: occurál —* okkurál Nem normalizáltuk: — történeti szempontból releváns morfológiai információt tartalmazó formák: oldalaglast —> oldalaglást — latin kifejezések, amelyek formailag nem integrálódtak a magyar szövegbe: alioquin comburentur — kétértelmű formák (éppen zajló változás és/vagy helyesírási kettősség miatt, 1. lentebb). Ezekkel az általánosabb döntésekkel az volt a célunk, hogy az elemző számára a lehető legalkalmasabb szövegváltozat jöjjön létre, azaz minél kevésbé töredékes mondatszerkezeteket kapjon bemenetként; minél több információt lát az elemző, illetve az automatikus egyértelműsítő program, annál pontosabb elemzést kínálhat. A nevek helyesírása például nagy változatosságot mutat, így ezeket is szükséges volt normalizálni (szemben például Hendrix - Marquilhas 2011 megoldásával, ahol a ’név’ címkét kapták elemzésként), hiszen gyakran toldalékolt formában fordultak elő, így rajtuk is végre kellett hajtani az automatikus morfológiai elemzést, kezdve az egységes alakú szótő azonosításával. A kódváltást szintén problémaérzékenyen kezeltük. A latin szótöveken is gyakran fordultak elő magyar toldalékok, s ez szükségessé tette az elemzést. Másfelől számos latin elemen nincs explicit magyar morfológiai jelölés, de ennek hiánya (alanyesetű főnevek, határozószók) nem feltétlenül jelent kódváltást. Ezeket tehát elemeztük, ugyanakkor a hosszabb idegen nyelvű szakaszok javítása és elemzése nem volt része a projektumnak. Ez utóbbiakat - a rövidebb, formailag a magyar szövegbe nem épülő kifejezésekhez hasonlóan - a normalizált sorban idegen nyelvűként jelöltük ({ } jelek közé téve), így annotálatlanul maradtak. Az alábbiakban részletesebben is foglalkozunk az eredeti szövegváltozatban levő két- és többértelműségek kezelésének módjaival. 3.3.1. Kétértelműségekkel kapcsolatos eljárások a normalizált sorban A) Kettősségek elfedése. - Bizonyos esetekben kénytelenek voltunk a normalizálás során elfedni, hogy az adott elemnek alapvetően többféle elemzése is lehetne. Azokon a szöveghelyeken, ahol a kérdéses elem egyaránt lehet igekötő és határozószó, ott - ige előtti helyzetben - következetesen az egybeírást és az igekötős e-