Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 91 lizált szövegeket programmal ellenőriztük, hogy kiszűrődjenek a téves megfeleltetések, és ezeket manuálisan javítottuk. 3.3. Normalizálás Történeti korpuszok leírásakor a normalizálás fontosságát számos szerző hangsúlyozza: olyan átiratokat hozunk létre a szövegekből, amelyek helyesírásukat és fonológiai jellemzőiket tekintve egységesek, egyrészt kibővítve a keresési lehetőségeket, másrészt előkészítve a morfológiai elemzés fázisát. A legnyilvánvalóbb megoldás erre a feladatra a mai helyesírásra való modernizálás lehet; így a szövegek kezelhetők az olyan morfológiai elemzőprogramokkal, amelyeket egy-egy nyelv modem standard verziójára fejlesztettek ki (1. például McEnery - Hardie 2010; Lüdeling - Kytö 2008; Bennet et al. 2010; Hendrix - Marquilhas 2011; Archer et al. 2015). Ez igen időigényes, ugyanakkor megkerülhetetlen feladat, így különféle szoftvereket fejlesztettek ki a folyamat megkönnyítésére, amelyekben manuálisan normalizált tanulókorpuszok segítségével azonosították az írásváltozatokat (Schneider 2002; Rayson et al. 2007; Baron et al. 2011; Archer et al. 2014, 2015; Lehto et al. 2010; Bollmann 2013). Az itt tárgyalt korpusz esetében azonban ezt a lehetőséget elvetettük. Egyrészt a forrásaink helyesírásukat és nyelvjárási hovatartozásukat tekintve igen sokfélék. Majdnem annyi különböző rendszer mutatkozik meg a szövegekben, mint ahány nyelvhasználó azonosítható, ha egyáltalán beszélhetünk egységes rendszerről ebben az időszakban (hasonló problémák merültek fel más hasonló típusú korpuszok építésénél, 1. például Hendrickx and Marquilhas 2011). Emellett az automatikus normalizálás elfedne számos lényeges morfológiai kétértelműséget, kettősséget (1. lentebb). Ráadásul több esetben nem volt magától értetődő, hogy az adott karaktersor morfémát tartalmaz, vagy pusztán ejtésbeli változat ( pl. sokon - sehon\ nem lesz belőle soha V. sehol). Mindezeket mérlegelve a manuális átírás mellett döntöttünk. A normalizálás fő elve minden egyes esetben az eredeti morfológiai szerkezet megőrzése volt. Csak akkor cseréltünk tehát le morfémákat, hogyha allomorfoknak tekinthetők, beleértve a nyelvjárási variációkat is. Ez ugyanakkor a gyakorlatban összetett problémává vált, mivel a forrásokra jellemző változatosságot éppúgy tekintetbe kellett venni, mint az éppen zajló nyelvi változásokat. Bizonyos kettősségek így is fennmaradtak, ezeket úgy kellett kezelni, hogy a normalizált változat elfogadható bemeneti forrás legyen a morfológiai elemző számára, mégis látsszon, hogy az adott formának több olvasata is lehetséges. Az alábbiakban egy-egy listát mutatunk be azokról a tipikus esetekről, ahol általános döntést kellett hoznunk: normalizáljuk-e az adott elemet, vagy sem: