Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
90 Dömötör etal. tűk egy web alapú interfész segítségével (erről majd az 5.1. részben lesz szó), valamint az erre a célra létrehozott felületen végrehajtott lekérdezésekkel (1. a 6. részben). 3. A szöveg előkészítése 3.1. Digitalizálás A magánéleti regiszter forrásául szolgáló szövegek eredetileg kéziratosak, a korpuszépítéshez azonban nyomtatásban megjelent kiadásaikat használtuk fel. (Digitális kiadásaik nem voltak.) Első lépésként beszkenneltük a szövegeket, majd a FineReader nevű karakterfelismerő (OCR) program segítségével konvertáltuk őket. A szokatlan karakterek és diakritikus jelek nagy száma miatt a feladat nem volt mindig egyszerű. 3.2. Szegmentálás A digitalizálást követően a szövegeket manuálisan tagmondatokra bontottuk. A tagmondathatárok azonosítása ugyanis a grammatikai fogódzók miatt kevésbé tekinthető problematikusnak (elsősorban az állítmányokra és vonzataikra, bővítményeikre gondolva), mint a mondathatároké. A mondatokra tagolás ebben az esetben sokkal szubjektivebb, önkényesebb lett volna, mivel az eredeti dokumentumokban - a korszaknak megfelelően - mind a nagybetűhasználat, mind a központozás következetlen vagy akár teljesen hiányos, a modernizált közlésekben pedig vitatható módon rekonstruált. A normalizált változatban a mondatokra bontás pusztán technikai célokat szolgált, ez ugyanis a korpuszban használt kereső szövegtagolási alapegysége. A normalizált sorban jelölést kaptak még az adott tagmondatba ékelődő további tagmondatok, illetőleg a mondatátszövődés különböző esetei. A mai helyesírás szerint történő normalizálás azzal is jár, hogy az eredeti sor és a normalizált verzió szószáma eltérhet. Az ilyen eseteket szintén speciális jelöléssel láttuk el annak érdekében, hogy az eredeti és a normalizált verzió szóalakjai pontosan megfeleltethetők legyenek egymásnak, ennek pedig előfeltétele, hogy az eredeti tagmondat és annak normalizált verziója azonos számú szót tartalmazzon. A balra dőlő törtvonal (\) olyan szóalak mögött áll az eredeti sorban, amely a mai magyarban egybe lenne írva a rá következő szóalakkal, és a fordított esetre is (azaz amikor az eredeti szövegben olyan szavak vannak egybeírva, amelyek a mai magyarban külön lennének) megvan a hasonló eljárásmód (a két szó közé tett @ jellel). Speciális jelölést kapott továbbá, ha az adott szövegrészlet töredékes ({\...}), nem magyarul van (pl. {\!lat!29. Septembris 698.}; ha törölt (pl. Vörös {\uy} Vyz) vagy később beszúrt (pl. Chris {%t}ina) szövegrészt tartalmazott, illetve ha többféle értelmezés volt lehetséges (1. lentebb). A norma-