Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

90 Dömötör etal. tűk egy web alapú interfész segítségével (erről majd az 5.1. részben lesz szó), valamint az erre a célra létrehozott felületen végrehajtott lekérdezésekkel (1. a 6. részben). 3. A szöveg előkészítése 3.1. Digitalizálás A magánéleti regiszter forrásául szolgáló szövegek eredetileg kéziratosak, a kor­puszépítéshez azonban nyomtatásban megjelent kiadásaikat használtuk fel. (Di­gitális kiadásaik nem voltak.) Első lépésként beszkenneltük a szövegeket, majd a FineReader nevű karakterfelismerő (OCR) program segítségével konvertáltuk ő­­ket. A szokatlan karakterek és diakritikus jelek nagy száma miatt a feladat nem volt mindig egyszerű. 3.2. Szegmentálás A digitalizálást követően a szövegeket manuálisan tagmondatokra bontottuk. A tagmondathatárok azonosítása ugyanis a grammatikai fogódzók miatt kevésbé tekinthető problematikusnak (elsősorban az állítmányokra és vonzataikra, bővít­ményeikre gondolva), mint a mondathatároké. A mondatokra tagolás ebben az e­­setben sokkal szubjektivebb, önkényesebb lett volna, mivel az eredeti dokumen­tumokban - a korszaknak megfelelően - mind a nagybetűhasználat, mind a köz­pontozás következetlen vagy akár teljesen hiányos, a modernizált közlésekben pedig vitatható módon rekonstruált. A normalizált változatban a mondatokra bontás pusztán technikai célokat szolgált, ez ugyanis a korpuszban használt kere­ső szövegtagolási alapegysége. A normalizált sorban jelölést kaptak még az a­­dott tagmondatba ékelődő további tagmondatok, illetőleg a mondatátszövődés különböző esetei. A mai helyesírás szerint történő normalizálás azzal is jár, hogy az eredeti sor és a normalizált verzió szószáma eltérhet. Az ilyen eseteket szintén speciális je­löléssel láttuk el annak érdekében, hogy az eredeti és a normalizált verzió szóa­lakjai pontosan megfeleltethetők legyenek egymásnak, ennek pedig előfeltétele, hogy az eredeti tagmondat és annak normalizált verziója azonos számú szót tar­talmazzon. A balra dőlő törtvonal (\) olyan szóalak mögött áll az eredeti sorban, amely a mai magyarban egybe lenne írva a rá következő szóalakkal, és a fordí­tott esetre is (azaz amikor az eredeti szövegben olyan szavak vannak egybeírva, amelyek a mai magyarban külön lennének) megvan a hasonló eljárásmód (a két szó közé tett @ jellel). Speciális jelölést kapott továbbá, ha az adott szövegrész­­let töredékes ({\...}), nem magyarul van (pl. {\!lat!29. Septembris 698.}; ha tö­rölt (pl. Vörös {\uy} Vyz) vagy később beszúrt (pl. Chris {%t}ina) szövegrészt tartalmazott, illetve ha többféle értelmezés volt lehetséges (1. lentebb). A norma-

Next

/
Oldalképek
Tartalom