Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 89 ennek szociolingvisztikai jelentősége jóval kisebb, mivel a záradékokban olvasható lokalizáció általában nem jelent nyelvjárási kötődést, hiszen nagyon sokszor a levélíró átmeneti tartózkodási helyét nevezi csak meg. Történeti források esetében a korpuszépítőnek le kell mondania arról, hogy a szociolingvisztikai változók tekintetében kiegyensúlyozott és reprezentatív anyagot hozzon létre - ahogy ezt már korábban mások is megfogalmazták: „Elmúlt korokra vonatkoztatva szinte lehetetlen pontosan meghatározni a teljes megcélzott nyelvhasználó csoportot, ami pedig alapvető fontosságú a reprezentativitás szempontjából (...) annak érdekében, hogy statisztikailag érvényes adatokat kapjunk. A fennmaradt szövegek - nyelven kívüli véletlenek következtében - a teljes népességnek csak kis, random részéhez köthetők. így egy történeti korpusz megközelítőleg sem tudja megragadni a teljes nyelvi változatosságot.” (Claridge 2008: 247; cf. Meyer 2002: 37). Végül is minden korpusz kompromisszum az ideális és a lehetséges között (Hunston 2008: 156). A Történeti magánéleti korpusz terjedelme jelenleg mintegy 5,9 millió karakter (850 ezer szövegszó) az idegen nyelvű részeket nem számítva.5 Az anyag 49,5%-a bírósági jegyzőkönyvekből, 50,5%-a levelekből származik. A korpusz folyamatosan tovább bővül, elsősorban a tanulmány elején megadott OTKA-projektek keretében. 2.4. Az annotálás A tanulmányunk tárgyát képező korpusz az első teljes egészében morfológiailag elemzett magyar nyelvű nyelvtörténeti adatbázis.6 Az annotálás folyamatát (digitalizálás, tagmondatokra bontás, normalizálás, morfológiai elemzés, egyértelműsítés) a következő három részfejezetben mutatjuk be. Az automatikusan előállított morfológiai elemzést - beleértve a lemmatizációt, a morfoszintaktikai jellemzők elemzését és az elemek részekre bontását - kézzel ellenőriztük és javítot-5 Bár a korpuszok teijedelmét általában szövegszóban (token) szokás meghatározni, célszerűnek tartjuk karakterszámban is megadni, hiszen ez utóbbi segítségével jobban öszszehasonlítható az egyes nyelvek korpuszainak mérete. A tokenszámot ugyanis nagyban meghatározza az adott nyelv típusa. Ezen kívül bizonyos korpuszokban a központozási jelek is önálló tokennek számítanak. A Történeti magánéleti korpuszban a tokenszám a normalizált szövegváltozat elemzett szövegszavainak mennyiségét jelöli. Ez némileg különbözik az eredeti szövegváltozat szószámától; részben az egybeírás-különírás különbségei miatt, részben pedig azért, mert a normalizált szövegváltozatból kimaradnak az idegen nyelvű (zömmel latin) részletek. 6 Szerepelnek elemzett szövegek a fentebb említett Magyar generatív történeti szintaxis keretében készült korpuszban is (http://omagyarkorpusz.nytud.hu/hu-intro.html). A nyilvánosan elérhető adatok szerint (http://omagyarkorpusz.nytud.hu/hu-texts.html) 2.003.082 tóként tartalmaz, ennek 3,5%-a van elemezve (71.022 token). A TMK jelenleg 850. 000 token terjedelmű anyagának egésze elemezve van.