Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 89 ennek szociolingvisztikai jelentősége jóval kisebb, mivel a záradékokban olvas­ható lokalizáció általában nem jelent nyelvjárási kötődést, hiszen nagyon sok­szor a levélíró átmeneti tartózkodási helyét nevezi csak meg. Történeti források esetében a korpuszépítőnek le kell mondania arról, hogy a szociolingvisztikai változók tekintetében kiegyensúlyozott és reprezentatív anya­got hozzon létre - ahogy ezt már korábban mások is megfogalmazták: „Elmúlt korokra vonatkoztatva szinte lehetetlen pontosan meghatározni a teljes megcél­zott nyelvhasználó csoportot, ami pedig alapvető fontosságú a reprezentativitás szempontjából (...) annak érdekében, hogy statisztikailag érvényes adatokat kap­junk. A fennmaradt szövegek - nyelven kívüli véletlenek következtében - a tel­jes népességnek csak kis, random részéhez köthetők. így egy történeti korpusz megközelítőleg sem tudja megragadni a teljes nyelvi változatosságot.” (Claridge 2008: 247; cf. Meyer 2002: 37). Végül is minden korpusz kompromisszum az i­­deális és a lehetséges között (Hunston 2008: 156). A Történeti magánéleti korpusz terjedelme jelenleg mintegy 5,9 millió karak­ter (850 ezer szövegszó) az idegen nyelvű részeket nem számítva.5 Az anyag 49,5%-a bírósági jegyzőkönyvekből, 50,5%-a levelekből származik. A korpusz folyamatosan tovább bővül, elsősorban a tanulmány elején megadott OTKA-pro­­jektek keretében. 2.4. Az annotálás A tanulmányunk tárgyát képező korpusz az első teljes egészében morfológiailag elemzett magyar nyelvű nyelvtörténeti adatbázis.6 Az annotálás folyamatát (digi­talizálás, tagmondatokra bontás, normalizálás, morfológiai elemzés, egyértelmű­sítés) a következő három részfejezetben mutatjuk be. Az automatikusan előállí­tott morfológiai elemzést - beleértve a lemmatizációt, a morfoszintaktikai jel­lemzők elemzését és az elemek részekre bontását - kézzel ellenőriztük és javítot-5 Bár a korpuszok teijedelmét általában szövegszóban (token) szokás meghatározni, cél­szerűnek tartjuk karakterszámban is megadni, hiszen ez utóbbi segítségével jobban ösz­­szehasonlítható az egyes nyelvek korpuszainak mérete. A tokenszámot ugyanis nagy­ban meghatározza az adott nyelv típusa. Ezen kívül bizonyos korpuszokban a közpon­tozási jelek is önálló tokennek számítanak. A Történeti magánéleti korpuszban a token­­szám a normalizált szövegváltozat elemzett szövegszavainak mennyiségét jelöli. Ez né­mileg különbözik az eredeti szövegváltozat szószámától; részben az egybeírás-különí­­rás különbségei miatt, részben pedig azért, mert a normalizált szövegváltozatból kima­radnak az idegen nyelvű (zömmel latin) részletek. 6 Szerepelnek elemzett szövegek a fentebb említett Magyar generatív történeti szintaxis keretében készült korpuszban is (http://omagyarkorpusz.nytud.hu/hu-intro.html). A nyilvánosan elérhető adatok szerint (http://omagyarkorpusz.nytud.hu/hu-texts.html) 2.003.082 tóként tartalmaz, ennek 3,5%-a van elemezve (71.022 token). A TMK jelen­leg 850. 000 token terjedelmű anyagának egésze elemezve van.

Next

/
Oldalképek
Tartalom