Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

86 Dömötör et al. 1. Bevezetés A tanulmányunkban bemutatandó munkálat legfontosabb célja az volt, hogy o­­lyan elektronikus korpuszt hozzunk létre, amely segítséget nyújt az ó- és közép­magyar kori informális nyelvhasználat kutatásához. A korpusz forrásául bírósági jegyzőkönyvek tanúvallomásai és magánlevelek szolgáltak, mivel ezekről a szö­vegtípusokról tételezhető fel, hogy leginkább megközelítik az élőszóbeli nyelv­­használatot. Annak érdekében, hogy lehetővé tegyük a grammatikailag struktu­rált lekérdezést, az anyagot morfológiai elemzéssel láttuk el. Ennek megvalósítá­sához a Humor elnevezésű - a mai magyar standardra kidolgozott - morfológiai elemzőt használtuk (Novák 2003; Prószéky - Novák 2005), amelyet tovább kel­lett fejleszteni, hogy az ó- és középmagyar korban élő, de ma már nem használa­tos szótöveket és morfológiai szerkezeteket is kezelni tudja. Más (elsősorban konfigurációs) nyelvek történeti korpuszai szintaktikai annotációt is tartalmaz­nak, mi azonban bizonyos megfontolások alapján nem léptünk túl a morfoszin­­taktika szintjén. (Az okokról a 7. alfejezetben lesz szó.) A magyar nyelv gazdag alaktani rendszere ugyanakkor lehetővé teszi, hogy a morfológiai elemzések a­­lapján számos szintaktikai jelenségre is rá lehessen keresni. A korpuszépítés során először a szövegeket karakterfelismerő (OCR) techniká­val és kézi utóellenőrzéssel digitalizáltuk, majd tagmondatokra bontás után norma­­lizáltuk, vagyis a mai standardhoz közeli változatra írtuk át őket. Ezután a morfo­lógiai elemző segítségével annotáltuk a szövegeket, és az elemzéseket egyértelmű­sítettük, ami részben automatizált, részben kézzel végzett folyamat. (Az egyes munkafázisokat részletesebben 1. lentebb.) Végül az elemzéseket kézzel ellenőriz­tük és javítottuk. Munkánk eredményeképpen a korpusz tartalmazza az eredeti szövegeket, normalizált változataikat és morfológiai elemzésüket. Tanulmányunk szeretné bemutatni a korpuszépítési munkának mind a nyelv­­történeti-szociolingvisztikai, mind a számítógépes nyelvészeti vonatkozásait. Az alábbiakban először a korpusz anyagáról szólunk, majd leírjuk a szegmentálás és a normalizálás folyamatát a munka során felmerült nehézségekkel együtt. Ezek után azzal foglalkozunk, hogyan adaptáltuk szövegeinkre a morfológiai elemzőt, illetve itt milyen problémákba ütköztünk. Bemutatjuk továbbá az automatikus és a kézi egyértelműsítő eljárásokat, valamint a korpuszkezelőt, amelynek segítségével az e­­lemzett korpusz kereshető és javítható. A korpusz anyagát, célját, felhasználási lehetőségeit, valamint a munkálatok közül elsősorban a normalizálást és a kézi egyértelműsítést korábban több tanul­mány is az itteninél részletesebben tárgyalta (vö. Dömötör 2009-2011, 2011, 2014 stb.). A Történeti magánélet korpusz (TMK) a http://tmk.nytud.hu/ linken szaba­don hozzáférhető.

Next

/
Thumbnails
Contents