Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
86 Dömötör et al. 1. Bevezetés A tanulmányunkban bemutatandó munkálat legfontosabb célja az volt, hogy olyan elektronikus korpuszt hozzunk létre, amely segítséget nyújt az ó- és középmagyar kori informális nyelvhasználat kutatásához. A korpusz forrásául bírósági jegyzőkönyvek tanúvallomásai és magánlevelek szolgáltak, mivel ezekről a szövegtípusokról tételezhető fel, hogy leginkább megközelítik az élőszóbeli nyelvhasználatot. Annak érdekében, hogy lehetővé tegyük a grammatikailag strukturált lekérdezést, az anyagot morfológiai elemzéssel láttuk el. Ennek megvalósításához a Humor elnevezésű - a mai magyar standardra kidolgozott - morfológiai elemzőt használtuk (Novák 2003; Prószéky - Novák 2005), amelyet tovább kellett fejleszteni, hogy az ó- és középmagyar korban élő, de ma már nem használatos szótöveket és morfológiai szerkezeteket is kezelni tudja. Más (elsősorban konfigurációs) nyelvek történeti korpuszai szintaktikai annotációt is tartalmaznak, mi azonban bizonyos megfontolások alapján nem léptünk túl a morfoszintaktika szintjén. (Az okokról a 7. alfejezetben lesz szó.) A magyar nyelv gazdag alaktani rendszere ugyanakkor lehetővé teszi, hogy a morfológiai elemzések alapján számos szintaktikai jelenségre is rá lehessen keresni. A korpuszépítés során először a szövegeket karakterfelismerő (OCR) technikával és kézi utóellenőrzéssel digitalizáltuk, majd tagmondatokra bontás után normalizáltuk, vagyis a mai standardhoz közeli változatra írtuk át őket. Ezután a morfológiai elemző segítségével annotáltuk a szövegeket, és az elemzéseket egyértelműsítettük, ami részben automatizált, részben kézzel végzett folyamat. (Az egyes munkafázisokat részletesebben 1. lentebb.) Végül az elemzéseket kézzel ellenőriztük és javítottuk. Munkánk eredményeképpen a korpusz tartalmazza az eredeti szövegeket, normalizált változataikat és morfológiai elemzésüket. Tanulmányunk szeretné bemutatni a korpuszépítési munkának mind a nyelvtörténeti-szociolingvisztikai, mind a számítógépes nyelvészeti vonatkozásait. Az alábbiakban először a korpusz anyagáról szólunk, majd leírjuk a szegmentálás és a normalizálás folyamatát a munka során felmerült nehézségekkel együtt. Ezek után azzal foglalkozunk, hogyan adaptáltuk szövegeinkre a morfológiai elemzőt, illetve itt milyen problémákba ütköztünk. Bemutatjuk továbbá az automatikus és a kézi egyértelműsítő eljárásokat, valamint a korpuszkezelőt, amelynek segítségével az elemzett korpusz kereshető és javítható. A korpusz anyagát, célját, felhasználási lehetőségeit, valamint a munkálatok közül elsősorban a normalizálást és a kézi egyértelműsítést korábban több tanulmány is az itteninél részletesebben tárgyalta (vö. Dömötör 2009-2011, 2011, 2014 stb.). A Történeti magánélet korpusz (TMK) a http://tmk.nytud.hu/ linken szabadon hozzáférhető.