Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 87 2. A korpuszépítés 2.1. Előmunkálatok Az adatok százainak vagy akár ezreinek összegyűjtése és rendezése korábban a nyelvtörténeti kutatás nem éppen magas presztízsű, de annál időigényesebb fázisa volt. Annak érdekében, hogy ezt a munkaszakaszt megkönnyítsük és lerövidítsük, 2008-ban elhatároztuk, hogy pályázatot adunk be ómagyar nyelvtörténeti adatbázis építésére. Alapvető célkitűzésünk volt, hogy az adatokat ne csak a szavak szintjén, hanem morfoszintaktikai kategóriáik szerint is lehessen keresni. Mindenek előtt azonban látni szerettük volna, hogy a körvonalazandó projekt egyes munkafázisai mennyi időt és erőforrást igényelnek. Ezért afféle pilot-projektként kódexek rövid szakaszait kezdtük feldolgozni, építve a munkacsoport tagjainak korábbi tapasztalataira, amelyeket részben a TNyT. ómagyar fejezetein dolgozva, részben a kódexek szövegkiadásor szereztünk. Eleinte az összes munkafolyamatot manuálisan végeztük: a választott szövegeket tagmondatokra és szavakra bontottuk, majd az egyes szavakhoz kézzel hozzárendeltük a morfológiai elemzéseket. Ám hamar beláttuk, hogy lényegesen célravezetőbb lenne, ha a szövegeknek elkészítenénk egy olyan átiratát, amelyet automatikus módszerekkel is elemezni lehet. így kapcsolódott be a munkálatba Novák Attila, aki a mai magyarra kifejlesztett elemzőprogramot átalakította úgy, hogy az ómagyar szövegek normalizált változatát is elemezni lehessen vele. Már az előmunkálatok során lefektettük a szövegek átiratának elkészítési elveit, és az első elemzett mutatványok (a Jókai-, a Müncheni, a Gyöngyösi kódex, a Margitlegenda, a Comides-, a Keszthelyi és a Sándor-kódex egy-két lapnyi részlete) hosszú ideig elérhetők voltak a Nyelvtudományi Intézet honlapján (http://www.nytud.hu/oszt/fmnugor/mutatvany2.html). Hamarosan azonban egy párhuzamos pályázat, a Magyar generatív történeti szintaxis részeként megkezdődött az ómagyar kori szövegek már elektronikus formában meglévő változatainak összegyűjtése, illetve az ilyen változattal még nem rendelkező szövegek digitalizálása. Pályázatunkat így végül részben egy másik korszakra és eltérő regiszterre terveztük meg. A munkát azonban az ómagyar szövegek feldolgozása során kikristályosodott szempontrendszerre támaszkodva kezdhettük meg, míg az ó- és középmagyar szövegek feldolgozására adaptált elemzőt a Magyar generatív történeti szintaxis projektum keretében készült korpusz építése során is fel lehetett használni. 2.2. A források Az ómagyar korból fennmaradt szövegek túlnyomó többsége latinból fordított egyházi szöveg. Emiatt is kell különös figyelmet kapnia egy másik regiszternek: a nyelvtörténet szempontjából kiemelkedő fontosságú magánéleti nyelvhasználatnak. Olyan korszakokból, amelyekből beszélt nyelvi adatok nem állnak rendelke-