Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 87 2. A korpuszépítés 2.1. Előmunkálatok Az adatok százainak vagy akár ezreinek összegyűjtése és rendezése korábban a nyelvtörténeti kutatás nem éppen magas presztízsű, de annál időigényesebb fázi­sa volt. Annak érdekében, hogy ezt a munkaszakaszt megkönnyítsük és lerövi­dítsük, 2008-ban elhatároztuk, hogy pályázatot adunk be ómagyar nyelvtörténeti adatbázis építésére. Alapvető célkitűzésünk volt, hogy az adatokat ne csak a sza­vak szintjén, hanem morfoszintaktikai kategóriáik szerint is lehessen keresni. Mindenek előtt azonban látni szerettük volna, hogy a körvonalazandó projekt e­­gyes munkafázisai mennyi időt és erőforrást igényelnek. Ezért afféle pilot-pro­­jektként kódexek rövid szakaszait kezdtük feldolgozni, építve a munkacsoport tagjainak korábbi tapasztalataira, amelyeket részben a TNyT. ómagyar fejezetein dolgozva, részben a kódexek szövegkiadásor szereztünk. Eleinte az összes munkafolyamatot manuálisan végeztük: a választott szöve­geket tagmondatokra és szavakra bontottuk, majd az egyes szavakhoz kézzel hozzárendeltük a morfológiai elemzéseket. Ám hamar beláttuk, hogy lényegesen célravezetőbb lenne, ha a szövegeknek elkészítenénk egy olyan átiratát, amelyet automatikus módszerekkel is elemezni lehet. így kapcsolódott be a munkálatba Novák Attila, aki a mai magyarra kifejlesztett elemzőprogramot átalakította úgy, hogy az ómagyar szövegek normalizált változatát is elemezni lehessen vele. Már az előmunkálatok során lefektettük a szövegek átiratának elkészítési elveit, és az első elemzett mutatványok (a Jókai-, a Müncheni, a Gyöngyösi kódex, a Margit­­legenda, a Comides-, a Keszthelyi és a Sándor-kódex egy-két lapnyi részlete) hosszú ideig elérhetők voltak a Nyelvtudományi Intézet honlapján (http://www.nytud.hu/oszt/fmnugor/mutatvany2.html). Hamarosan azonban egy párhuzamos pályázat, a Magyar generatív történeti szintaxis részeként megkez­dődött az ómagyar kori szövegek már elektronikus formában meglévő változata­inak összegyűjtése, illetve az ilyen változattal még nem rendelkező szövegek di­gitalizálása. Pályázatunkat így végül részben egy másik korszakra és eltérő re­giszterre terveztük meg. A munkát azonban az ómagyar szövegek feldolgozása során kikristályosodott szempontrendszerre támaszkodva kezdhettük meg, míg az ó- és középmagyar szövegek feldolgozására adaptált elemzőt a Magyar gene­ratív történeti szintaxis projektum keretében készült korpusz építése során is fel lehetett használni. 2.2. A források Az ómagyar korból fennmaradt szövegek túlnyomó többsége latinból fordított egyházi szöveg. Emiatt is kell különös figyelmet kapnia egy másik regiszternek: a nyelvtörténet szempontjából kiemelkedő fontosságú magánéleti nyelvhasználat­nak. Olyan korszakokból, amelyekből beszélt nyelvi adatok nem állnak rendelke-

Next

/
Thumbnails
Contents