Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
98 DÖMÖTÖR ET AL. ul az az annotációs séma, amelyet lexikalizált toldalékolt vagy toldalék nélküli főnévi alakok időhatározóként való használatához dolgoztunk ki; például reggel, nappal. Ezeknek az alakoknak egy része jelzővel módosítható (fényes nappal). Ez utóbbi tény ezen szavak kettős természetére utal, amelyet úgy ragadtunk meg, hogy ezeket a szavakat főnevek speciálisan toldalékolt alakjaként annotáltuk ahelyett, hogy atomi határozószavakként vettük volna fel őket a lexikonba. Az eredeti Humor elemző morfológiai címkekészlete alapvetően magyar nyelvű kategóriacímke-rövidítésekből áll. Ezt a címkekészletet kiegészítettük, hogy az ó- és középmagyar morfológiai szerkezeteket is lefedje, és a címkéket a nemzetközi nyelvészközösség számára érthető címkékké alakítottuk. Ugyanakkor a rendszerben használt morfológiai címkék nem követnek pontosan semmilyen nemzetközi szabványt. A lipcsei címkerendszerben (Leipzig Glossing Rules, LGR) javasolt címkékkel bizonyos mértékű átfedést mutat az elemzőben használt címkekészlet, de az LGR csak töredékét fedi le azoknak a morfológiai jegyeknek, amelyeket mi is használunk (nem csak az ó- és középmagyar elemző, hanem a mai magyar elemző esetében is). Ezenkívül a mindkét annotációs sémában szereplő morfológiai jegyek tekintetében is van eltérés a két rendszerben használt rövidítések közt. 2016-ban készült egy LGR alapú teljes annotációs rendszer a mai magyar köznyelvhez (Novák et al. 2017). Terveink között szerepel, hogy a korpuszban szereplő annotációkat ehhez a sémához igazítjuk. 5. Egyértelműsítés A morfológiai elemző többértelmű annotációt generálhat (1. 2. ábra), ezeket egyértelműsíteni kell. A projektben a morfoszintaktikai annotáció egyértelműsítésére félig automatizált módszert alkalmaztunk (1. 5.2.): az automatikusan előegyértelműsített annotációt kézzel ellenőriztük és javítottuk. Ahogy a kézzel ellenőrzött anyag mennyisége nőtt, az automatikus egyértelműsítéshez használt statisztikai címkézőprogramot inkrementálisan (egyre nagyobb mennyiségű adatot felhasználva) folyamatosan újratanítottuk a korpuszon. A statisztikai egyértelműsítő program betanításához már meglévő annotált anyagra van szükség. Kezdetben ilyen nem állt rendelkezésre, ezért az elsőként feldolgozott korpuszrész egyértelműsítése teljesen manuálisan történt az 5.1. részben bemutatott kézi egyértelműsítő felület felhasználásával. A morfológiai elemzés eredményeként olyan annotáció jön létre, amelyben az adott tagmondatot már három sor reprezentálja: az eredeti szöveg és a normalizált változat mellett a morfológiai annotáció is megjelenik. A lemmát minden szónál szögletes zárójelben álló morfológiai címkék követik, ahogy a 2. ábrán látható.