Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

98 DÖMÖTÖR ET AL. ul az az annotációs séma, amelyet lexikalizált toldalékolt vagy toldalék nélküli főnévi alakok időhatározóként való használatához dolgoztunk ki; például reggel, nappal. Ezeknek az alakoknak egy része jelzővel módosítható (fényes nappal). Ez utóbbi tény ezen szavak kettős természetére utal, amelyet úgy ragadtunk meg, hogy ezeket a szavakat főnevek speciálisan toldalékolt alakjaként annotáltuk a­­helyett, hogy atomi határozószavakként vettük volna fel őket a lexikonba. Az eredeti Humor elemző morfológiai címkekészlete alapvetően magyar nyelvű kategóriacímke-rövidítésekből áll. Ezt a címkekészletet kiegészítettük, hogy az ó- és középmagyar morfológiai szerkezeteket is lefedje, és a címkéket a nemzetközi nyelvészközösség számára érthető címkékké alakítottuk. Ugyanak­kor a rendszerben használt morfológiai címkék nem követnek pontosan semmi­lyen nemzetközi szabványt. A lipcsei címkerendszerben (Leipzig Glossing Rules, LGR) javasolt címkékkel bizonyos mértékű átfedést mutat az elemzőben használt címkekészlet, de az LGR csak töredékét fedi le azoknak a morfológiai jegyeknek, amelyeket mi is használunk (nem csak az ó- és középmagyar elemző, hanem a mai magyar elemző esetében is). Ezenkívül a mindkét annotációs sémá­ban szereplő morfológiai jegyek tekintetében is van eltérés a két rendszerben használt rövidítések közt. 2016-ban készült egy LGR alapú teljes annotációs rendszer a mai magyar köznyelvhez (Novák et al. 2017). Terveink között szere­pel, hogy a korpuszban szereplő annotációkat ehhez a sémához igazítjuk. 5. Egyértelműsítés A morfológiai elemző többértelmű annotációt generálhat (1. 2. ábra), ezeket egy­­értelműsíteni kell. A projektben a morfoszintaktikai annotáció egyértelműsíté­sére félig automatizált módszert alkalmaztunk (1. 5.2.): az automatikusan előegy­­értelműsített annotációt kézzel ellenőriztük és javítottuk. Ahogy a kézzel ellen­őrzött anyag mennyisége nőtt, az automatikus egyértelműsítéshez használt sta­tisztikai címkézőprogramot inkrementálisan (egyre nagyobb mennyiségű adatot felhasználva) folyamatosan újratanítottuk a korpuszon. A statisztikai egyértel­­műsítő program betanításához már meglévő annotált anyagra van szükség. Kez­detben ilyen nem állt rendelkezésre, ezért az elsőként feldolgozott korpuszrész egyértelműsítése teljesen manuálisan történt az 5.1. részben bemutatott kézi egy­­értelműsítő felület felhasználásával. A morfológiai elemzés eredményeként o­­lyan annotáció jön létre, amelyben az adott tagmondatot már három sor repre­zentálja: az eredeti szöveg és a normalizált változat mellett a morfológiai annotá­ció is megjelenik. A lemmát minden szónál szögletes zárójelben álló morfológiai címkék követik, ahogy a 2. ábrán látható.

Next

/
Thumbnails
Contents