Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 103 segítségével előegyértelműsítettük az annotációkat, és a kézzel kijavított annotált szövegeken inkrementálisan újratanítottuk az egyértelműsítőt. Először a rejtett Markov-modellen alapuló HunPos szó faji címkéző eszközt használtuk (Halácsy et al. 2007). A HunPos nem tud lemmatizálni, csak egy morfológiai címkét rendel a szavakhoz, ezért a következő egyszerű módszerhez folyamodtunk, hogy teljes morfológiai elemzést kapjunk: a csak címkékkel annotált szöveget újraelemeztettük a morfológiai elemzővel, és a címkéhez leghasonlóbb elemzést választottuk. Ez a módszer viszonylag jó eredményt adott, de volt vele egy probléma: a hasonlóság alapú sorrendezés mindig a rövidebb lemmákat részesítette előnyben. Ez az egyik leggyakoribb lemma-többértelműségi osztály, az ikes-iktelen igepárok esetében nem adott megfelelő eredményt, mert a mindig az iktelen változatot választó algoritmus az ebbe a többértelműségi osztályba tartozó gyakori igék nagy részénél nem a megfelelő lemmát választotta. Később a HunPos címkéző programot lecseréltük a hasonló statisztikai modellt alkalmazó PurePos egyértelműsítő programra (Orosz - Novák 2013), amely számos további hasznos képességgel rendelkezik. Képes arra, hogy morfológiailag elemzett bementet dolgozzon fel, vagy annotáció közben hívja meg az integrált morfológiai elemzőt. A program tanítóanyagában nem szereplő szavak esetében ezekre az elemzésekre korlátozza az adott szóhoz rendelhető címkék halmazát ahelyett, hogy csak a szó végződése alapján próbálná a lehetséges címkéket megjósolni. Ez a magyarhoz hasonlóan gazdag morfológiájú nyelvek és kisméretű tanítókorpusz esetén nagyon nagy mértékben javítja az egyértelműsítő pontosságát. Emellett a PurePos lemmatizálásra is képes. A tanítóanyagban szereplő lemmák esetén azok gyakorisága alapján választ a morfológiai elemző által adott lemmák közül. A morfológiai elemző számára ismeretlen és a tanítóanyagban sem szereplő szavakat is tudja lemmatizálni. Ehhez a tanítókorpuszból megtanult, a szó végződésén alapuló lemmatizáló modellt használ. A PurePos egyértelműsítő pontosságát egy 84000 szavas részkorpuszon értékeltük ki. 67000 szónyi anyagon betanítva és 17000 szón kiértékelve 95,9%-os szópontosságot kaptunk. A tagmondatok 81,5%-a nem tartalmazott annotációs hibát, azaz csak minden ötödik tagmondatban kell kézzel hibát javítani. A program pontosságának egyik előfeltétele, hogy már a morfológiai annotáció előtt szerepeljen lexikonjában a korpuszban előforduló szinte valamennyi lemma. így a tesztanyagban szereplő 17000 szónak mindössze 0,32%-a volt ismeretlen a morfológiai elemző számára. 6. A lekérdezőfelület A korpuszhoz készített, böngészőben működő lekérdező-felületet nem csak arra tettük alkalmassá, hogy a szövegekben szereplő különböző nyelvtani szerkezetek, illetve maguk a nyelvtörténeti dokumentumok kereshetők és megjeleni the-