Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 103 segítségével előegyértelműsítettük az annotációkat, és a kézzel kijavított annotált szövegeken inkrementálisan újratanítottuk az egyértelműsítőt. Először a rejtett Markov-modellen alapuló HunPos szó faji címkéző eszközt használtuk (Halácsy et al. 2007). A HunPos nem tud lemmatizálni, csak egy morfológiai címkét ren­del a szavakhoz, ezért a következő egyszerű módszerhez folyamodtunk, hogy teljes morfológiai elemzést kapjunk: a csak címkékkel annotált szöveget újraele­­meztettük a morfológiai elemzővel, és a címkéhez leghasonlóbb elemzést vá­lasztottuk. Ez a módszer viszonylag jó eredményt adott, de volt vele egy problé­ma: a hasonlóság alapú sorrendezés mindig a rövidebb lemmákat részesítette e­­lőnyben. Ez az egyik leggyakoribb lemma-többértelműségi osztály, az ikes-ikte­­len igepárok esetében nem adott megfelelő eredményt, mert a mindig az iktelen változatot választó algoritmus az ebbe a többértelműségi osztályba tartozó gya­kori igék nagy részénél nem a megfelelő lemmát választotta. Később a HunPos címkéző programot lecseréltük a hasonló statisztikai mo­dellt alkalmazó PurePos egyértelműsítő programra (Orosz - Novák 2013), amely számos további hasznos képességgel rendelkezik. Képes arra, hogy morfológiai­lag elemzett bementet dolgozzon fel, vagy annotáció közben hívja meg az integ­rált morfológiai elemzőt. A program tanítóanyagában nem szereplő szavak ese­tében ezekre az elemzésekre korlátozza az adott szóhoz rendelhető címkék hal­mazát ahelyett, hogy csak a szó végződése alapján próbálná a lehetséges címké­ket megjósolni. Ez a magyarhoz hasonlóan gazdag morfológiájú nyelvek és kis­méretű tanítókorpusz esetén nagyon nagy mértékben javítja az egyértelműsítő pontosságát. Emellett a PurePos lemmatizálásra is képes. A tanítóanyagban sze­replő lemmák esetén azok gyakorisága alapján választ a morfológiai elemző által adott lemmák közül. A morfológiai elemző számára ismeretlen és a tanítóanyag­ban sem szereplő szavakat is tudja lemmatizálni. Ehhez a tanítókorpuszból meg­tanult, a szó végződésén alapuló lemmatizáló modellt használ. A PurePos egyértelműsítő pontosságát egy 84000 szavas részkorpuszon érté­keltük ki. 67000 szónyi anyagon betanítva és 17000 szón kiértékelve 95,9%-os szópontosságot kaptunk. A tagmondatok 81,5%-a nem tartalmazott annotációs hibát, azaz csak minden ötödik tagmondatban kell kézzel hibát javítani. A prog­ram pontosságának egyik előfeltétele, hogy már a morfológiai annotáció előtt szerepeljen lexikonjában a korpuszban előforduló szinte valamennyi lemma. így a tesztanyagban szereplő 17000 szónak mindössze 0,32%-a volt ismeretlen a morfológiai elemző számára. 6. A lekérdezőfelület A korpuszhoz készített, böngészőben működő lekérdező-felületet nem csak arra tettük alkalmassá, hogy a szövegekben szereplő különböző nyelvtani szerkeze­tek, illetve maguk a nyelvtörténeti dokumentumok kereshetők és megjeleni the-

Next

/
Thumbnails
Contents