Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
Korpuszépítés ó- és középmagyar kori magánéleti szövegekből 101 a szerkesztés után a szóra duplán kattintva a webszerveren futó morfológiai elemzővel újra lehet elemeztetni a kézzel javított szóalakot. Ezt követően pedig már az új elemzések közül választhatjuk ki a megfelelőt a frissített listából. Az elemzés kézi szerkesztésére akkor lehet szükség, ha a morfológiai elemző nem ismeri az adott szóalakot, vagy ha a visszaadott elemzések között nem szerepel az adott szövegkörnyezetben elvárt elemzés. Mivel a morfológiai elemző tőtárát folyamatosan bővítettük a feldolgozott szövegekben szereplő szókincsnek megfelelően, viszonylag ritkán van szükség az elemzés kézi szerkesztésére. Lényeges tulajdonsága a kézi egyértelműsítő felületnek, hogy a szavakra és tagmondatokra bontással kapcsolatos hibák javítására is alkalmas. Ez egyrészt azért fontos, mert inherens különbség van az eredeti és a normalizált szövegváltozat szavakra bontásában (a tokenizálásban). Másrészt pedig azért, mert a normalizált változat gondos ellenőrzése után is előfordulhat, hogy a szöveg nem megfelelően van szavakra bontva. A tagmondatokra bontással kapcsolatban elsősorban a beágyazott tagmondatok megfelelő annotációjával kapcsolatban merült fel probléma. A szavakat, illetve tagmondatokat a szükséges helyen kettévágni, illetve összeolvasztani is lehet. 4. ábra. A böngészőben működő egyértelműsítő felület. aztat megh füze, aztat megfőzze. az[N|Pro.Acc] meg|+főz[VPfx V.Subj.S3 Def] az Tehénneknek mossa Imegh az jTudgyét, a teheneknek mossa jmeg a tőgyét. a[Det] tehén[N.PI Dat] J a s í I 1 kit is moslV Subi S3 Defl feléje Kit is mos[V.О Def] feléje a+ki(N|Pro|Rei AccJ is|cm_is] V PartAdv=vÁn] |+feté(PP S3] Ha a morfológiai elemző több lehetséges elemzést rendel egy szóalakhoz, akkor a statisztikai egyértelműsítő program a legvalószínűbb elemzést automatikusan kiválasztja (1. az 5.2. részben), de ezekben az esetekben az elemzés mindig zölddel kiemelve jelenik meg, szemben az egyértelmű szavak kék annotációjával (1. 4. ábra). A kézi annotátorok feladata, hogy az elemzett szöveget ellenőrizzék abból a szempontból, hogy a program választása helyes volt-e az adott szövegkörnyezetben. A 3. ábrán egy olyan igealak látszik, amelynek számos lehetséges elemzése van, amelyek közül a rendszer nem a megfelelőt választotta. Az 5. ábrán ugyanez a tagmondat látható az adott igealak helyes kézi egyértelműsítése után.