Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
102 DÖMÖTÖR ET AL. 5. ábra. Kézzel egyértelműsített, javított tagmondat. hogy elvesztetted pocséted. <hogy elvesztetted pecséted.» bogylC] el|+vesztfVPfx V Past S2 DefJ pecsét(N.PxS2-Aoc| A szövegek kézi ellenőrzése mellett a morfológiai elemző adatbázisának ellenőrzése és bővítése is munkaigényes feladat volt a projekt során, és ez szoros együttműködést kívánt a csoport tagjai között. Visszatérő probléma volt a morfológiai elemző által használt címkék finomhangolása; többek között új elemzést kellett hozzáadnunk bizonyos névutói alakokhoz (például: az kenésnek utána). Ez felvet egy olyan dilemmát, hogy bár a lehetséges címkék számának a növelése az adott esetben pontosabb morfológiai és szintaktikai elemzést tesz lehetővé, ugyanakkor megnehezítheti a különböző korpuszokból származó adatok összehasonlítását. Helyzetének megkönnyítése érdekében a felhasználót a lehető legrészletesebben tájékoztatjuk a címkék értelmezéséről a korpusz felhasználói leírásában. Az automatikus annotálórendszert úgy alakítottuk ki, hogy lehetőséget biztosítson arra, hogy a munka folyamán megváltoztathassuk az alkalmazott annotációs séma egyes részleteit, ha úgy látjuk, hogy erre szükség van. Az egyik ilyen módosítás például a korábban említett időhatározók annotációjának megváltoztatása volt. A módosított annotációt az adott változtatást megelőzően egyértelmüsített szövegekbe is viszonylag könnyen át tudjuk vezetni. Ezt az biztosítja, hogy a szövegek újraelemzésekor a program automatikusan a korábban választotthoz leghasonlóbb elemzést választja ki. Ugyanakkor minden olyan szót speciális kiemeléssel jelöl meg, amelyek esetében az újraelemzés az annotáció megváltozásával járt, hogy a kézi annotátorok könnyen ellenőrizhessék ezeket a pontokat. Azokban az esetekben, ahol az annotációs sémát mélyrehatóbban megváltoztattuk, és ahol ez az egyszerű hasonlóság alapú heurisztika várhatóan nem adott volna kielégítő eredményt,8 kifinomultabb módszert alkalmaztunk az annotáció frissítésére: automatikusan generált reguláris kifejezésekkel cseréltük le a régi elemzéseket, amelyet a morfológiai generátor kézzel ellenőrzött kimenetének felhasználásával hoztunk létre. 5.2. Automatikus egyértelműsítés Az első néhány dokumentumot teljesen kézzel egyértelműsítettük a webböngészőben működő eszköz segítségével. Amikor megfelelő mennyiségű anyag öszszegyűlt ahhoz, hogy egy statisztikai egyértelműsítő eszközt betanítsunk, ennek 8 Például amikor bizonyos képzett alakokhoz a korábbinál részletesebb elemzés hozzárendelése mellett döntöttünk.