Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

102 DÖMÖTÖR ET AL. 5. ábra. Kézzel egyértelműsített, javított tagmondat. hogy elvesztetted pocséted. <hogy elvesztetted pecséted.» bogylC] el|+vesztfVPfx V Past S2 DefJ pecsét(N.PxS2-Aoc| A szövegek kézi ellenőrzése mellett a morfológiai elemző adatbázisának ellenőr­zése és bővítése is munkaigényes feladat volt a projekt során, és ez szoros együtt­működést kívánt a csoport tagjai között. Visszatérő probléma volt a morfológiai elemző által használt címkék finomhangolása; többek között új elemzést kellett hozzáadnunk bizonyos névutói alakokhoz (például: az kenésnek utána). Ez felvet egy olyan dilemmát, hogy bár a lehetséges címkék számának a növelése az adott esetben pontosabb morfológiai és szintaktikai elemzést tesz lehetővé, ugyanakkor megnehezítheti a különböző korpuszokból származó adatok összehasonlítását. Helyzetének megkönnyítése érdekében a felhasználót a lehető legrészletesebben tájékoztatjuk a címkék értelmezéséről a korpusz felhasználói leírásában. Az automatikus annotálórendszert úgy alakítottuk ki, hogy lehetőséget bizto­sítson arra, hogy a munka folyamán megváltoztathassuk az alkalmazott annotá­­ciós séma egyes részleteit, ha úgy látjuk, hogy erre szükség van. Az egyik ilyen módosítás például a korábban említett időhatározók annotációjának megváltozta­tása volt. A módosított annotációt az adott változtatást megelőzően egyértelmü­­sített szövegekbe is viszonylag könnyen át tudjuk vezetni. Ezt az biztosítja, hogy a szövegek újraelemzésekor a program automatikusan a korábban választotthoz leghasonlóbb elemzést választja ki. Ugyanakkor minden olyan szót speciális kie­meléssel jelöl meg, amelyek esetében az újraelemzés az annotáció megváltozá­sával járt, hogy a kézi annotátorok könnyen ellenőrizhessék ezeket a pontokat. Azokban az esetekben, ahol az annotációs sémát mélyrehatóbban megváltoztat­tuk, és ahol ez az egyszerű hasonlóság alapú heurisztika várhatóan nem adott volna kielégítő eredményt,8 kifinomultabb módszert alkalmaztunk az annotáció frissítésére: automatikusan generált reguláris kifejezésekkel cseréltük le a régi e­­lemzéseket, amelyet a morfológiai generátor kézzel ellenőrzött kimenetének fel­­használásával hoztunk létre. 5.2. Automatikus egyértelműsítés Az első néhány dokumentumot teljesen kézzel egyértelműsítettük a webböngé­­szőben működő eszköz segítségével. Amikor megfelelő mennyiségű anyag ösz­­szegyűlt ahhoz, hogy egy statisztikai egyértelműsítő eszközt betanítsunk, ennek 8 Például amikor bizonyos képzett alakokhoz a korábbinál részletesebb elemzés hozzá­rendelése mellett döntöttünk.

Next

/
Thumbnails
Contents