Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

104 Dömötör et al. tők legyenek, hanem arra is, hogy hatékonyan használható legyen az annotációs hibák javítására is. Ha egy lekérdezés során hibásan normalizált vagy annotált e­­redmény jelenik meg a találatok között, az azonnal javítható a webszerveren futó morfológiai elemző segítségével, illetve az adott szó bármelyik jellemzője (ere­deti vagy normalizált alak) módosítható, és a javítás azonnal bekerül a kereső ál­tal használt korpuszadatbázisba. Természetesen ez a javító funkció csak a meg­felelőjogosultságokkal rendelkező annotátorok számára érhető el. Gyors és hatékony módszer az annotációs hibák javítására, ha a lekérdező-fe­lületen kifejezetten olyan szerkezeteket keresünk, amelyek nagy valószínűséggel hibás annotáció eredményeként álltak elő (pl. determinánst finit igealak követ, stb.), és a ténylegesen hibás eseteket azonnal kijavítjuk az adatbázisban. Ezután a javított korpusz kiexportálható az adatbázisból, és a statisztikai egyértelműsítőt újratanítjuk. A 6. ábrán látható egy példa arra, amikor a keresőfelületet a vissza­adott találatban szereplő annotációs hiba kijavítására használjuk. Nem csak az e­­gyes szóalakok és azok annotációinak a javítására van lehetőség, hanem a tag­mondatokra bontással kapcsolatos hibák javítására is. 6. ábra. A lekérdezés eredményeként kapott találatban észrevett annotációs hiba kézi javítása. 508932 508933 508934 hogy elvesztetted pöcséted. <hogy elvesztetted pecséted. > hogy el|+veszt pecsét[N.PxS2] C VPfx.V.Past.S2.Def I pecsét[N PxS2] 1 bsís ^n.PxS2.Acc] A korpuszlekérdező által használt adatbázis az Emdros korpuszkezelő és -lekér­dező eszközön alapul. A lekérdezéshez az Emdros beépített MQL nevű lekérde­zőnyelvén megfogalmazott, vagy a lekérdező-felületen szereplő grafikus elemek segítségével összeállított lekérdezések mellett a haladó felhasználók egy olyan, általunk definiált lekérdezőnyelvet is használhatnak, amelynek segítségével az MQL-nél sokkal tömörebb formában megfogalmazhatóak a lekérdezések (1. 7. ábra). Jól megfogalmazott lekérdezések segítségével hatékonyan kereshetünk példákat sokféle szintaktikai szerkezetre, annak ellenére, hogy a korpusz csak morfoszintaktikai annotációt tartalmaz.

Next

/
Thumbnails
Contents