Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
104 Dömötör et al. tők legyenek, hanem arra is, hogy hatékonyan használható legyen az annotációs hibák javítására is. Ha egy lekérdezés során hibásan normalizált vagy annotált eredmény jelenik meg a találatok között, az azonnal javítható a webszerveren futó morfológiai elemző segítségével, illetve az adott szó bármelyik jellemzője (eredeti vagy normalizált alak) módosítható, és a javítás azonnal bekerül a kereső által használt korpuszadatbázisba. Természetesen ez a javító funkció csak a megfelelőjogosultságokkal rendelkező annotátorok számára érhető el. Gyors és hatékony módszer az annotációs hibák javítására, ha a lekérdező-felületen kifejezetten olyan szerkezeteket keresünk, amelyek nagy valószínűséggel hibás annotáció eredményeként álltak elő (pl. determinánst finit igealak követ, stb.), és a ténylegesen hibás eseteket azonnal kijavítjuk az adatbázisban. Ezután a javított korpusz kiexportálható az adatbázisból, és a statisztikai egyértelműsítőt újratanítjuk. A 6. ábrán látható egy példa arra, amikor a keresőfelületet a visszaadott találatban szereplő annotációs hiba kijavítására használjuk. Nem csak az egyes szóalakok és azok annotációinak a javítására van lehetőség, hanem a tagmondatokra bontással kapcsolatos hibák javítására is. 6. ábra. A lekérdezés eredményeként kapott találatban észrevett annotációs hiba kézi javítása. 508932 508933 508934 hogy elvesztetted pöcséted. <hogy elvesztetted pecséted. > hogy el|+veszt pecsét[N.PxS2] C VPfx.V.Past.S2.Def I pecsét[N PxS2] 1 bsís ^n.PxS2.Acc] A korpuszlekérdező által használt adatbázis az Emdros korpuszkezelő és -lekérdező eszközön alapul. A lekérdezéshez az Emdros beépített MQL nevű lekérdezőnyelvén megfogalmazott, vagy a lekérdező-felületen szereplő grafikus elemek segítségével összeállított lekérdezések mellett a haladó felhasználók egy olyan, általunk definiált lekérdezőnyelvet is használhatnak, amelynek segítségével az MQL-nél sokkal tömörebb formában megfogalmazhatóak a lekérdezések (1. 7. ábra). Jól megfogalmazott lekérdezések segítségével hatékonyan kereshetünk példákat sokféle szintaktikai szerkezetre, annak ellenére, hogy a korpusz csak morfoszintaktikai annotációt tartalmaz.