Nyelvtudományi Közlemények 113. kötet (2017)
Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85
106 Dömötör et al. zött szereplő tagmondatok beékelődnek az általuk megszakított tagmondat topikjába vagy a topik és a komment közé. Az Emdros ezeket a megszakított tagmondatokat nemfolytonos objektumként ábrázolja, amelynek nem része az adott tagmondatot megszakító másik tagmondat. 7. A TMK és más nyelvű történeti korpuszok Számos történeti korpusz, például a Penn Corpora of Historical English,9 a Tycho Brahe Parsed Corpus of Historical Portuguese,10 11 a Welsh Prose11 korpusz, a University of Ottawa parsed corpus of historical French,12 az Icelandic Parsed Historical Corpus (IcePaHC),13 a The Parsed Old and Middle Irish Corpus (POMIC),14 a Parsed Corpus of Early New High German15 és a Penn Parsed Corpora of Historical Greek (PPCHiG)16 a morfológiai annotáció mellett szintaktikai annotációt is tartalmaz. Ezeknek többsége a Penn Treebank annotációs rendszerének valamilyen adaptált változatára épít, amely a Kormányzás és kötés elméletén alapuló, mondatösszetevőket annotáló séma. Ezzel szemben a TMK csak morfoszintaktikai annotációt tartalmaz, s ez egy elsősorban gyakorlati szempontokat mérlegelő döntés eredménye. Egyrészt a morfológiai elemzéshez már megvoltak az alkalmazható eszközök, hiszen rendelkezésre állt a mai standard magyarra kifejlesztett morfológiai elemző, bár ezt természetesen valamenynyire módosítani kellett ahhoz, hogy a történeti szövegeket is elemezni tudja. Másfelől nem-konfigurációs szintaxisából következően a magyar nyelv szintaktikai annotációja meglehetősen problémás kérdés. Az egyetlen olyan korpusz, amely mondattani fák segítségével elemzi a magyart, a függőségi nyelvtan keretében dolgozik (Vincze et al. 2009).17 A projekt erőforrásait lényegesen meghaladó feladat lett volna, hogy kidolgozzuk a szintaktikai annotációhoz tartozó szabályrendszert is, és felvállaljuk, hogy vagy kézzel végezzük el a korpusz szintaktikai annotációját, vagy pedig finanszírozzuk egy új szintaktikai elemző fejlesztését. A szintaktikailag elemzett 9 https://www.ling.upenn.edu/hist-corpora/ 10 http://www.tycho.iel.unicamp.br/corpus/en/index.html 11 http://www.rhyddiaithganoloesol.caerdydd.ac.uk/en/ 12 http://www. voies.uottawa.ca/corpus_pg_en.html 13http://linguist.is/icelandic_treebank/Icelandic_Parsed_Historical_Corpus_(IcePaHC) 14http://www.dias.ie/index.php?option=com_content&view=article&id=6586&Itemid:=2 24&lang=en 15 https://enhgcorpus.wikispaces.com/ 16 http://www.ling.upenn.edu/*janabeck/greek-corpora.html 17 A korpuszban használt annotációs séma a függőségi relációk igen szűk készletére épül, amelyben igen sok különböző függőségi viszony össze van vonva.