Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

106 Dömötör et al. zött szereplő tagmondatok beékelődnek az általuk megszakított tagmondat topik­­jába vagy a topik és a komment közé. Az Emdros ezeket a megszakított tagmon­datokat nemfolytonos objektumként ábrázolja, amelynek nem része az adott tag­mondatot megszakító másik tagmondat. 7. A TMK és más nyelvű történeti korpuszok Számos történeti korpusz, például a Penn Corpora of Historical English,9 a Tycho Brahe Parsed Corpus of Historical Portuguese,10 11 a Welsh Prose11 korpusz, a University of Ottawa parsed corpus of historical French,12 az Icelandic Parsed Historical Corpus (IcePaHC),13 a The Parsed Old and Middle Irish Corpus (POMIC),14 a Parsed Corpus of Early New High German15 és a Penn Parsed Corpora of Historical Greek (PPCHiG)16 a morfológiai annotáció mellett szin­taktikai annotációt is tartalmaz. Ezeknek többsége a Penn Treebank annotációs rendszerének valamilyen adaptált változatára épít, amely a Kormányzás és kötés elméletén alapuló, mondatösszetevőket annotáló séma. Ezzel szemben a TMK csak morfoszintaktikai annotációt tartalmaz, s ez egy elsősorban gyakorlati szempontokat mérlegelő döntés eredménye. Egyrészt a morfológiai elemzéshez már megvoltak az alkalmazható eszközök, hiszen rendelkezésre állt a mai stan­dard magyarra kifejlesztett morfológiai elemző, bár ezt természetesen valameny­­nyire módosítani kellett ahhoz, hogy a történeti szövegeket is elemezni tudja. Másfelől nem-konfigurációs szintaxisából következően a magyar nyelv szintak­tikai annotációja meglehetősen problémás kérdés. Az egyetlen olyan korpusz, a­­mely mondattani fák segítségével elemzi a magyart, a függőségi nyelvtan kereté­ben dolgozik (Vincze et al. 2009).17 A projekt erőforrásait lényegesen meghaladó feladat lett volna, hogy kidol­gozzuk a szintaktikai annotációhoz tartozó szabályrendszert is, és felvállaljuk, hogy vagy kézzel végezzük el a korpusz szintaktikai annotációját, vagy pedig fi­nanszírozzuk egy új szintaktikai elemző fejlesztését. A szintaktikailag elemzett 9 https://www.ling.upenn.edu/hist-corpora/ 10 http://www.tycho.iel.unicamp.br/corpus/en/index.html 11 http://www.rhyddiaithganoloesol.caerdydd.ac.uk/en/ 12 http://www. voies.uottawa.ca/corpus_pg_en.html 13http://linguist.is/icelandic_treebank/Icelandic_Parsed_Historical_Corpus_(IcePaHC) 14http://www.dias.ie/index.php?option=com_content&view=article&id=6586&Itemid:=2 24&lang=en 15 https://enhgcorpus.wikispaces.com/ 16 http://www.ling.upenn.edu/*janabeck/greek-corpora.html 17 A korpuszban használt annotációs séma a függőségi relációk igen szűk készletére é­­pül, amelyben igen sok különböző függőségi viszony össze van vonva.

Next

/
Thumbnails
Contents