Nyelvtudományi Közlemények 113. kötet (2017)

Tanulmányok - Dömötör Adrienne - Gugán Katalin - Novák Attila - Varga Mónika: Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből (Finding the way out of the morphological maze: Building a corpus of Old and Middle Hungarian informal texts) 85

DÖMÖTÖR ADRIENN E - GUGÁN KATALIN - NOVÁK ATTILA - VARGA MÓNIKA Kiútkeresés a morfológiai labirintusból - korpuszépítés ó- és középmagyar kori magánéleti szövegekből1 The paper introduces a novel annotated corpus of Old and Middle Hungar­ian (16-18th centuries), the texts in which were selected in order to ap­proximate the vernacular of the given historical period as closely as possi­ble. The corpus consists of testimonies of witnesses in trials and samples of private correspondence. The texts are not only analyzed morphological­ly, but each file contains metadata that facilitate sociolinguistic research. The texts were manually normalized and morphosyntactically annotated using the Hungarian morphological analyzer Humor originally developed for Modem Hungarian but adapted to analyze Old and Middle Hungarian morphological constructions. The paper discusses some of the typical problems that occurred during the normalization procedure and their tenta­tive solutions. Besides, we also describe the query interface. Displaying the original, the normalized and the parsed versions of the selected texts, the first fully normalized and annotated historical corpus of Hungarian is freely accessible at the address http://tmk.nytud.hu/. Keywords: Historical corpus, Old Hungarian, Middle Hungarian, corpus annotation, morphological analysis, corpus query tool Kulcsszavak: Történeti korpusz, ó- és középmagyar kor, morfológiai elem­zés, keresőfelület 1 1 A korpuszt 2010 és 2014 között az OTKA К 81189 számú, Morfológiailag elemzett nyelv­­történeti korpusz a magánéleti nyelvhasználat köréből című projektum keretében hoztuk létre az MTA NyTI Finnugor és nyelvtörténeti osztálya több tagjának és külső munkatár­saknak a bevonásával. A munkát 2015-től а К 116217 számú, Versengő szerkezetek a kö­zépmagyar élőnyelvben: változók elemzésén alapuló megközelítés című NKFI-OTKA pá­lyázat részmunkálataként folytatjuk, néhány külső munkatárssal együtt. - A cikk a Lan­guage Resources & Evaluation c. folyóirat 2017-es számában angol nyelven megjelent ta­nulmányunk átdolgozott változata (DÓI 10.1007/sl0579-017-9393-8). Nyelvtudományi Közlemények 113: 85-110. DÓI: 10.15776/NyK.2017.113.3

Next

/
Thumbnails
Contents