Szabómihály Gizella - Lanstyák István (szerk.): Magyarok Szlovákiában VII. Nyelv - Magyarok Szlovákiában 7. (Somorja, 2011)
Tanulmányok - A magyar nyelv szlovákiai változatainak jellemzői
A magyar nyelv szlovákiai változatainak adatbázisai 167 neg (bár az elemző magát morfoszintaktikai Nemzőnek nevezi). Az alábbi táblázatok összegzik a szlovákiai nagyar korpusz (azaz a Magyar nemzeti szöregtár részeként lekérdezhető szlovákiai magyar alkorpusz) főbb statisztikai tulajdonságait, vlivel a korpusz a Kmmnyk részeként jött létre, íasonlítási alapként annak ugyanazon statiszticáit is közlöm6: kihasználtsága is. A korszerűsödés természetesen hatással lesz az Mnsz részeként működő szlovákiai magyar korpuszra is. A SZLOVÁKIAI MAGYAR ÉLŐNYELVI KORPUSZ A Kárpát-medencei magyar nyelvi korpusz gyűjtései során, annak különálló részeként Összes szövegegység Összes bekezdés Összes mondat Kmmnyk Fv% Kmmnyk Fv% Kmmnyk Fv% személyes 0 0 16120 0 0 64136 0 0 tudományos 3801 2509 66,01 105573 39349 37,27 302283 130781 43,26 sajtó 8453 1168 13,82 82111 18838 22,94 232024 49349 21,27 szépirodalom 3433 1226 35,71 83952 37162 44,27 226784 110153 48,57 hivatalos 2700 642 23,78 33303 8394 25,20 62590 11037 17,63 összes 183875545 30,16 321059103743 32,31 887817301320 33,94 Összes szavak Összes központozás Kmmnyk Fv% Kmmnyk Fv% személyes 780969 0 0 206260 0 0 tudományos 49726462286044 45,97 1043464 47346245,37 sajtó 3444277 637498 18,51 683707 131258 19,20 szépirodalom 27106581353586 49,94 657552 329063 50,04 hivatalos 1031175 155369 15,07 202735 29277 14.44 összes 129397254432497 34,252793718 96306034,47 A Magyar nemzeti szövegtár, ahogyan annak htkorpusza is várhatóan megújul az MTA Nyelvtudományi Intézete által koordinált CESAR (Central and South-east European Resources) pályázat jóvoltából. A pályázat egyik célja az Mnsz megújítása, kibővítése, illetve az új korpusz elemzőinek összehangolása. A megújuló korpuszon immár nem csak morfológiai, hanem bővebb szintaktikai, lexikológiai, illetve szemantikai elemzések is elvégezhetőek és elérhetőek lesznek, így várhatóan szélesedik annak kezdtünk építeni egy beszélt nyelvi szövegekből álló adatbázist, mely az élőnyelvi kutatásokat lett volna hivatott elősegíteni. A hanganyaggal párosított élőnyelvi átiratok nyelvi anyaga lefedi Szlovákia teljes magyar nyelvterületét. A több évig tartő gyűjtés és gondos lejegyzés a pozsonyi Commenius Egyetem magyar szakos hallgatói által készült. A hanganyag átírásakor nem lehetett a hanganyag lehető legámyaltabb leírására törekedni, mivel egyrészt figyelembe kellett venni számítógép 6 A táblázatban jelzett „összes szövegegység” alatt az adott szövegre jellemző szerkezeti alapegységet, (sajtóanyagban egy cikk, gyűjteményes kötetben egy rész stb.), az „összes bekezdés” alatt a célkorpuszokban előforduló bekezdéseket, bekezdés jellegű egységeket (pl. beszélgetés egyes fordulói), az „összes mondat” a célkorpuszokban előforduló mondatokat, az „összes szavak” a célkorpuszokban előforduló szavakat az „összes központozás” a célkorpuszokban előforduló összes központozást (vessző, pont, kérdőjel stb.) jelentik. A Kmmnyk a Kárpát medencei magyar nyelvi korpuszt, az Fv pedig a szlovákiai magyar alkorpuszt jelenti.