Szabómihály Gizella - Lanstyák István (szerk.): Magyarok Szlovákiában VII. Nyelv - Magyarok Szlovákiában 7. (Somorja, 2011)
Tanulmányok - A magyar nyelv szlovákiai változatainak jellemzői
162 Pintér Tibor ezek a követelmények megfogalmazódnának is, az egyes szövegtípusok állandó változását, az egyes arányok mozgását szinte lehetetlen lenne követni. A határon túli magyar korpuszban a határon túli magyar nyelvű anyagok nagysága a pályázatban a következőképpen lett meghatározva: szlovákiai magyar rész 4 millió, a romániai 6 millió, a kárpátaljai 3 millió, míg a vajdasági 2 millió szövegszó. Mint ahogy azt a következő táblázat mutatja, ezeket a követelményeket az egyes irodáknak nem volt nehéz teljesíteni. Fontos azonban, hogy az Mnsz a határon túli anyagok összegyűjtése előtt is tartalmazott szlovákiai és romániai magyar napilapokból szövegeket, amelyek a kiegészülés után a kisebbségi sajtóhoz lettek csoportosítva. A bővítés előtti 140 millió szavas korpusz kb. tíz millió szava a szlovákiai Új Szó (5 096 524 szövegszó) és a Romániai Magyar Szó (4 898 440 szövegszót) című határon túli magyar folyóiratokból származott. Ez mindamellett, hogy mutatványként presztízsértékű jó szándék volt, a szövegtár használatakor (mondjuk bizonyos szavak magyarországi elterjedésének meghatározásakor) inkább zavaró volt, mivel az arányokat módosította, illetve olyan lexikai elemeket is a magyarországi standard nyelvhasználat részévé tett, amelyek valójában a határon túli nyelvhasználat elemei voltak. A Magyar nemzeti szövegtár több tulajdonságával is kitűnik a többi magyar nyelvű korpusz közül. Jelenleg több mint 187 millió szót tartalmaz (ami a jövőben remélhetőleg legalább 500, de valószínűbb, hogy 1000 millióra bővül majd), regiszterei között megtalálhatók az írott és beszélt nyelvváltozatok is, illetve ez az egyetlen olyan magyar nyelvű korpusz, amely nemcsak a magyarországi, hanem a határon túli magyar nyelvváltozatok elemeit is tartalmazza. A határon túli magyar nyelvváltozatok korpuszának megléte a 20. század utolsó évtizedében lezajlott nyelvészeti viták gyümölcse. Ebben a korszakban fordultak a központi finanszírozású projektek nagyobb intenzitással a határon túli magyar nyelvváltozatok felé, ugyanakkor ebben az időszakban kezdődött el az Értelmező kéziszótár határon túli szóanyaggal való bővítése. A szótár ht anyagát gyűjtő nyelvészek hálózatára épült az MTA határon túli kutatóhálózata, amely a Termini Kutatóhálózat elődjének tekinthető. A Szlovákiai magyar korpusz létrejöttére (mint ahogy a Kmmnyk létrejöttére is) tett első komolyabb lépések 2001-ben történtek. A feladat (azaz az anyaggyűjtés és előfeldolgozás, szövegkonverzió) elvégzése előtt az MTA Nyelvtudományi Intézetének akkori Korpusznyelvészeti Osztálya (mai nevén: Nyelvtechnológiai és Élőnyelvi Osztály) által szervezett korpusznyelvészeti tréningeken vált nyilvánvalóvá az elvégzendő munka és az Mnsz strukturális összetettsége. A tréningek és a kezdeti munkatapasztalatok után a szlovákiai magyar korpusz előzetes tervei módosultak: voltak feladatok, amelyek a munka szempontjából később feleslegesnek bizonyultak (pl. a korpusznyelvészeti munkákhoz szorosan nem kapcsolódó listák készítése a szlovákiai magyar sajtóról, kapcsolatfelvétel olyan nyelvészekkel, akikkel a későbbiekben nem érintkeztünk), és voltak teendők, amelyek csak az első tréning után merültek fel (pl. a későbbi munkák szem-Az Mnsz jelenlegi állapota (forrás: http://corpus.nytud.hu/mnsz/; 2011. december 29.): Magyarország Szlovákia Ukrajna Románia Vajdaság összesen sajtó 71,0 5,7 0,7 5,5 1,5 84,5 szépirodalom 35,3 1,4 0,4 0,8 0,2 38,2 tudományos 20,5 2,3 0,7 1,6 0,3 25,5 hivatalos 19,9 0,2 0,3 0,6 0,1 20,9 személyes 17,8-0,4 0,4 0,1 18,6 összesen 164,7 9,5 2,5 8,9 2,0 187,6