Szabómihály Gizella - Lanstyák István (szerk.): Magyarok Szlovákiában VII. Nyelv - Magyarok Szlovákiában 7. (Somorja, 2011)
Tanulmányok - A magyar nyelv szlovákiai változatainak jellemzői
A magyar nyelv szlovákiai változatainak adatbázisai 169 standard helyesírással lejegyezik, s ebből kell majd a későbbi annotált szöveget elkészíteni (a standard helyesírást annak egységes jellege miatt választottuk). A kódolás formája mellett egyezség született a lejegyzendő szöveg típusait illetően is. A megegyezés szerint a(z) (el)készülő beszélt nyelvi szövegeknek a következő struktúrát kell alkotnia, valamint a következő tulajdonságokkal kell.7: 1. A lejegyzendő hangfelvételek nem lehetnek az 1990-es éveknél korábbiak. 2. A standard mellett dialektusoknak is helyet kell adni a hangfelvételek között, ezek a dialektusok azonban csupán a főbb nyelvjárási területeket képviselhetik. A korpuszba kerülő egyes dialektusok arányát az azokat beszélők arányából kell kiszámolni. A nyelvjárási hanganyagnak nemcsak informális beszélgetéseket, hanem formális regisztereket is kell tartalmaznia (pl. ritualizált szövegeket, élettörténeteket). A nyelvjárási szövegek az összanyag legfeljebb 40-50%-át tehetik ki. 3. A felvételek között formális (pl. műszaki, orvosi, humán szövegek; konferenciák, prédikáció, tanári magyarázat, politikai nyilatkozat, önkormányzati ülés) és informális regiszterekhez tartozó standardhoz közelítő szövegek is legyenek. A dialogikus és informális regisztereknek kell többségben lenniük, az összes 70-80%-át kell alkotniuk. 4. Kétnyelvűségi típusok: a magyardomináns kétnyelvű beszélőktől származó hangfelvételek az anyag 40-50%-át, az államnyelvi domináns beszélőktől származó felvételek az anyag 35%-át, egynyelvű beszélők hanganyagának az egész 15%-át kell alkotnia. 5. Az adatközlők kiválasztásának szempontjait hierarchizálni kell. 6. Korcsoportok: gyerekekre és idős adatközlőkre is szükség van. A gyerekek képviselhetik az informális, egynyelvű, az idősek a nyelvjárási beszélőket. 7. Az egyes digitalizált hangfájlokhoz és a hozzájuk tartozó lejegyzett szöveghez csatolni kell fejlécet is, amit (a korpusz többi anyagához hasonlóan) külön fájlban kell tárolni. Ennek a fejlécnek a következő adatokat kellene tartalmaznia (ehhez el kell készíteni a megfelelő dtd-t): a felvétel időpontja, a felvételt készítő személy neve; az adatközlő neve, neme, életkora, foglalkozása, születési helye, lakóhelye, hol élt többet: városban/faluban, családi állapota; az általa elsajátított nyelvek, a családjában használt nyelvek; téma, szituáció, a jelen levő személyek száma, azok és az adatközlő közti viszony jellege; rádióban elhangzott felvételek esetében: élő műsor vagy felvett műsor, nyers vagy javított felvétel; a hangfájl helye a számítógépen (annak elérési mutatója), a fájl formátuma, a fájl száma. Ott, ahol lehetett, igyekeztük az egyes szövegtípusok százalékos arányát is meghatározni. Mivel tisztában voltunk vele, hogy az arányok betartása nehéz feladat, ezért úgy határoztunk, hogy a megállapított arányoktól minden iroda 10%-kal eltérhet. A beszélt nyelvi korpusz jelenleg a http:// corpus.nytud.hu/kmmk/gr_sound.html címen érhető el. A feldolgozott beszélt nyelvi korpusz jelenleg 14, a szlovákiai magyar nyelvváltozatot bemutató hanganyagot dolgoz fel. Az átiratok mellett a korpusz tartalmazza a hanganyagot, valamint a lejegyzett beszéd XML-átiratát is. A webes felületen egyebek mellett informálódhatunk a nyelvi intetjük felvételének körülményéről, valamint az adatközlő és terepmunkás nyelvi hátteréről is. A részletes lejegyzési mutatónak köszönhetően az érdeklődő olvasó mélyebb betekintést kaphat a szlovákiai magyar beszélt nyelvi standardról, illetve összevetést készíthet a kárpátaljai, erdélyi és vajdasági magyar 7 Az alábbi felsorolás a 2005-ös illyefalvi megbeszélésen született, s tudomásom szerint ezek betartása irodánként eltérő volt.