Szabómihály Gizella - Lanstyák István (szerk.): Magyarok Szlovákiában VII. Nyelv - Magyarok Szlovákiában 7. (Somorja, 2011)
Tanulmányok - A magyar nyelv szlovákiai változatainak jellemzői
164 Pintér Tibor publicisztika, szépirodalom, hivatalos nyelv, személyes közlések. A sajtónyelvi alkorpusz összeállítása kiemelten fontos előkészületet kívánt. Egyrészt mivel a sajtónyelvi szövegek maguk is többféle sajtótermékből származnak (napilapok, ifjúsági lapok, női lapok, sportlapok stb.), így a belső arányokat is meg kellett állapítani; másrészt mivel a határon túli magyar lapok magyarországi lapokból, illetve hírügynökségektől is vesznek át cikkeket, s ezeket előzőleg ki kellett válogatni, hiszen nem magyarországi anyagok feldolgozását tüztük ki célul. A magyarországi sajtóanyag szűrését a későbbiekben elhagytuk, mivel ezek megőrzésével a szlovákiai magyar sajtó tényleges és nem megszűrt anyaga kerül a szövegtárba. Ez a döntés valójában a Szlovákiai magyar korpusz önállóságát volt hivatott támogatni, hiszen ez a lépés a valós (és nem kipreparált) szlovákiai magyar sajtó (valamint a szlovákiai magyar korpusz) megjelenítését támogatja, szemben a gyűjtött szövegek nyelvváltozatának lokális besorolásával. Az Mnsz és így a Kmmnyk is a magyar nyelv jelenlegi állapotát kívánja rögzíteni. Ez a gyakorlatban azt jelenti, hogy a korpusz nem tartalmazhat rendszerváltás előtt keletkezett szövegeket. Ezt a követelményt nem minden alkorpusz esetében tartottuk be, mivel a szépirodalmi szövegek között vannak korábbi keletkezésűek is. (A hasonló követelményt a Magyar nemzeti szövegtár sem tartotta be, amit a gyűjtés és feldolgozás körülményessége miatt nem is lehet a szerkesztőknek felróni.) Ez azonban nem okoz értelmezési és szerkezeti gondot, mivel a szépirodalmi stílus „szabadsága” kortalan, illetve ez kevésbé változó, mint például a beszélt nyelvi. A tudományos prózát tartalmazó alkorpusz összeállításának, gyűjtésének fő problémája, hogy a határon túli magyar tudományos élet gyakran többségi nyelven (és helyeken) folyik; például a szlovákiai magyar tudományos elitet alkotó réteg szlovák nyelvű munkahelyeken 5 dolgozik, illetve - általában - szlovák nyelvű lapokban szlovák nyelven publikál. Ezért a szigorúan tudományos ismérvek szerint írott szövegekből lényegesen kevesebb van, mint Magyarországon, valamint a tudományos ismeretterjesztő próza magasabb arányban van képviselve, mint a magyarországi mintában. A határon túli magyar hivatali nyelvet (nyelvhasználatot) bemutató alkorpusz egyik alappillére a kutatóhálózat nyelvtervezési tevékenysége volt (például a Gramma Nyelvi Iroda nyelvtervezési és fordítótevékenysége). A hivatali nyelvhasználatot bemutató alkorpusz fejlődési dinamikája lassúbb, mint a többi alkorpuszé, mivel egyrészt a többi szövegtípushoz képest kevesebb szöveg születik, másrészt hivatalos jellegük miatt nehezebb ezekhez a szövegekhez hozzáférni. A legösszetettebb és legmunkaigényesebb részfeladatot a beszélt nyelvi alkorpusz megszerkesztése jelentette. Első (és egyben legnagyobb) problémát a beszélt nyelvi szövegek alapos, ugyanakkor felhasználható lejegyzési útmutatójának elkészítése jelentette. Az egyes hangtani jelenségek lejegyzésénél ugyanis nemcsak a hanganyag lehető legámyaltabb visszaadását kellett figyelembe vermi, hanem a számítógép diktálta lehetőségeket, a minél könnyebb számítógépes lejegyzés feltételeit is folyamatosan szem előtt kell tartani. így a lejegyzés nem lehetett olyan részletekbe menő, mint egy fonetikai vagy részletes nyelvjárási lejegyzés (nem is ez volt a cél), ám a hangzó nyelv legfőbb sajátosságait mindenképpen írásban is megpróbálta visszaadni. A beszélt nyelvi szövegek lejegyzési útmutatójának véglegesí - tése csak hosszadalmas és időigényes egyeztetések után fejeződött be. A Szlovákiai magyar korpusz anyagának gyűjtését 2005 után is folytattuk. Célzott gyűjtéseink az alulreprezentált szövegtípusokra, azaz a hivatalos nyelvhasználatra, valamint a regionális sajtóra irányultak. 5 Megfelelő program (webrobot vagy crawler) írása elengedhetetlen feltétele az internetes adatgyűjtésnek. A program paramétereinek pontos beállításával a későbbi feldolgozás során értékes időt lehet megtakarítani.