Szabómihály Gizella - Lanstyák István (szerk.): Magyarok Szlovákiában VII. Nyelv - Magyarok Szlovákiában 7. (Somorja, 2011)
Tanulmányok - A magyar nyelv szlovákiai változatainak jellemzői
168 Pintér Tibor diktálta lehetőségeket, és az XML-feldolgozás által diktált minél könnyebb számítógépes keresés feltételeit is (elsősorban a lejegyző szempontjából). így az elkészült átiratok nem lehetettek olyan részletekbe menők, mint egy fonetikai lejegyzés, ám a hangzó nyelv legfőbb sajátosságait mindenképpen írásban is megpróbálják visszaadni. A beszélt nyelvi szövegek lejegyzéséhez készült útmutató önmagában is komoly értéket képvisel (lásd Lanstyák 2004). A korpusz véglegesítése a meglévő szövegek XML-konverzióját (és az XML-szövegek belső struktúráját megszabó DTD - Document Type Definition - megírását), illetve egy - többféle szempontot figyelembe vevő - lekérdezőfelület elkészítését jelentené. Az élőnyelvi alkorpusz a ht korpusz sajátos természetű problémája. A probléma alapját az élőnyelvi szövegek lejegyzését elősegítő egységesített lejegyzési útmutató elkészítésének csúszása jelentette. A kutatóhálózat megbeszéléseiről készült emlékeztetők tanúsága szerint már 2002 májusában szó esett az élőnyelvi lejegyzés elkészítéséről, az arra szóló megbízásról. Ez kommunikációs és egyéb (szervezési) problémák miatt sajnos csak 2005 decemberében készült el. Az élőnyelvi szövegek lejegyzésének esszenciája az egységes kódolás. Az alkorpusz létrehozásának csak akkor van értelme, ha minden régióban azonos minta alapján történik a lejegyzés. Mivel az összes határon túli régió egy közös szövegtár anyagát bővíti, ezért a régiókban készülő anyagok végső formátumának kivétel nélkül azonosaknak kell lenniük, hogy a szövegekben történő egységes kereshetőséget biztosítsák. Ez azonban csak akkor valósulhat meg, ha előzőleg a szövegek azonos rendszer alapján voltak kódolva. Ilyen megfontolásból tehát különböző kódolási minták használatának nem lett volna értelme: pontosan a határon túli korpusz alapgondolatát, a különböző régiók nyelvi anyagában történő egységes keresést akadályoznák meg. Ez természetesen még nem zárja ki az egyes irodákban felmerülő, az alapkódoláson túli további, speciális kódolást, mivel minden iroda saját akarata szerint tovább kódolhatja a szövegeket. Az alapkódolásnál részletesebb anyag sorsa azonban mindmáig nincs tisztázva. Az egységes lejegyzési útmutató elkészítésében minden iroda szabad kezet kapott. A lejegyzendő hangtani jelenségek összeállítása feladata lett volna minden irodának: a közös megegyezések értelmében elsődlegesen egy nyers változat készült volna el, amely tartalmazta volna az irodák által fontosnak tartott élőnyelvi jelenségek lejegyzésére vonatkozó javaslatokat. Az irodák által összeállított lejegyzési útmutatót később Kassai Ilona egységesítette volna. Sajnos, sorozatos félreértések miatt a lejegyzési útmutató összeállításának ez a terve nem valósult meg. A kutatóhálózatból - Lanstyák István munkájának köszönhetően - csupán a Gramma Nyelvi Iroda tette meg javaslatát. Mivel a Lanstyák által összeállított kódolási útmutató (ennek egy korábbi változatát 1. Lanstyák 2004: 181-185) hosszúnak és bonyolultnak bizonyult, ezért a Gramma Nyelvi Iroda előállt egy rövidebb és számítógépes szempontokat is figyelembe vevő javaslattal. A többi iroda közül később csupán a vajdaságiak tettek javaslatot (Rajsli 2004: 65), azonban ez nem felelt meg az előzőleg meghatározott követelményeknek. Az általuk készített útmutató inkább dialektológiai leírás volt, amely a vajdasági nyelvváltozatok sajátos elemeinek leírását célozta meg. Mivel így a szövegtárral foglalkozó négy régióból csupán egyikük javaslata volt használható, a szervezők Kassai Ilonát kérték fel egy alkalmazható lejegyzési útmutató elkészítésére. Kassai 2006 elejére készítette el az útmutatót, mely nagy részben a már említett Lanstyák István által készített lejegyzési útmutatóra épült. Az élőnyelvi szövegek lejegyzésének problémája 2005-ig, azaz a szövegtár lezártáig napirenden volt az irodák találkozóin. Végső megoldásként az irodák és az MTA Nyelvtudományi Intézete abban állapodtak meg, hogy amíg a lejegyzést végzők nem kapnak közös lejegyzési útmutatót (ami végül nem is valósult meg), az időközben már lejegyzett szövegeket