Szabómihály Gizella - Lanstyák István (szerk.): Magyarok Szlovákiában VII. Nyelv - Magyarok Szlovákiában 7. (Somorja, 2011)
Tanulmányok - A magyar nyelv szlovákiai változatainak jellemzői
166 Pintér Tibor a nyelvi valóság nem felelt meg az eredeti elképzeléseknek, hiszen a kisebbség nem „termel” akkora mennyiségű hivatalos iratot, mint az elvárható lenne, illetve ennek összetétele is — a magyarországi mintához viszonyítva -, a tudományos prózához hasonlóan, kevésbé hivatalos anyagokkal van vegyítve. Átmenetileg problémát jelent a személyes közlések alkorpusza is: ennek ugyanis legalább két részből kellene állnia: egyik része a gyors beszédfordulókból álló csetfórumok szövege, a másik a beszélt nyelvi szövegek lejegyzett változata. A határon túli magyar csetfórumok a magyarországiakhoz képest alulreprezentáltak, így nehezebb a kellő (arányaiban megfelelő) menynyiségü szöveget összegyűjteni. A beszélt nyelvi szövegek folyamatosan bővíthetőek, de csupán azután, hogy az irodák kellő gyakorlatot szereztek a lejegyzési útmutató használatában, így a 10% elméletileg elérhető (vagy inkább csak elképzelhető), ám mivel a többi alkorpusz is gyarapszik, ennek esélye egyre kevesebb (a hivatalos nyelvi szövegek esetében inkább el - képzelhetetlen). A már összegyűjtött anyag feldolgozása a Termini Kutatóhálózat részéről valójában csupán az összegyűjtött szövegek XML-annotációját jelentette (ami nem más, mint a meglévő szövegek „felcímkézése” a megfelelő XML attribútumokkal). A kezdetekkor még nehézkesen működő folyamat némi programozói tudás megszerzésével jól ütemezhetővé és gyorssá vált. Az annotálás folyamata az automatizálás után olyannyira felgyorsult, hogy gyakran a fájlokhoz (szövegekhez) tartozó fejléc kitöltése időigényesebb feladatnak bizonyult. A Nyelvtudományi Intézetben az XML-szövegeket morfoszintaktikai kódokkal látták el: minden szóalak mellé felkerült a megfelelő morfoszintaktikai kód. A kódolást a MorphoLogic Kft.-ben kifejlesztett HUMOR (High-Speed Unification Morphology) morfológiai elemzőprogram végzi: a program lényege, hogy szótár és nyelvtan segítségével felismeri (elemzi vagy adott esetben generálja) az adott szóalakokat. Mivel a program nem rendelkezik szemantikai ismeretekkel, így általában egy-egy szónak több elemzését is létrehozza. Például: ultramarinkék a) \i\tramarin[főnév]+kék[főnév] b) u\tra[főnév]+mar[főnév]+i[-i képző]+nk[birtokos személyjel]+ ék [képző] + [nominativus]). Ezek a szóalak-homonimák többségében azonban még a morfológiában kezelhetőek, sőt a szövegszintaxis ismeretében (vagy statisztikai módszerekkel) általában majdnem teljes mértékben egyértelműsíthetőek (a HUMOR program működéséről és az elemzés folyamatáról 1. még Novák 2003, Novák-M. Pintér 2006, a Nyelvtudományi Intézetben végzett feladatokról bővebben http://corpus.nytud.hu/kmmk/ final report.html) A Termini Kutatóhálózat által végzett alapkódolás az egyes régiókban eltérő gyorsasággal, eltérő módszerekkel, illetve eltérő számítógépes programokkal valósult meg. (A végeredmény azonban minden kutatóállomáson azonos volt: ez garantálta az egységes kimenetet.) Az eltérő módszerek természetesen később a munkafolyamatban eltérő problémákat okoztak. Ezek megvitatásával és megoldásával több csatornán próbálkoztunk. Erre szolgáltak a már említett korpusznyelvészeti tréningek, továbbá az irodák közös megbeszélései, az illyefalvi találkozók, illetve tájékoztató céllal jött létre az Mnsz határon túli korpuszának honlapja (http:// corpus.nytud.hu/mnszworkshop/index.html). A 2005-ös megjelenés és lezárás után a gyűjtések és feldolgozások tovább folytatódtak, így a már lezárt gyűjtés folyamán kialakult struktúra (szépirodalom, tudományos próza, publicisztika, hivatalos szövegek, személyes közlés) megőrzésével igyekeztünk az első szakasz lezárta után meglévő proporcionális egyenetlenségeket csökkenteni. Az elemzett szöveg leginkább morfológiai kutatásokat tesz lehetővé, mivel az elemző korlátáiból fakadóan elsődlegesen csak morfológiai kódolás történt