Szabómihály Gizella - Lanstyák István (szerk.): Magyarok Szlovákiában VII. Nyelv - Magyarok Szlovákiában 7. (Somorja, 2011)

Tanulmányok - A magyar nyelv szlovákiai változatainak jellemzői

166 Pintér Tibor a nyelvi valóság nem felelt meg az eredeti elképzeléseknek, hiszen a kisebbség nem „ter­mel” akkora mennyiségű hivatalos iratot, mint az elvárható lenne, illetve ennek összetétele is — a magyarországi mintához viszonyítva -, a tudományos prózához hasonlóan, kevésbé hivatalos anyagokkal van vegyítve. Átme­netileg problémát jelent a személyes közlések alkorpusza is: ennek ugyanis legalább két rész­ből kellene állnia: egyik része a gyors beszéd­fordulókból álló csetfórumok szövege, a másik a beszélt nyelvi szövegek lejegyzett változata. A határon túli magyar csetfórumok a magyar­­országiakhoz képest alulreprezentáltak, így nehezebb a kellő (arányaiban megfelelő) meny­­nyiségü szöveget összegyűjteni. A beszélt nyel­vi szövegek folyamatosan bővíthetőek, de csu­pán azután, hogy az irodák kellő gyakorlatot szereztek a lejegyzési útmutató használatában, így a 10% elméletileg elérhető (vagy inkább csak elképzelhető), ám mivel a többi alkorpusz is gyarapszik, ennek esélye egyre kevesebb (a hivatalos nyelvi szövegek esetében inkább el - képzelhetetlen). A már összegyűjtött anyag feldolgozása a Termini Kutatóhálózat részéről valójában csu­pán az összegyűjtött szövegek XML-annotáci­­óját jelentette (ami nem más, mint a meglévő szövegek „felcímkézése” a megfelelő XML attribútumokkal). A kezdetekkor még nehézke­sen működő folyamat némi programozói tudás megszerzésével jól ütemezhetővé és gyorssá vált. Az annotálás folyamata az automatizálás után olyannyira felgyorsult, hogy gyakran a fájlokhoz (szövegekhez) tartozó fejléc kitöltése időigényesebb feladatnak bizonyult. A Nyelvtudományi Intézetben az XML-szövege­­ket morfoszintaktikai kódokkal látták el: min­den szóalak mellé felkerült a megfelelő morfo­szintaktikai kód. A kódolást a MorphoLogic Kft.-ben kifejlesztett HUMOR (High-Speed Unification Morphology) morfológiai elemző­program végzi: a program lényege, hogy szótár és nyelvtan segítségével felismeri (elemzi vagy adott esetben generálja) az adott szóalakokat. Mivel a program nem rendelkezik szemantikai ismeretekkel, így általában egy-egy szónak több elemzését is létrehozza. Például: ultramarinkék a) \i\tramarin[főnév]+kék[főnév] b) u\tra[főnév]+mar[főnév]+i[-i képző]+nk[birtokos személyjel]+ ék [képző] + [nominativus]). Ezek a szóalak-homonimák többségében azon­ban még a morfológiában kezelhetőek, sőt a szövegszintaxis ismeretében (vagy statisztikai módszerekkel) általában majdnem teljes mér­tékben egyértelműsíthetőek (a HUMOR prog­ram működéséről és az elemzés folyamatáról 1. még Novák 2003, Novák-M. Pintér 2006, a Nyelvtudományi Intézetben végzett feladatok­ról bővebben http://corpus.nytud.hu/kmmk/ final report.html) A Termini Kutatóhálózat által végzett alapkó­dolás az egyes régiókban eltérő gyorsasággal, eltérő módszerekkel, illetve eltérő számítógé­pes programokkal valósult meg. (A végered­mény azonban minden kutatóállomáson azonos volt: ez garantálta az egységes kimenetet.) Az eltérő módszerek természetesen később a mun­kafolyamatban eltérő problémákat okoztak. Ezek megvitatásával és megoldásával több csa­tornán próbálkoztunk. Erre szolgáltak a már említett korpusznyelvészeti tréningek, továbbá az irodák közös megbeszélései, az illyefalvi találkozók, illetve tájékoztató céllal jött létre az Mnsz határon túli korpuszának honlapja (http:// corpus.nytud.hu/mnszworkshop/index.html). A 2005-ös megjelenés és lezárás után a gyűjtések és feldolgozások tovább folytatód­tak, így a már lezárt gyűjtés folyamán kialakult struktúra (szépirodalom, tudományos próza, publicisztika, hivatalos szövegek, személyes közlés) megőrzésével igyekeztünk az első sza­kasz lezárta után meglévő proporcionális egye­netlenségeket csökkenteni. Az elemzett szöveg leginkább morfológiai kutatásokat tesz lehető­vé, mivel az elemző korlátáiból fakadóan elsődlegesen csak morfológiai kódolás történt

Next

/
Thumbnails
Contents