Az Eszterházy Károly Tanárképző Főiskola Tudományos Közleményei. 1991. Tanulmányok a magyar nyelv, az irodalom köréből. (Acta Academiae Paedagogicae Agriensis : Nova series ; Tom. 20)

H. Varga Gyula: Igekötős szóalakok morfológiai elemzése számítógéppel

A művelet nehezét tehát a második metszet, a maradék ellenőrzése adja. Ez megoldható lenne olyan módszerrel, amilyennel a (készülő) helyesírás-ellenőrző programcsomagok dolgoznak. Vagyis mellékelünk egy szótárt, mely minden egyes magyar lexéma összes ragos-jeles szóalakját tartalmazza, így egyszerűen elvégezhető lenne az azonosítás. Csakhogy nekünk egy könnyen kezelhető, kis háttér információt igénylő programra van szükségünk, a szótár óriási anyaga meg elnehezítené, fölösleges és hosszú kereséseivel lelassítaná a műveletet. A maradék ellenőrzésére külön algoritmust kell kidolgoznunk. Ez a lépéssor fonotaktikai szabályoknak betűkre adaptálásával indul. Négy "betűtilalmi" szabályt állítunk fel: 1. a magyar nyelvben ige egyetlen betűből nem állhat, 2. két azonos betű nem lehet szókezdő helyzetben, 3. szó elején csak meghatározott betűkapcsolat állhat, 4. adott igékben bizonyos betűkombinációk szókezdeten nem fordulhatnak elő. Az első szabály kiszűri az olyan téves azonosításokat, mint az aláz, lep, lesz, ráz stb., a második szerint nem igekötős szó a berreg, lebben, lennék stb. Programunk ugyanis — a karakterek alapján — igekötőnek fogja találni az alá, le, rá, be szórészeket, így azokat leválasztja, a megmaradt szegmentumokról meg föltételezi, hogy igék vagy igenevek. Az első négy szóban a maradék egyetlen mássalhangzó, a többiben pedig a metszés után azonos mássalhangzók kerülnek szókezdő helyzetbe. Vagyis mindkét esetben kiderült a tévedés, így vissza kellett állítani az eredeti alakot. A harmadik szabály egy kicsit bonyolultabb. Lényege, hogy a magyar ábécé betűi nem állhatnak bármilyen kombinációban a szó elején. {Pl.: nincs dg-, akb-, chi- stb. kezdetű szavunk.) Különösen érvényes ez a mássalhangzókra. Vegyük szóalakjaink első két betűjét. A magyar mássalhangzókat jelölő 26 betű így — tehát kettesével — 650 variációt ad. Kassai Ilona kimutatta, hogy nyelvünk ~ a fonémákat tekintve -- ebből mindössze 44 (!) kapcsolatot használ föl (Kassai 1981, 73—74). A betűket vizsgálva meglepetéssel tapasztaljuk, hogy a magyar igékben szókezdő helyzetben összesen 27 mássalhangzó-kombináció használatos (sőt ebből néhány kapcsolattípus csak egy-két idegen szó elején fordul elő, pl.: pszichologizál, szceníroz, glorifikál, flörtöl stb.). 9

Next

/
Oldalképek
Tartalom