Nyelvtudományi Közlemények 85. kötet (1983)
Tanulmányok - Gósy Mária–Olaszy Gábor: A gépi beszéd megértése (Az UNIVOICE magyar nyelvű, azonos idejű, számítógépes szövegszintetizáló rendszer percepciós vizsgálata) [The Perception of Machine Voice (Examination of the UNIVOICE, Hungarian Speaking, Real Time Text-to-Speach Synthesizing System)] 93
98 GÓSY MÁRIA-OLASZY GÁBOR a dekódolási folyamat esetleges hibáját. Ez utóbbi azonban csak akkor jelentkezik — mint azt eredményeink is igazolták —, ha a feldolgozó rendszer (ti. a beszédhallási mechanizmus) a megszokottól bizonyos értelemben eltérően működik. A beszédmegértés folyamata fokozatos, noha ezek a fokozatok („szintek") gyakran nem is egymásutániságban, hanem egyidejűleg vagy éppen fordított sorrendben valósulnak meg (Wingfield 1975). A percepciós rendszer döntően jelentéssel bíró beszédegységek feldolgozását végzi. Az ettől különböző szekvenciák felismerése és azonosítása a dekódolási folyamat módosulásával jár : annak csak egy része működik, vagy másképpen „dolgoznak együtt" az egyes szintek. Ez a módosulás (gyakran az asszociációs mezők részvételének hiányával) a visszakapcsolási, ellenőrzési folyamatokat részlegessé teszi, az egész folyamat működését nehezíti. Szótagok és logatomok azonosításakor gyakori, hogy az azonosítandó beszédelemet is tartalmazó, de értelmes szavakat ismernek föl a kísérleti személyek (pl. csa helyett csak-ot, szé helyett szép-et stb.), hiszen a jelentéses szekvenciák felismerése az általánosan jellemző a természetes kommunikációban. (Torzított beszédelemek azonosítási feladatában az értelmes szavak jelentkezése 25—35%-os volt, annak ellenére, hogy a kísérlet vezetője közölte a hallgatókkal, hogy szótagokat fognak hallani, vö. Gósy 1982b.) Ismert, hogy az emberi percepciós rendszer a hallási szinten sokkal több megkülönböztetésre képes, mint ahány abszolút azonosításra. Ez az anyanyelv korlátozott számú egységének következménye (Hörmann 1971. 67). Például az /o/ és az joj magánhangzó-fonémák között a magyar anyanyelvű több hangot meg tud különböztetni, de csupán kettőt képes „megnevezni", az [o]-t és az [o]-t, mivel a kettő között a magyarban más fonéma nincsen. A természetes beszéd fonémáinak megfelelő invariáns jegyek őrződnek az ún. hosszú idejű memóriában „prototípusokként" (vö. Massaro—Oden 1978) ; a gépi beszéd feldolgozásakor a bejövő akusztikus ingereket ugyanezeknek a prototípusoknak kell megfeleltetni. Ez a művelet egyszerűsödik akkor, ha jelentéses egységet vagy hosszabb szöveget kell megérteni. Meggyőződésünk szerint ugyanis a hosszú idejű memóriában a prototípusokon kívül létezik még egy „szint", amelyik magában foglalja a prototípusok lehetséges szerveződési sorozatait. Ezek egyértelműen az anyanyelvi fonotaktikai (és szintaktikai) szabályok következtében alakultak ki a beszédfejlődés során, sajátos kapcsolatot tartva a szemantikával (Gósy 1982b). Feltevésünk szerint a jelentéses beszédegységek feldolgozási folyamata a természetes és a gépi beszéd esetében azonos, míg a lógatom jellegű szekvenciák esetében csaknem megegyező, nagyon hasonló. A percepciós kísérlet Az UNIVOICE rendszer teszteléséhez különböző nagyságrendű beszédszekvenciákat alakítottunk ki : a hangkapcsolatoktól az összefüggő szövegig. A nyelvi anyag kialakításának szempontjai a következők voltak : a) különféle nagyságrendű, jelentéses és jelentés nélküli szekvenciákat tartalmazzon, b) lehetőleg valamennyi beszédhang előforduljon, minél több különböző fonetikai helyzetben : hangsor elején, közepén és végén. (Ez a szempont egy nagyságrenden belül, például a hangkapcsolatoknál természetesen csak részlegesen valósulhatott meg),