Nyelvtudományi Közlemények 85. kötet (1983)
Tanulmányok - Gósy Mária–Olaszy Gábor: A gépi beszéd megértése (Az UNIVOICE magyar nyelvű, azonos idejű, számítógépes szövegszintetizáló rendszer percepciós vizsgálata) [The Perception of Machine Voice (Examination of the UNIVOICE, Hungarian Speaking, Real Time Text-to-Speach Synthesizing System)] 93
A GÉPI BESZËD MEGÉRTÉSE 97 felhasználó ,,akusztikai emlékképe" a létrehozott hangsorról nem halványodott még el túlságosan. Ezt az azonos idejű szintetizálási forma biztosítja. (Hiszen ha csak a CV kapcsolódási formát tekintjük — 24 mássalhangzó és 9 magánhangzó találkozhat ily módon —, ez önmagában is 648 fonetikai helyzet. A teljes hangkészletet figyelembe véve, ez az UNIVOICE rendszerben 33 X 33 hangot, azaz 1089 hangkapcsolódási variációt jelent. Rendszerünkben kb. 1 óra alatt lehet valamennyit meghallgatással átfésülni.) A munka eredményeként megszületett egy olyan kis elemszámú adatbázis, amellyel torzítások nélküli, jól érthető magyar beszédet lehet előállítani. A szubjektív véleményt azonban objektív mérési eredményekkel kívántuk alátámasztani. E cél érdekében végeztük el az UNIVOICE percepciós tesztelését. A mesterséges beszéd megértése A beszéd kommunikációs célokat szolgál, ennek megfelelően a legnagyobb mértékben biztosítania kell a szükséges információ maradéktalan továbbítását. A gépi beszéd esetében ez azt jelenti, hogy a megértés szempontjából másodlagos, hogy milyen akusztikai szerkezet segítségével történik az adott üzenet kifejezése, itt annak van jelentősége, hogy a használt akusztikai szerkezet mennyire biztosította az információ feldolgozhatóságát. A gépi beszéd megértésének elméleti problémája, hogy az a humán rendszer (vagyis a hallási-megértési mechanizmus), amelyik a beszéd mint úgyszintén ,,humán" produktum felfogására, feldolgozására van kialakítva, vajon miként képes egy teljesen „dologi", de funkciójában azonos, a természeteshez igen hasonló működési eredmény (ti. a szintetizált beszéd) dekódolására. Kétségtelen tény, hogy a mesterséges beszéd — mint korábban szóltunk róla — alapjaiban más, mint a természetes és ebből következhetne az is, hogy feldolgozásának módozata is más kell, hogy legyen. Tekintve azonban, hogy a gépi beszéd funkciójában és eredményében is a természeteshez nagyon közel áll, nincs olyan érv, amely alapot adhatna arra a feltételezésre, hogy megértése eltér a természetesétől. Ezt a pusztán gondolati következtetést a percepciós kísérleti eredményeink teljesen alátámasztották. A szintézis folyamán — mint említettük — a lehető legnagyobb mértékben igyekeztünk a természetes beszéd artikulációs mozgássorainak következményeként létrejövő rezgésformát szimulálni. Az analízis eredményei szerint ez a szimulálás jó. A beszéd azonban igen nagy mértékben redundáns, vagyis az akusztikai kontinuumban meglévő elemek közül gyakran többnek is azonos a feladata. Ez lehetővé teszi azt, hogy bizonyos mértékű rongálódás, torzulás esetén is biztosan megőrződjön az eredeti tartalom, amely még éppen elégséges a feldolgozó rendszer egyértelmű működéséhez (Gósy—Olaszy—Hirschberg—Farkas 1982). A szintetizáló rendszer lehetőségei pedig — újra hangsúlyozzuk — korlátozottak. A gépi beszéd létrehozásakor tehát éppen azokat az összetevőket kellett megtalálnunk és felhasználnunk, amelyek a még éppen biztos felismerés alapját képezik, de a rendszer nemigen tartalmaz redundáns elemeket. Ebből két dolog következik : a) a mesterséges és a természetes beszéd ugyanazon (ill. hasonló) komponenseket tartalmaz ; a percepciós rendszer így azonos (ill. hasonló) módon működhet, b) mivel a mesterséges beszédben nincsenek (vagy alig vannak) redundáns elemek, a percepciós rendszer működése is korlátozottabb ; a redundancia hiánya magában foglalja 7 Nyelvtudományi Közlemények 85/1.