Nyelvtudományi Közlemények 85. kötet (1983)
Tanulmányok - Gósy Mária–Olaszy Gábor: A gépi beszéd megértése (Az UNIVOICE magyar nyelvű, azonos idejű, számítógépes szövegszintetizáló rendszer percepciós vizsgálata) [The Perception of Machine Voice (Examination of the UNIVOICE, Hungarian Speaking, Real Time Text-to-Speach Synthesizing System)] 93
96 GÓSY MÁRIA-0LASZY GÁBOR (Gósy—Olaszy—Hirschberg—Farkas 1982), afáziavizsgálatok anyaga ; logopédiában, foniátriában: a beszédhangképzés akusztikájának szemléltetése ; atanításban: helyesírást, matematikát ,,tanító" gépek, játékok ; „beszélő" olvasógépek, lázmérők, mérlegek, vérnyomásmérők stb. vakok számára ; postai szolgáltatásokban: pontos idő, időjárásjelentés, információszolgálat ; a számítógé p-t echnikában: „beszélő" terminál ; a riasztórendszerekben: tűzjelző, betörésjelző, kórházi intenzív osztály műszeréhez kapcsolt terminál ; ipari vezérlőrendszerekben: mérésiadat-szolgáltatás ; a közlekedésben : „beszélő" automaták gépkocsikban, metrókban, repülőgépeken, vonatokon ; a háztartásban: „beszélő" háztartási gépek. Mi biztosítja a mesterséges beszéd jó hangminőségét ? Egyrészről a magyar beszéd hangtani szabályainak (a beszédhangok akusztikai felépítésének, kapcsolódási törvényszerűségeinek, a hangsorok fonotaktikai elrendeződési sajátságainak stb.) pontos és szigorú betartása. Egyes mássalhangzók komponensei ugyanis — mint a [b] zárfelpattanásának frekvenciája, a [k] zörejgóca, a [v] formánsai stb. — változnak a hangkörnyezettől függően. A hangsorépítéshez nem elegendő tehát ezekből a mássalhangzókból csak egyfajtát tárolni az adatbázisban, többre van szükség. A különböző magánhangzókhoz mindig a hozzájuk „illő" mássalhangzó-elemet kell az adatbázisból kiválasztani és csatolni. A legtöbb mássalhangzó akusztikai szerkezete nemcsak a környező hangoktól függhet, hanem a hangsorban elfoglalt helyétől is. Meg kell különböztetnünk az abszolút hangsor eleji és az abszolút hangsorvégi helyzetet is, mivel a hangok akusztikai szerkezetének egyes elemei változ(hat)nak ezekben a pozíciókban. Például a „babaláb" szóban az első [b] akusztikai szerkezete különbözik a másodikétól, a szóvégi [b]-jé pedig mindkettőétől. Ezeket a jelenségeket szintén tükröztetni kell az adatbázisban. Másrészről szem előtt kell tartani a szintézis során mindig azt a tényt, hogy az ember egy humán (biológiai) rendszerrel (izmok, idegpályák, agyi centrumok stb.) hozza létre a beszédet ; a szintézisben pedig ugyanazt az eredményt egy technikai, elektromos rendszerrel (ellenállások, tranzisztorok, integrált áramkörök, kondenzátorok) kell létrehoznunk. Ez egyszersmind korlátozásokat is foglal magában, hiszen az alkalmazott berendezések (a számítógép, a szintetizátor) véges számú vezérlőparaméterrel rendelkeznek (az OVE III szintetizátor például 3 formánssal, 2 zörejgóccal, 1 nazális formánssal, 3 formánssávszélességgel, 30 dB-es dinamikatartománnyal stb.). Ezekkel a rendelkezésre álló paraméterekkel kell a szintézisben megközelítenünk a természetes beszéd akusztikai szerkezetét. További nehézséget jelent, hogy a beszédszintetizátor gerjesztett elektromos hálózatként dolgozik, és ha a paramétereit helytelenül állítjuk be, akkor tranziens jelenségek, gerjedések léphetnek fel, amik a szintetizált beszédet torzító, zavaró tényezőkként jelentkeznek. Ezek elkerülése érdekében sokszor engedményekre kényszerülünk az akusztikai szerkezet rovására ; ugyanakkor ezek az „engedmények" nem vezethetnek a mesterséges beszéd hangminőségének oly mértékű romlásához, hogy az a beszéd felismerését nehezítse. Az UNI VOICE adatbázisát képező 370 hangszelet akusztikai szerkezetét úgy alakítottuk ki, hogy ha a hangszeletek bármelyike találkozik egy másikkal az automatikus hangsorépítés során, akkor akusztikai csatolódásuk sima, törésmentes legyen. Ennek az ellenőrzése (javítása, finomítása) úgy a legegyszerűbb és leghatásosabb, ha minél gyorsabban történik a szintézis ; a