Nyelvtudományi Közlemények 85. kötet (1983)
Tanulmányok - Gósy Mária–Olaszy Gábor: A gépi beszéd megértése (Az UNIVOICE magyar nyelvű, azonos idejű, számítógépes szövegszintetizáló rendszer percepciós vizsgálata) [The Perception of Machine Voice (Examination of the UNIVOICE, Hungarian Speaking, Real Time Text-to-Speach Synthesizing System)] 93
A GÉPI BESZËD MEGÉRTÉSE 95 A nyelvészeti-fonetikai kutatások egyik fő területe a beszéd akusztikai szerkezetének pontos leírása. A már feltárt adatok pontosításának és a még hiányzók megismerésének modern módszere az ún. analízis— szintézis, amely eljárás során a kutató az adott szekvencia analíziséből kapott adatokat (megfelelő átkódolás után) betáplálja a szintetizáló rendszerbe, s az így létrehozott, szintetizált változatot összevetheti a természetessel. Az egyes paraméterek változtathatósága lehetővé teszi azt, hogy a munka során jól meghatározhatók lesznek a beszédnek azok a mutatói, amelyek a paraméterek részvételét, illetve a részvétel mértékét szabályozzák az egyes beszédelemek felépítésében. Az eljárás eredményeként a vizsgált beszédrészietet és építőelemeit számadatok formájában lehet jellemezni. A magyar beszédhangok szintézise során kiderült, hogy az esetek többségében a fonetikai szakirodalomban addig használatos hangmeghatározások nem elegendőek a valós akusztikai szerkezet számítógépes reprodukálásához. Például a szintézis segítségével kimutattuk, hogy az abszolút hangsor eleji [b] hangot a következő paraméterek jellemzik : — a zönge teljes időtartama (ms) — a zönge induló fázisának időtartama (ms) — a zönge induló fázisának intenzitásnövekedés-mutatója (dB/ms) — a zönge további szakaszának (a zárfelpattanásig) intenzitásszerkezete (dB/ms) — a zönge átlagintenzitásának értéke a következő beszédhanghoz képest (dB) — a zönge frekvenciaszerkezetének komponensei (Hz) — a zárfelpattanás teljes időtartama (ms) — a zárfelpattanásra jellemző intenzitásnövekedési mutató (dB/ms) — a zárfelpattanás frekvenciaszerkezetének komponensei (Hz) Ugyancsak a nyelvészeti-fonetikai kutatások része a beszéd megértésének vizsgálata, amely — főként az utóbbi időben — elsősorban mesterséges beszéd alkalmazásával történik (Grósy 1981). A szabályokon alapuló beszédszintetizálási eljárással létrehozott beszédhangok, szavak stb. akusztikai szerkezetének bármelyik elemét (formáns, zörejfrekvencia, időszerkezet, intenzitásfelfutás, formánssávszélesség, alaphangmagasság stb.) a kutatás céljának megfelelően tudatosan megváltoztathatjuk, így olyan tartalmat adhatunk beszédhangoknak, hangsoroknak, amelyet természetes ejtésben nem tudunk produkálni. Hiába kérjük meg az — egyébként jól képzett, gyakorlott — bemondót, hogy például a barát szóban a [b] hang zárfelpattanásának idejét pontosan kétszeresére nyújtsa úgy, hogy ugyanakkor az intenzitásnövekedés üteme ne változzék, nem tudja teljesíteni. Azt sem érhetjük el természetes ejtéssel, hogy például az előbbi szó [a:] hangjában az első két formánst 100 Hz-cel felfelé csúsztatjuk, a harmadikét pedig nem változtatjuk. Ezekre a változtatásokra a beszélő ember nem képes ; a beszédképzés beidegzett automatizmusokra épül, s bár bizonyos módosításokat végre tudunk hajtani, nem biztos, hogy a változtatás mértéke az előzetesen kívánt értékeknek megfelel. Ilyen „mutatványokat" csak a gépi beszéddel lehet elvégezni ; s az ilyen jellegű beszédanyaggal végzett kísérletek, tesztvizsgálatok alapján állapíthatók meg az egyes beszédhangok felismeréséhez, azonosításához szükséges mutatók, értékek (Gósy 1982a ; 1982b). A mesterséges beszéd számos más területen is felhasználható, például az orvosi gyakorlatban: beszédaudiometriás, audiológiai tesztek