189337. lajstromszámú szabadalom • Eljárás formáns szintetizátor vezérlésére mesterséges beszéd és speciális hangjelenségek létrehozása céljából
189 337 2 A találmány eljárásra vonatkozik szintetizátorok vezérlésére, amellyel kötött szótáras beszélő rendszerek elemi közleményeit, valamint szótár nélküli beszélő rendszerek szövegét, továbbá egyes speciális hangjelenségeket - pl. köhögést, suttogást stb. - lehet digitális úton előállítani. Ismeretes, hogy a természetes beszéd szerkezetének hangzáshű jellemzésére jól használható egy olyan átviteli függvény, amelynek pólusfrekvenciái a formánsfrekvenciákkal, pólussávszélességei a formánssávszélességekkel vannak kapcsolatban. Maga a hangzáshű jellemzés megtörténhet a következő gyakorlati adatokkal:- 3 vagy 4 pólus-frekvencia,- 4 pólussávszélesség,- hangerősségre jellemző intenzitás,- zöngés-zöngétlen jellemző,- zöngés esetben a pillanatnyi alapfrekvencia értéke (dallam),- szünetek. Ezt a jellemzést összefoglalóan formáns-jellemzésnek hívjuk. Ismeretesek olyan műszaki megoldások a beszéd mesterséges előállítására, amelyekben közvetlenül a bemondó által bemondott szöveg feszültség idő függvényét (oszcillogramját) reprodukálják elektromos áramkörök és matematikai módszerek felhasználásával. Ilyenkor a beszéd időfüggvény mintáival történik a beszéd jellemzése. Más eljárások a beszéd szerkezetének jellemzésére lineáris predikcióval vagy parciális korrelációval nyerhető jellemzőket használnak. Eljárásunk nem a három utóbb említett (a beszédet mintákkal, lineáris predikciós együtthatókkal vagy parciális korrelációs tényezőkkel jellemző) módszeren, hanem a legelőször említett beszéd, ill. hangjellemzési módszeren alapul. Minden esetben a beszéd jellemzése végsősoron kódsorozatokkal történik. A kötött szótáras rendszerekben a fenti jellemzés valamelyikét a szótárkészlet elemeire alkalmazzák. A szótár nélküli rendszerekben a fenti jellemzés valamelyikét előre meghatározott akusztikai építőelemekre alkalmazzák. Az akusztikai építőelemeket előre meghatározzák, és ezen építőelemekből épitik fel a beszédet. Ilyen rendszert dolgoztak ki az MTA Nyelvtudományi Intézetében, amely rendszerben akusztikai épitőelemeket hoztak létre úgy, hogy meghatározták a magyar beszédre jellemző hangsorkezdő, hangsorbelseji, hangsorvégi elemek, valamint a hangkapcsoló részek frekvencia adatait, intenzitását és időtartamát és így 370 vagy ahhoz közelálló számú építőelemet hoztak létre. Ezekből építik fel a magyar beszédet. Találmányunk elé azt a célt tűztük ki, hogy olyan eljárást dolgozzunk ki a szintetizált beszéd előállítására, amelynek segítségével jóminőségű beszéd állítható elő mind kötött szótáras rendszerek részére, mind pedig szótárnélküli megoldásokhoz, továbbá olyan hangjelenségek is előállíthatok legyenek, melyek formáns jellemzése megadható. Ejárásunk azt eredményezi, hogy a beszéd jó minőségének megtartása mellett a kötött szótáras rendszerekben l másodperces beszéd előállításához kb. 100-150 byte-ra van szükség, a szótárnélküli rendszerben pedig jó minőségű beszédnél mindössze 256 fonetikai alapelemre csökken az az adatbázis, amelyet a hangsorok felépítéséhez használunk, míg igen kiváló minőségű beszédhez 500...650 fonetikai alapelemet használunk fel. További célként tűztük ki, hogy olyan eljárást dolgozzunk ki a beszéd formánsjellemzésében szereplő paraméterek, és különösképpen azok időbeni változásának továbbá a fonetikai alapelemek meghatározására, amelynek segítségével a számítógép vagy ahhoz hasonló eszköz számára jellemezhetjük a természetes ejtésű beszédet, s ugyanakkor ehhez a jellemzéshez a minimális memóriakapacitást vesszük igénybe. A találmányunk szerinti műszaki megoldást részleteiben rajzmellékleteken mutatjuk be, ahol az 1. ábrán a szimultán lépcsős közelítés példája látható négy paraméter kapcsán, a 2. ábra pedig a tükörszimmetrikus elvet ábrázolja az állapotjellemző paraméterekre. Eljárásunk lényege tehát a rajzmellékletekből is megállapíthatóan azzal jellemezhető, hogy nem hangsorkezdő, hangsorbelseji, csatoló és hangsorvégi elemeket hozunk létre, hanem a beszédelőállításhoz szükséges adatokat a természetes beszédjelre alkalmazott szimultán lépcsős közelítés optimális elvégzésével nyerjük. Ennek során természetes beszédet vesszük alapul és ennek a beszédnek a jellemzőit vizsgáljuk a következők szerint. Vizsgáljuk az első pólus változását az idő függvényében és azt lépcsős közelítéssel modellezzük, vizsgáljuk és lépcsősen modellezzük a második, és harmadik pólus-frekvencia változását az idő függvényében, majd ugyanezt az eljárást alkalmazzuk a Bl, B2, B3-mal jelölt pólus-sávszélességek változásának modellezésére. Vizsgáljuk továbbá az intenzitás változás és az alapfrekvencia változás idő-függvényeit és azokat is lépcsős közelítéssel modellezzük, és külön vizsgáljuk a zöngészöngétlen jellemzőt és azt egy kétállapotú változóval (1 bit) adjuk meg. A pólusok, pólussávszélességek, alapfrekvencia és az intenzitás változásait leíró görbék lépcsős közelítéseit úgy hozzuk létre, amint azt az 1. ábra illusztrálja, hogy valamennyi lépcsős közelítésben a lépcsők időtartamai egy közös alapegység egészszámú többszörösei, ami azt jelenti, hogy a paraméterekben egy változástól számítva a következő változást csak ezen alapegységnyi időtartam egésszámú többszörösei elteltének időpillanatában engedünk meg, és a változás így értelmezett lehetséges időpillanatai minden paraméterre nézve közösek. Erre a közös lüktetésre utal a „szimultán lépcsős közelítés elnevezésben” a szimultán szó. A szimultán lépcsős közelítésnél arra is törekszünk, hogy egy vagy több paraméter változásai az egymást követő 2, 4, 8 vagy 16 darab alapegységnyi időtartamban azonos lépcsőmagasságúak legyenek, s ha ezt elértük, akkor az így összefogott 2, 4, 8 vagy 16-szoros alapegység időtartamú szegmenseket ugyanúgy önálló egységként kezeljük, mint az alapegységnyi időtartamú szegmenseket és e szegmensek mindegyikére közös struktúrájú vezérlő kódsorozattal hivatkozunk, mely kódsorozat természetesen az időtartamot is definiálja. Az alapegységnyi időtartam tipikusan 2 és 8 msec közötti alkalmasan megválasztott hosszúságú. Az alapegységnyi időtartamnál hosszabb szegmensekben nem minden 5 10 15 20 25 30 35 40 45 50 55 60 65 2