189337. lajstromszámú szabadalom • Eljárás formáns szintetizátor vezérlésére mesterséges beszéd és speciális hangjelenségek létrehozása céljából

189 337 2 A találmány eljárásra vonatkozik szintetizátorok vezérlésére, amellyel kötött szótáras beszélő rend­szerek elemi közleményeit, valamint szótár nélküli beszélő rendszerek szövegét, továbbá egyes speciá­lis hangjelenségeket - pl. köhögést, suttogást stb. - lehet digitális úton előállítani. Ismeretes, hogy a természetes beszéd szerkezeté­nek hangzáshű jellemzésére jól használható egy olyan átviteli függvény, amelynek pólusfrekvenciái a formánsfrekvenciákkal, pólussávszélességei a for­­mánssávszélességekkel vannak kapcsolatban. Ma­ga a hangzáshű jellemzés megtörténhet a következő gyakorlati adatokkal:- 3 vagy 4 pólus-frekvencia,- 4 pólussávszélesség,- hangerősségre jellemző intenzitás,- zöngés-zöngétlen jellemző,- zöngés esetben a pillanatnyi alapfrekvencia ér­téke (dallam),- szünetek. Ezt a jellemzést összefoglalóan formáns-jellem­­zésnek hívjuk. Ismeretesek olyan műszaki megoldások a beszéd mesterséges előállítására, amelyekben közvetlenül a bemondó által bemondott szöveg feszültség idő függvényét (oszcillogramját) reprodukálják elekt­romos áramkörök és matematikai módszerek fel­­használásával. Ilyenkor a beszéd időfüggvény min­táival történik a beszéd jellemzése. Más eljárások a beszéd szerkezetének jellemzésére lineáris predik­­cióval vagy parciális korrelációval nyerhető jellem­zőket használnak. Eljárásunk nem a három utóbb említett (a beszédet mintákkal, lineáris predikciós együtthatókkal vagy parciális korrelációs ténye­zőkkel jellemző) módszeren, hanem a legelőször említett beszéd, ill. hangjellemzési módszeren ala­pul. Minden esetben a beszéd jellemzése végsőso­ron kódsorozatokkal történik. A kötött szótáras rendszerekben a fenti jellemzés valamelyikét a szótárkészlet elemeire alkalmazzák. A szótár nélküli rendszerekben a fenti jellemzés valamelyikét előre meghatározott akusztikai építő­elemekre alkalmazzák. Az akusztikai építőeleme­ket előre meghatározzák, és ezen építőelemekből épitik fel a beszédet. Ilyen rendszert dolgoztak ki az MTA Nyelvtudományi Intézetében, amely rend­szerben akusztikai épitőelemeket hoztak létre úgy, hogy meghatározták a magyar beszédre jellemző hangsorkezdő, hangsorbelseji, hangsorvégi elemek, valamint a hangkapcsoló részek frekvencia adatait, intenzitását és időtartamát és így 370 vagy ahhoz közelálló számú építőelemet hoztak létre. Ezekből építik fel a magyar beszédet. Találmányunk elé azt a célt tűztük ki, hogy olyan eljárást dolgozzunk ki a szintetizált beszéd előállí­tására, amelynek segítségével jóminőségű beszéd állítható elő mind kötött szótáras rendszerek részé­re, mind pedig szótárnélküli megoldásokhoz, to­vábbá olyan hangjelenségek is előállíthatok legye­nek, melyek formáns jellemzése megadható. Ejárá­­sunk azt eredményezi, hogy a beszéd jó minőségé­nek megtartása mellett a kötött szótáras rendsze­rekben l másodperces beszéd előállításához kb. 100-150 byte-ra van szükség, a szótárnélküli rend­szerben pedig jó minőségű beszédnél mindössze 256 fonetikai alapelemre csökken az az adatbázis, ame­lyet a hangsorok felépítéséhez használunk, míg igen kiváló minőségű beszédhez 500...650 fonetikai alapelemet használunk fel. További célként tűztük ki, hogy olyan eljárást dolgozzunk ki a beszéd formánsjellemzésében sze­replő paraméterek, és különösképpen azok időbeni változásának továbbá a fonetikai alapelemek meg­határozására, amelynek segítségével a számítógép vagy ahhoz hasonló eszköz számára jellemezhetjük a természetes ejtésű beszédet, s ugyanakkor ehhez a jellemzéshez a minimális memóriakapacitást vesszük igénybe. A találmányunk szerinti műszaki megoldást részleteiben rajzmellékleteken mutatjuk be, ahol az 1. ábrán a szimultán lépcsős közelítés példája látható négy paraméter kapcsán, a 2. ábra pedig a tükörszimmetrikus elvet ábrázolja az álla­potjellemző paraméterekre. Eljárásunk lényege te­hát a rajzmellékletekből is megállapíthatóan azzal jellemezhető, hogy nem hangsorkezdő, hangsorbel­seji, csatoló és hangsorvégi elemeket hozunk létre, hanem a beszédelőállításhoz szükséges adatokat a természetes beszédjelre alkalmazott szimultán lép­csős közelítés optimális elvégzésével nyerjük. En­nek során természetes beszédet vesszük alapul és ennek a beszédnek a jellemzőit vizsgáljuk a követ­kezők szerint. Vizsgáljuk az első pólus változását az idő függvényében és azt lépcsős közelítéssel mo­dellezzük, vizsgáljuk és lépcsősen modellezzük a második, és harmadik pólus-frekvencia változását az idő függvényében, majd ugyanezt az eljárást alkalmazzuk a Bl, B2, B3-mal jelölt pólus-sávszé­lességek változásának modellezésére. Vizsgáljuk to­vábbá az intenzitás változás és az alapfrekvencia változás idő-függvényeit és azokat is lépcsős közelí­téssel modellezzük, és külön vizsgáljuk a zöngés­­zöngétlen jellemzőt és azt egy kétállapotú változó­val (1 bit) adjuk meg. A pólusok, pólussávszélessé­gek, alapfrekvencia és az intenzitás változásait leíró görbék lépcsős közelítéseit úgy hozzuk létre, amint azt az 1. ábra illusztrálja, hogy valamennyi lépcsős közelítésben a lépcsők időtartamai egy közös alap­egység egészszámú többszörösei, ami azt jelenti, hogy a paraméterekben egy változástól számítva a következő változást csak ezen alapegységnyi idő­tartam egésszámú többszörösei elteltének időpilla­natában engedünk meg, és a változás így értelme­zett lehetséges időpillanatai minden paraméterre nézve közösek. Erre a közös lüktetésre utal a „szimultán lépcsős közelítés elnevezésben” a szimultán szó. A szimul­tán lépcsős közelítésnél arra is törekszünk, hogy egy vagy több paraméter változásai az egymást követő 2, 4, 8 vagy 16 darab alapegységnyi időtar­tamban azonos lépcsőmagasságúak legyenek, s ha ezt elértük, akkor az így összefogott 2, 4, 8 vagy 16-szoros alapegység időtartamú szegmenseket ugyanúgy önálló egységként kezeljük, mint az alap­egységnyi időtartamú szegmenseket és e szegmen­sek mindegyikére közös struktúrájú vezérlő kódso­rozattal hivatkozunk, mely kódsorozat természete­sen az időtartamot is definiálja. Az alapegységnyi időtartam tipikusan 2 és 8 msec közötti alkalmasan megválasztott hosszúságú. Az alapegységnyi idő­tartamnál hosszabb szegmensekben nem minden 5 10 15 20 25 30 35 40 45 50 55 60 65 2

Next

/
Oldalképek
Tartalom