176776. lajstromszámú szabadalom • Eljárás és berendezés beszéd szintetizálására
5 176776 6 „formáns eloszlás” — egy meghatározott beszédhanghoz (fonémához) tartozó frekvenciaeloszlás; „beszédelemek” — a beszédet, mint akusztikus függvényt jellemző görbék részei; „beszédet kísérő hangok” — egy kifejezés kezdetén vagy végén, vagy például írásjeleknél a be- vagy kilégzés által keltett hangok; „hangperiódusok” — ezek képezik a beszédhangot (fonémát) alkotó periódusokat. A továbbiakban a fonémák alábbi csoportjait vizsgáljuk meg, ahol a csoportosítás a szintézis módszerével is összefüggő néhány jellemző tulajdonságtól függ. Ilyen fonéma csoportok a hangfonémák, zajfonémák és vegyes fonémák. Mindezen csoportokban léteznek rövid és hosszú ideig tartó fonémák. A hangfonémákat úgy kapjuk meg, hogy egy memóriában tárolt hangperiódusok sorozatát szekvenciálisán reprodukáljuk. A hangperiódusokat egy adott formáns eloszlásra jellemző valós beszédről készült felvétel vagy szintézis segítségével előre beírjuk a memóriába. Az adott hangfonéma szintéziséhez tartozó periódusok számát és típusát a választott nyelv fonémájának a jellege, a szomszédos fonémák jellege és típusa, a hangsúly helye, a mondat hangsúlyozása stb. határozzák meg. Ilyen módon a nyelvtani fonéma egység a szintézis szempontjából különböző periódusú sorozatok sokaságának felel meg. A konkrétan szükséges hangperiódus kombinációkat, ezek számát, időtartamát és amplitúdóját meghatározott algoritmus szerint valós idejű (real time) program segítségével számítjuk ki, majd ezeket olyan lejátszó egységhez továbbítjuk, amely alkalmas ezek reprodukálására. A szintetizált beszéd természetes jellegét a különböző periódusok időtartamának és amplitúdójának a kvázi véletlen módosításával érjük el. A zajfonémákat úgy szintetizáljuk, hogy egy megfelelő zajfonéma tárolt szektorának kiválasztott részeiből kvázivéletlen szekvenciális reprodukciót képezünk, vagy a tárból az erre vonatkozó fonémaszektorokat amplitúdó modulációval olvassuk ki, és az amplitúdó modulációt és az időtartamokat a szintézis algoritmusával összhangban határozzuk meg. A vegyes fonémákat részben a hangfonémákhoz, részben pedig a zajfonémákhoz hasonlóan szintetizáljuk ahol a zajrészeken a hangrészek periódusával járulékos amplitúdó modulációt végzünk. Példák ; A cirill „P” (azaz a latin „R”) fonéma esetében a szintetizált hangot a nyelv rezgésének frekvenciájával amplitúdó moduláljuk. A bulgár nyelv esetét választva (cirill ábc mellett) az „A”, „E”, „H”, „O”, „E”, „Y”, „íí”, „rí”, „M”, „H” és „P” fonémákat hangfonémaként lehet szintetizálni: a „C”, „ffl”, „X”, „ír, A”, „K”, „n” és „T” fonémák szintetizálása zajfonémákból, és a „B”, „3”, „HC”, „E”, „H”, „r”, „H3” és „A>K” fonémáké vegyes fonémaként oldható meg. A fonémák közötti kapcsolatot úgy valósítjuk meg, hogy utólag meghatározott hangperiódusokat vezetünk be, amelyre a formáns eloszlás egyenletes átmeneteinek megvalósítása céljából van szükség. A beszédszintézishez alkalmazható berendezés alapegységét képezi a 4 fixtár, mert a beszédszintézis vázolt módszerével összhangban a szükséges információk ebben vannak rögzítve. Ezek az információk a hang- és zaj fonémák, és a beszédet kísérő hangok részei amplitúdóira vonatkozó digitális értékeket jelölnek. A 4 fixtárban rögzített különböző beszédelemek amplitúdóinak értékeit képező sorozatok hossza és kezdeti címe képezi a tárból való kiolvasást vezérlő információt, amelyet az 1 számítógép memóriája tárol. Egy adott nyelven a szintézis megvalósításához a 4 fixtárban rögzítendő beszédelemek választékát a szóban forgó nyelv fonetikai sajátosságaival összhangban úgy kell kialakítani, hogy a választott elemek a nyelv fonetikája tekintetében teljes rendszert alkossanak. Az 1 számítógép memóriájában az ismertetett eljárást megvalósító program van rögzítve, amely összhangban van a választott nyelv hangsúlyozásával és hanglejtésével. A program bemeneti információját olyan állandó szöveg képezi, amely szükség esetén fonetikai jeleket is tartalmaz, és ez a szöveg a választott nyelven egy rögzített mondatot képvisel. Az 1 számítógép a mondatot nyelvtani és fonetikai elemzésnek veti alá az adott nyelv szabályaival összhangban, hogy feltárja ennek frekvencia és amplitúdó jellemzőit, valamint a szünetek helyét és időtartamát, és a beszédet kísérő hangokat. Ezt követően ezen tulajdonságoktól és a mondatban levő szomszédos fonémák kölcsönhatásától függően meghatározzuk minden fonéma összetételét (az öt alkotó periódusok típusát), amplitúdó jellemzőit és időtartamát. A szintetizált mondat minden beszédeleme esetében ezenkívül meghatározzuk a beszédelem amplitúdóját, időtartamát, a 4 fixtárban elfoglalt kezdeti címét és a kiolvasás irányát. A mondat ilyen módon a felsorolt értékekkel jellemzett beszédelemek és szünetek sorozatára van felosztva. A beszédelemek sorozatára jellemző minden ilyen értéket az 1 számítógép valós idejű program alapján vesz és ezeket felkérésre egymás után a beszédszintézist vezérlő berendezés megfelelő egységeihez továbbítja. Ezen adatok segítségével a 4 fixtárból a 3 címregiszter számláló által jelzett kezdeti címen a számlálási irányt meghatározó 6 regiszter által kijelölt kiolvasási irányban egy beszédelemet hozunk ki. A 4 fixtárból való kiolvasás sebességét a kiolvasási frekvencia 9 regiszter értéke határozza meg, és a kiolvasási adatok számát a kiolvasási címek számához tartozó 10 regiszter értéke jelöli ki. A 9 és 10 regiszterek információja vezérli all impulzusgenerátor működését, amely időben változtatja a 3 címregiszter számláló tartalmát. Az így meghatározott beszédelem amplitúdója értékét szekvenciálisán a 16 digitál-analóg átalakítóhoz vezetjük, a 9 regiszterben tárolt előre meghatározott kiolvasási sebességgel. A 16 digitál-analóg átalakító kimenete a 15 erősítő-modulátor bemenetéhez csatlakozik, amelynek erősítését az a 14 digitál-analóg átalakító kimenete vezérli, amelyet a szintetizált beszéd ezen időpontra vonatkozó amplitúdója reprodukálásához szükséges digitális adatok átalakításához használunk. Ezeket a digitális adatokat az 1 számítógép határozza meg és az amplitúdó vezérlő 13 regiszteren keresztül adja ki. A 15 erősítő-modulátor által felerősített jelet hanggá való átalakítás céljából a 17 hangszóróhoz és a 18 távközlő vonalhoz vezetjük. A beszédelem reprodukciójának befejező5 10 15 20 25 30 35 40 45 50 55 60 65 3