185527. lajstromszámú szabadalom • Eljárás és berendezés szintetizátor(ok) vezérlésére, szótár nélküli szintetizált beszéd a vezérléssel quasi azonos időben történő előállítására

1 2 185 527 A szintetizáláshoz ún. minimalizált és optimalizált adatbázist hoztunk létre, amely a korábban említett 370 hangelemet tartalmazza. Ezek az építőelemek nem beszédhangok, hanem hang­részek. Rendszerünkben is bizonyos építőelemeket a hangsorépítés során több helyen is fel lehet használni (például a szóeleji, ,b” hang három elemből áll). Az első a zöngének a csend szintjéről való intenzitásfelvezérlését tartalmazza, a második a fojtott zönge lényeges szakaszát egészen a zöngés zárfelpattanásig, a harmadik pedig egy rövid időtartamú (kb. 10—12 ms) építőelem, amivel a magyar ejtésű ,,b” hang zárfelpattanását valósítjuk meg. Ha a ,,b” hanghoz egy magánhangzót kapcsolunk (példá­ul a ,,ba” szótagban) akkor a zárfelpattanás után képez­nünk kell egy olyan részt, amely biztosítja a ,,b” és a ma­gyar , ,a” közötti átmenet akusztikai megvalósítását. Ez a ,,b a” átmeneti építőelem. Mivel a magánhangzó képzési konfigurációja minden magánhangzótípusnál más (az á, a, o, u, i, é, ü, e hang a magyarban a nyelvre jellemző akusztikai szerkezettel rendelkezik), ezért a ,,b” magán­hangzó átmenetet biztosító építőelemnek is mindig más­nak kell lennie attól függően, hogy milyen magánhangzó kapcsolódik a magyar ,,b” hanghoz. Bonyolítja a szinte­tizálást, hogy a magyar beszédben a magánhangzó visszahat a ,,b” hang zárfelpattanásának akusztikai összetevőire. így a ,,b” hangnál is annyi (vagy közel annyi) építőelemet kell készíteni ahány magánhangzó van a magyarban. A hangsorépítés során ezután következik a magyar ,,a” hang ún. tiszta fázisát megvalósító hangsze­let hozzácsatolása. A hangsorépítés hasonlóan folyik to­vább. Felhasználás szempontjából a ,,b” első építőeleme minden hangsorkezdő helyzetben használható (például a ba, bá, bo, ... br, bl, stb. kezdetű szavakban), a második a zönge középső része minden hangsoreleji helyzetben hozzákapcsolható az első szelethez, de a magyar beszéd­ben a hangsor ji helyzetben is ezt használhatjuk (például a baba, bibe, stb. szavak második ,,b” zöngéjénél). A zárfelpattanás hangszeletét a magyar beszéd felépítésénél nemcsak hangsoreleji, de hangsorbelseji helyzetben is használhatjuk, ha ugyanazon magánhangzóhoz csatlako­zunk. Tehát mivel a magyarban 9 magánhangzó van, a ,,b” zárfelpattanási akusztikai építőelemét (9 db), össze­sen 18 esetben használhatjuk fel. A magánhangzó tiszta fázisát reprezentáló elemet pedig bárhol felhasználhatjuk a hangsorban. A fenti példából következik, hogy a 370 akusztikai építőelemből vannak olyanok, amelyeket igen sokszor és vannak olyanok, amelyeket csak 1-szer hasz­nálunk fel a magyar beszéd generálásánál. Az adatbázis minimalizálására azért van szükség, hogy minél keve­sebb memóriakapacitást használjunk fel a processzornál. Ez képezi az akusztikai építőelemek jellemzőinek meg­határozásán túlmenően találmányunk lényegét. Ezekkel az építőelemekkel a magyar beszéd bármely szóhangsora létrehozható. Az elemek összes kombiná­ciójából (9 rövid, 5 hosszú magánhangzó, 23 rövid és 23 hosszú mássalhangzó) tehát létrehoztunk egy olyan mini­malizált adatbázist, amelyben lévő hangsorépítő elemek kombinációiból bármilyen magyar szóhangsor előállítha­tó. így bármely szöveg amely a magyar köznyelvnek ele­me meghangosítható. Találmányunk értelmében a fentiekben ismertetett szintetizált beszéd előállítása a következő módon történik: Először megjelöljük a kérdéses hangsort — esetleg egy adott kódsorozat megadásával — ezt követően értelmez­hetjük a betűjeleket, amelyeket magyar beszéd elemeivé alakítunk át. Ezek helyét a hangsorban is értelmezni kell, azaz meg kell állapítani, hogy az kezdő-, hangsorbelseji-, vagy záróelem-e. Ezt követően kikeressük az adott bázisból azokat az akusztikai építőelemeket, amelyeket a hang­sorépítésnél fel kell használni. További tevékenység a hangsorvégi írásjel értelmezése majd az írásjel szerinti intonációs görbének a hangsorra történő felültetése. Az így sorbarakott elemeket illetve az azokba inkorpo­­rálódó bitsorozatot önmagában ismert szintetizátorhoz továbbítjuk, amelynek útján a bitsorozatnak megfelelő magyar hangsort megszólaltatjuk. Az előzőekben ismertetett eljárás foganatosítására al­kalmas berendezést rajzmellékleten ismertetjük. Az 1. ábra a berendezés vázlatos felépítését mutatja be. A szintetizálni kívánt szöveg betűsorral, kóddal, illetve kiegészítő jelekkel történő megoldására 1 adatbefogadó egység szolgál, amely billentyűzettel, vagy kódsorozat megadására alkalmas eszközzel rendelkezik. Az említett 1 adatbefogadó egység 4 dekódoló közbeiktatásával 6 összehasonlító egységhez csatlakozik, amely utóbbi egy­részt 7 graféma tárhoz, másrészt 8 kiválasztó áramkör­höz van kötve. A 8 kiválasztó áramkör 3 memóriaegység­hez valamint 2 processzorhoz van kapcsolva. Az említett 2 processzor 5 beszédszintetizátorral van kapcsolatban. A berendezés működése a következő: Az 1 adatbefogadó egységet billentyű leütése vagy egy kódsorozat megadása útján aktivizáljuk. Ekkor a 2 pro­cesszor értelmezi a betűjeleket, a 4 dekódolótói nyert je­lek alapján, amelyeket a 6 összehasonlító egység és 7 graféma tár adataiból képezzük, és meghatározza a ma­gyar hangok helyét a hangsorban. A 2 processzor a 3 me­móriaegységben elhelyezkedő adatbázisból a 8 kiválasztó áramkör segítségével kikeresi azoknak az építőelemek­nek az azonosító jeleit, amelyeket fel kell használni a hangsorépítésnél, majd azokat sorba helyezi. Ezt követően az 1 adatbefogadó egység által megadott hangsorvégi írásjelnek megfelelően a hangsorra ráülte­­tésre kerül az intonációs görbe. Az így sorbarakott ele­mek tartalmának megfelelő bitsorozat alapján, az aktuá­lis hangsort az 5 beszéd szintetizátor közbeiktatásával szólaltatjuk meg. Ezután a 2 processzor és kapcsolt ré­szei eredeti állapotukba térnek vissza, és új hangsorbeü­tésre kész helyzetbe kerülnek. A berendezés különleges előnye az, hogy a szintetizált magyar beszéd a vezérléssel azonos, illetve quasi azonos időben előállítható. A 370 elemet tartalmazó adatbázis valamint az átalakí­tás rendszere lehetőséget nyújt arra, hogy előre betáplált szótár nélkül, tetszőleges magyar hangsorokat akár szóta­gokat, betűkihagyásos szavakat, logatomokat fordított ej­tésű szavakat, stb. generálhassunk. Az általunk kidolgo­zásra került eljárás és berendezés a szintetizált beszéd korlátozott szótár nélküli és azonosidejű előállítására (re­altime) lehetőséget nyújt, a hatékony beszégkutatás ki­szolgálására például a magyar beszéd nyelvészeti­fonetikai vizsgálatára, percepciós kísérletekhez, kont­rasztív nyelvészeti összehasonlítások elemzésére, szöveg­fonetikai szabályszerűségek meghatározására. 5 10 15 20 25 30 35 40 45 50 55 60 3

Next

/
Oldalképek
Tartalom