185527. lajstromszámú szabadalom • Eljárás és berendezés szintetizátor(ok) vezérlésére, szótár nélküli szintetizált beszéd a vezérléssel quasi azonos időben történő előállítására | Könyvtár

185527. lajstromszámú szabadalom • Eljárás és berendezés szintetizátor(ok) vezérlésére, szótár nélküli szintetizált beszéd a vezérléssel quasi azonos időben történő előállítására

1 2 185 527 A szintetizáláshoz ún. minimalizált és optimalizált adatbázist hoztunk létre, amely a korábban említett 370 hangelemet tartalmazza. Ezek az építőelemek nem beszédhangok, hanem hangrészek. Rendszerünkben is bizonyos építőelemeket a hangsorépítés során több helyen is fel lehet használni (például a szóeleji, ,b” hang három elemből áll). Az első a zöngének a csend szintjéről való intenzitásfelvezérlését tartalmazza, a második a fojtott zönge lényeges szakaszát egészen a zöngés zárfelpattanásig, a harmadik pedig egy rövid időtartamú (kb. 10—12 ms) építőelem, amivel a magyar ejtésű ,,b” hang zárfelpattanását valósítjuk meg. Ha a ,,b” hanghoz egy magánhangzót kapcsolunk (például a ,,ba” szótagban) akkor a zárfelpattanás után képeznünk kell egy olyan részt, amely biztosítja a ,,b” és a magyar , ,a” közötti átmenet akusztikai megvalósítását. Ez a ,,b a” átmeneti építőelem. Mivel a magánhangzó képzési konfigurációja minden magánhangzótípusnál más (az á, a, o, u, i, é, ü, e hang a magyarban a nyelvre jellemző akusztikai szerkezettel rendelkezik), ezért a ,,b” magánhangzó átmenetet biztosító építőelemnek is mindig másnak kell lennie attól függően, hogy milyen magánhangzó kapcsolódik a magyar ,,b” hanghoz. Bonyolítja a szintetizálást, hogy a magyar beszédben a magánhangzó visszahat a ,,b” hang zárfelpattanásának akusztikai összetevőire. így a ,,b” hangnál is annyi (vagy közel annyi) építőelemet kell készíteni ahány magánhangzó van a magyarban. A hangsorépítés során ezután következik a magyar ,,a” hang ún. tiszta fázisát megvalósító hangszelet hozzácsatolása. A hangsorépítés hasonlóan folyik tovább. Felhasználás szempontjából a ,,b” első építőeleme minden hangsorkezdő helyzetben használható (például a ba, bá, bo, ... br, bl, stb. kezdetű szavakban), a második a zönge középső része minden hangsoreleji helyzetben hozzákapcsolható az első szelethez, de a magyar beszédben a hangsor ji helyzetben is ezt használhatjuk (például a baba, bibe, stb. szavak második ,,b” zöngéjénél). A zárfelpattanás hangszeletét a magyar beszéd felépítésénél nemcsak hangsoreleji, de hangsorbelseji helyzetben is használhatjuk, ha ugyanazon magánhangzóhoz csatlakozunk. Tehát mivel a magyarban 9 magánhangzó van, a ,,b” zárfelpattanási akusztikai építőelemét (9 db), összesen 18 esetben használhatjuk fel. A magánhangzó tiszta fázisát reprezentáló elemet pedig bárhol felhasználhatjuk a hangsorban. A fenti példából következik, hogy a 370 akusztikai építőelemből vannak olyanok, amelyeket igen sokszor és vannak olyanok, amelyeket csak 1-szer használunk fel a magyar beszéd generálásánál. Az adatbázis minimalizálására azért van szükség, hogy minél kevesebb memóriakapacitást használjunk fel a processzornál. Ez képezi az akusztikai építőelemek jellemzőinek meghatározásán túlmenően találmányunk lényegét. Ezekkel az építőelemekkel a magyar beszéd bármely szóhangsora létrehozható. Az elemek összes kombinációjából (9 rövid, 5 hosszú magánhangzó, 23 rövid és 23 hosszú mássalhangzó) tehát létrehoztunk egy olyan minimalizált adatbázist, amelyben lévő hangsorépítő elemek kombinációiból bármilyen magyar szóhangsor előállítható. így bármely szöveg amely a magyar köznyelvnek eleme meghangosítható. Találmányunk értelmében a fentiekben ismertetett szintetizált beszéd előállítása a következő módon történik: Először megjelöljük a kérdéses hangsort — esetleg egy adott kódsorozat megadásával — ezt követően értelmezhetjük a betűjeleket, amelyeket magyar beszéd elemeivé alakítunk át. Ezek helyét a hangsorban is értelmezni kell, azaz meg kell állapítani, hogy az kezdő-, hangsorbelseji-, vagy záróelem-e. Ezt követően kikeressük az adott bázisból azokat az akusztikai építőelemeket, amelyeket a hangsorépítésnél fel kell használni. További tevékenység a hangsorvégi írásjel értelmezése majd az írásjel szerinti intonációs görbének a hangsorra történő felültetése. Az így sorbarakott elemeket illetve az azokba inkorporálódó bitsorozatot önmagában ismert szintetizátorhoz továbbítjuk, amelynek útján a bitsorozatnak megfelelő magyar hangsort megszólaltatjuk. Az előzőekben ismertetett eljárás foganatosítására alkalmas berendezést rajzmellékleten ismertetjük. Az 1. ábra a berendezés vázlatos felépítését mutatja be. A szintetizálni kívánt szöveg betűsorral, kóddal, illetve kiegészítő jelekkel történő megoldására 1 adatbefogadó egység szolgál, amely billentyűzettel, vagy kódsorozat megadására alkalmas eszközzel rendelkezik. Az említett 1 adatbefogadó egység 4 dekódoló közbeiktatásával 6 összehasonlító egységhez csatlakozik, amely utóbbi egyrészt 7 graféma tárhoz, másrészt 8 kiválasztó áramkörhöz van kötve. A 8 kiválasztó áramkör 3 memóriaegységhez valamint 2 processzorhoz van kapcsolva. Az említett 2 processzor 5 beszédszintetizátorral van kapcsolatban. A berendezés működése a következő: Az 1 adatbefogadó egységet billentyű leütése vagy egy kódsorozat megadása útján aktivizáljuk. Ekkor a 2 processzor értelmezi a betűjeleket, a 4 dekódolótói nyert jelek alapján, amelyeket a 6 összehasonlító egység és 7 graféma tár adataiból képezzük, és meghatározza a magyar hangok helyét a hangsorban. A 2 processzor a 3 memóriaegységben elhelyezkedő adatbázisból a 8 kiválasztó áramkör segítségével kikeresi azoknak az építőelemeknek az azonosító jeleit, amelyeket fel kell használni a hangsorépítésnél, majd azokat sorba helyezi. Ezt követően az 1 adatbefogadó egység által megadott hangsorvégi írásjelnek megfelelően a hangsorra ráültetésre kerül az intonációs görbe. Az így sorbarakott elemek tartalmának megfelelő bitsorozat alapján, az aktuális hangsort az 5 beszéd szintetizátor közbeiktatásával szólaltatjuk meg. Ezután a 2 processzor és kapcsolt részei eredeti állapotukba térnek vissza, és új hangsorbeütésre kész helyzetbe kerülnek. A berendezés különleges előnye az, hogy a szintetizált magyar beszéd a vezérléssel azonos, illetve quasi azonos időben előállítható. A 370 elemet tartalmazó adatbázis valamint az átalakítás rendszere lehetőséget nyújt arra, hogy előre betáplált szótár nélkül, tetszőleges magyar hangsorokat akár szótagokat, betűkihagyásos szavakat, logatomokat fordított ejtésű szavakat, stb. generálhassunk. Az általunk kidolgozásra került eljárás és berendezés a szintetizált beszéd korlátozott szótár nélküli és azonosidejű előállítására (realtime) lehetőséget nyújt, a hatékony beszégkutatás kiszolgálására például a magyar beszéd nyelvészetifonetikai vizsgálatára, percepciós kísérletekhez, kontrasztív nyelvészeti összehasonlítások elemzésére, szövegfonetikai szabályszerűségek meghatározására. 5 10 15 20 25 30 35 40 45 50 55 60 3

Oldalképek

Tartalom