195022. lajstromszámú szabadalom • Eljárás beszédet előállító jelrészletek halmazának nyelvfüggetlen meghatározására szintetizált beszéd létrehozásához

1 195022 A találmány eljárásra vonatkozik beszé­det előállító jelrészletek halmazának nyelv­független meghatározására, amely halmaz elemeinek felhasználásával különböző nyel­veken mesterséges beszéd állítható elő. A beszélt nyelvek rezgésképi megjele­nései különbözőek, a beszédképző mechaniz­mus azonban , mindegyikükhöz ugyanolyan felépítésű. A beszédképzés során állandó és változó működésmechanizmusok együttes ha­tása alakítja ki a végleges beszédjelet. Ta­lálmányunk olyan általános eljárás kifejlesz­tésére vonatkozik, amelynek alkalmazásá­val bármely nyelven elhangzó beszéd mestersé­ges előállításához — egységes elvek alap­ján — meghatározhatjuk a beszédjel azon ele­mi részeit, amelyek meghatározott sorrendű összekapcsolásával tetszőleges feszültség-idő függvényformák kialakíthatók. Az általunk ki­fejlesztett eljárásban a meghatározni kívánt jelrészleteket — és azok halmazát — termé­szetes elhangzású beszéd alapján dolgoz­zuk ki. A halmaz elkészítése után abból előre meghatározott elemeket választunk ki,és azo­kat önmagában ismert, tetszőleges elven működő beszédfeldolgozó és tömörítő eljá­rással kódsorozatokká alakítjuk, majd ezek­kel önmagában ismert tetszőleges elven mű­ködő beszédszintetizátort vezérlünk. A mesterséges beszéd előállítási folyama­tában igen fontos fázis az előkészítés, a be­szédszintetizátort vezérlő kódsorozatok meg­határozása. Ezt szóelőkészítésnek, vagy szö­­vegeiőkészítésnek is szokták nevezni. A be­szédelőállításnál a kapott végeredmény — a mesterséges beszéd hangzása — nagymér­tékben függ a jó előkészítéstől. Az, hogy az előkészítés során meghatározott elemeket majd milyen szintetizáló rendszerrel dolgoz­zuk fel közömbös. Feldolgozhatjuk egyszerű PCM, vagy deltamodulációs technikával, az elemeket bemenő jelként használhatjuk LPC elven működő rendszerekhez, de hasz­nálhatjuk őket formánsszintetizátorok bemenő adataiként is. Ismeretesek olyan eljárások, amelyeknél a szóelőkészítés egyszerűen abból áll, hogy egy bemondó közvetlenül, mikrofonon keresz­tül, vagy magnetofonszalagról elmondja a szintetizálni kívánt szó vagy hangsor egé­szét, a szóelőkészítő rendszer azt egészében tömöríti (HU szabadalmi leírás Ljsz. 189.378). Vannak azután olyan eljárások, amelyekben kis elemi egységeket jelölnek ki a beszédjel­­bőljés ezeket az úgynevezett hangszeleteket alkalmazzák beszédelőállításra (HU szabadal­mi leírás, Ljsz: 185.527). A hangszeletekbe jellemzően a beszédrezgésre jellemző íormáns­­változásokat, intenzitásváltozásokat építik be. Jellemző lehet, hogy a hangszeletekben ezek a változások csak egyirányúak lehetnek, és hogy ezeket a változásokat lineáris, vagy magasabb fokú függvények felhasználásá­val hozzák létre (HU szabadalmi leírás, Ljsz: 189.337). Az ezekkel a módszerekkel előállított hangszeletek sokaságából azután tetszőlegesen kiválaszthatók. Ha a kiválasz­tás meghatározott szabályok alapján végzik el, és ezután a kiválasztott hangszeleteket megfelelő sorba rendezik, akkor tetszőleges tartalmú, de általában csak adott nyelvű be­széd mesterségesen előállítható. Ezeknél az eljárásoknál a szó, illetve szövegelőkészítés fázisa általában nyelvfüggő és függvénye a felhasznált feldolgozó és szintetizáló rend­szernek is. Ez alatt azt kell érteni, hogy a beszédelőállító áramkör vezérlési paraméte­rei, valamint egyéb műszaki adatai befolyá­solják, hogy milyen kiindulási adatokat ad­junk meg a beszédet előállító elemekre, így korlátái vannak az előkészítőnek. Találmányunk elé azt a célt tűztük ki, hogy olyan általános szövegelőkészítő eljárást dolgozzunk ki, amelyik nem (vagy kevésbé) nyeivíüggő, valamint nem támaszt korlátokat a szövegelőkészitést végző szakembernek, tehát érzéketlen a további feldolgozás mód­jára, nem függ a szintetizátor típusától stb. A kitűzött célnak olyan eljárással teszünk eleget, amely azzal jellemezhető, hogy nem szónagyságú elemek, sem pedig hangszele­tek képezik a beszédelőállításhoz alkalma­zásra kerülő elemeket, hanem a beszédjel formálódásához idomuló jelrészletek. Felismertük azt, hogy a szövegelőkészí­tés, tehát a jelrészletek halmazának kialakí­tása során elkészített elemek nem szükség­szerűen kell, hogy olyan hangszeletek legye­nek, amelyekben a beszédrezgésre jellemző paraméterértékek csak egyirányba változhat­nak (lineáris, vagy magasabbfokú törvénysze­rűség szerint). Az általunk kidolgozott eljárás­ban ezeken kívül megengedhető, hogy a pa­raméterek bármilyen irányban és bármennyi­szer változzanak a kijelölt elemen belül. Felismertük továbbá, hogy kihasználha­tók a beszélt nyelvnek azon tulajdonságai is, hogy legtöbb nyelvben azonos kategóriába sorolható hangok csoportjait lehet megtalál­ni. Ilyenek például a magánhangzók, a zön­gés zárhangcsoportok, a zöngétlen zárhang csoportok, a réshangok együttese stb. Ezekre a hangcsoportokra — a jelrészletek halmazá­nak kialakítása szempontjából — egységes feldolgozási rendszert lehet alkalmazni. Az általunk kidolgozott eljárással tehát tetsző­leges nyelvre meghatározhatjuk a beszéd­­előállításhoz szükséges elemek halmazát egy­séges elvek alkalmazásával. A halmaz elemei természetesen nyelvenként mások és mások lesznek, és az elemek felhasználására kidolgo­zott összerendezési elv is nyelvenként más és más. Felismertük továbbá, hogy a beszédjel azon részeinek előállításánál, ahol az artiku­lációs szervek azonos, vagy közel azonos kép­zés beállás felé mozognak, illetve innen mo­zognak tovább, az elemek egymással ‘helyette­síthetők, így lényegesen egyszerűsíthető az 2 5 10 15 20 25 30 35 40 45 50 55 60 65 2

Next

/
Thumbnails
Contents