195022. lajstromszámú szabadalom • Eljárás beszédet előállító jelrészletek halmazának nyelvfüggetlen meghatározására szintetizált beszéd létrehozásához
1 195022 A találmány eljárásra vonatkozik beszédet előállító jelrészletek halmazának nyelvfüggetlen meghatározására, amely halmaz elemeinek felhasználásával különböző nyelveken mesterséges beszéd állítható elő. A beszélt nyelvek rezgésképi megjelenései különbözőek, a beszédképző mechanizmus azonban , mindegyikükhöz ugyanolyan felépítésű. A beszédképzés során állandó és változó működésmechanizmusok együttes hatása alakítja ki a végleges beszédjelet. Találmányunk olyan általános eljárás kifejlesztésére vonatkozik, amelynek alkalmazásával bármely nyelven elhangzó beszéd mesterséges előállításához — egységes elvek alapján — meghatározhatjuk a beszédjel azon elemi részeit, amelyek meghatározott sorrendű összekapcsolásával tetszőleges feszültség-idő függvényformák kialakíthatók. Az általunk kifejlesztett eljárásban a meghatározni kívánt jelrészleteket — és azok halmazát — természetes elhangzású beszéd alapján dolgozzuk ki. A halmaz elkészítése után abból előre meghatározott elemeket választunk ki,és azokat önmagában ismert, tetszőleges elven működő beszédfeldolgozó és tömörítő eljárással kódsorozatokká alakítjuk, majd ezekkel önmagában ismert tetszőleges elven működő beszédszintetizátort vezérlünk. A mesterséges beszéd előállítási folyamatában igen fontos fázis az előkészítés, a beszédszintetizátort vezérlő kódsorozatok meghatározása. Ezt szóelőkészítésnek, vagy szövegeiőkészítésnek is szokták nevezni. A beszédelőállításnál a kapott végeredmény — a mesterséges beszéd hangzása — nagymértékben függ a jó előkészítéstől. Az, hogy az előkészítés során meghatározott elemeket majd milyen szintetizáló rendszerrel dolgozzuk fel közömbös. Feldolgozhatjuk egyszerű PCM, vagy deltamodulációs technikával, az elemeket bemenő jelként használhatjuk LPC elven működő rendszerekhez, de használhatjuk őket formánsszintetizátorok bemenő adataiként is. Ismeretesek olyan eljárások, amelyeknél a szóelőkészítés egyszerűen abból áll, hogy egy bemondó közvetlenül, mikrofonon keresztül, vagy magnetofonszalagról elmondja a szintetizálni kívánt szó vagy hangsor egészét, a szóelőkészítő rendszer azt egészében tömöríti (HU szabadalmi leírás Ljsz. 189.378). Vannak azután olyan eljárások, amelyekben kis elemi egységeket jelölnek ki a beszédjelbőljés ezeket az úgynevezett hangszeleteket alkalmazzák beszédelőállításra (HU szabadalmi leírás, Ljsz: 185.527). A hangszeletekbe jellemzően a beszédrezgésre jellemző íormánsváltozásokat, intenzitásváltozásokat építik be. Jellemző lehet, hogy a hangszeletekben ezek a változások csak egyirányúak lehetnek, és hogy ezeket a változásokat lineáris, vagy magasabb fokú függvények felhasználásával hozzák létre (HU szabadalmi leírás, Ljsz: 189.337). Az ezekkel a módszerekkel előállított hangszeletek sokaságából azután tetszőlegesen kiválaszthatók. Ha a kiválasztás meghatározott szabályok alapján végzik el, és ezután a kiválasztott hangszeleteket megfelelő sorba rendezik, akkor tetszőleges tartalmú, de általában csak adott nyelvű beszéd mesterségesen előállítható. Ezeknél az eljárásoknál a szó, illetve szövegelőkészítés fázisa általában nyelvfüggő és függvénye a felhasznált feldolgozó és szintetizáló rendszernek is. Ez alatt azt kell érteni, hogy a beszédelőállító áramkör vezérlési paraméterei, valamint egyéb műszaki adatai befolyásolják, hogy milyen kiindulási adatokat adjunk meg a beszédet előállító elemekre, így korlátái vannak az előkészítőnek. Találmányunk elé azt a célt tűztük ki, hogy olyan általános szövegelőkészítő eljárást dolgozzunk ki, amelyik nem (vagy kevésbé) nyeivíüggő, valamint nem támaszt korlátokat a szövegelőkészitést végző szakembernek, tehát érzéketlen a további feldolgozás módjára, nem függ a szintetizátor típusától stb. A kitűzött célnak olyan eljárással teszünk eleget, amely azzal jellemezhető, hogy nem szónagyságú elemek, sem pedig hangszeletek képezik a beszédelőállításhoz alkalmazásra kerülő elemeket, hanem a beszédjel formálódásához idomuló jelrészletek. Felismertük azt, hogy a szövegelőkészítés, tehát a jelrészletek halmazának kialakítása során elkészített elemek nem szükségszerűen kell, hogy olyan hangszeletek legyenek, amelyekben a beszédrezgésre jellemző paraméterértékek csak egyirányba változhatnak (lineáris, vagy magasabbfokú törvényszerűség szerint). Az általunk kidolgozott eljárásban ezeken kívül megengedhető, hogy a paraméterek bármilyen irányban és bármennyiszer változzanak a kijelölt elemen belül. Felismertük továbbá, hogy kihasználhatók a beszélt nyelvnek azon tulajdonságai is, hogy legtöbb nyelvben azonos kategóriába sorolható hangok csoportjait lehet megtalálni. Ilyenek például a magánhangzók, a zöngés zárhangcsoportok, a zöngétlen zárhang csoportok, a réshangok együttese stb. Ezekre a hangcsoportokra — a jelrészletek halmazának kialakítása szempontjából — egységes feldolgozási rendszert lehet alkalmazni. Az általunk kidolgozott eljárással tehát tetszőleges nyelvre meghatározhatjuk a beszédelőállításhoz szükséges elemek halmazát egységes elvek alkalmazásával. A halmaz elemei természetesen nyelvenként mások és mások lesznek, és az elemek felhasználására kidolgozott összerendezési elv is nyelvenként más és más. Felismertük továbbá, hogy a beszédjel azon részeinek előállításánál, ahol az artikulációs szervek azonos, vagy közel azonos képzés beállás felé mozognak, illetve innen mozognak tovább, az elemek egymással ‘helyettesíthetők, így lényegesen egyszerűsíthető az 2 5 10 15 20 25 30 35 40 45 50 55 60 65 2