193211. lajstromszámú szabadalom • Eljárás szintetikus hangsorok előállítására hallásvizsgálatokhoz
hang észlelésekor. A beszédingerre adandó válasz nem új feladat számára, hiszen ezt a beszédeisajátítás során állandóan gyakorolja. Csak létre kellett hozni olyan beszédanyagot, amely akusztikai tartalmánál fogva lehetővé teszi a gyermek válaszaiból a hallástartomány bizonyos mértékű feltérképezését. Ügy találtuk továbbá, hogy a számítógéppel speciálisan, a. fenti módszer szerint szintetizált kis redundanciájú beszéd hangsorok (szavak, szótagok) jól felhasználhatók bölcsődés, óvodás korú gyermekek hallásának iránymutató feltérképezéséhez. Jelenleg ilyen végzésére kidolgozott egyszerű eljárás (a szűrést a gondozó, illetve óvónő képes elvégezni, különleges műszerigény nincs), amely lehetőyé teszi a kb. 2 éves kortól a kisgyermekek hallásának ellenőrzését, nincs. Az esetleges halláskárosodás mielőbbi felismerésének és diagnosztizálásának igen nagy a jelentősége, a gyógyítás hatékonyságának és eredményességének szempontjából. Ilyen vizsgálatok végzésére szolgáló beszédanyagot csak szintetikus úton lehet előállítani. Találmányunk szerinti eljárás jobb megértése érdekében néhány, az eljárás során alkalmazott szó frekvenciaszerkezetét, illetve hangszínképét rajzmellékleteken mutatjuk be, ahol az la. ábra a „búr” szó természetes hangszínképét, az lb. ábra az la. ábra szerintieket mesterséges előállításban, a 2a. ábra a „szék” szó természetes ejtésű változatának hangszínképét, a 2b. ábra a 2a. ábra szerintieket mesterséges előállításban, a 3. ábra a szintetizált „ész” szó hangszínképét, a 4. ábra a szintetizált „ász” szó hangszínképét mutatja be. Az la. — b., valamint a 2a. — b. ábrákból beláthatóan a „búr” szó természetes változata sokkal redundánsabb, sokkal több információt tartalmaz, mint a mesterséges, ez pedig nagy segítség a megértés számára. A szék szónál is jól látható ez. A hangsor elkészítése során a beszédhangok frekvenciaösszetevőit paraméterváltoztatással mindig a legjellemzőbb frekvenciasávra koncentráljuk, ez biztosítja a jó hangzást. Ügy találtuk, hogy amennyiben az adott frekvenciasávon a hallástartomány károsodást szenvedett, a szó felismerése nem jöhet létre, tehát a válasz nem ugyanaz lesz, mint amit a fülbe közvetítettünk. A természetes ejtésű hangsorok ilyen vizsgálatra nem alkalmasak, mivel sok többlet-információt tartalmaznak. Például a „búr" szó frekvenciaszerkezetét vizsgálva az idő függvényében kirajzolódnak azok a plusz frekvenciakomponensek, főleg a magasabb frekvenciákon, amelyek a megértéshez nem feltétlenül szükségesek, tehát redundánsak. Hogy egy nyelvben melyek ezek a frekvenciaösszetevők, 5 4 azt akusztikai mérésekkel és meghallgatásos kísérletekkel lehet meghatározni. Kísérleteink során meghatároztuk, hogy a magyar beszédhangokban melyek azok a frekvenciaösszetevők, amelyek feltétlenül szükségesek, hogy jelen legyenek a hangban a megértés számára, és melyek azok, amelyek elhagyhatók. Az lb. ábrán példaként mutatjuk be a feltétlenül szükséges összetevőket, hangszínképen szemléltetve az előbbi búr szóra. Az la. és lb. ábrát összevetve világosan látszik, hogy az la. ábrán több frekvenciaösszetevő látható (főleg a 2 — 5 kHz-es frekvenciasávban), mint az lb. ábrán. Ugyanez látható a 2a. — 2b. ábra összehasonlításakor is. Ilyen csökkentett elemszámú beszédhangokat és ezekből felépített hangsorokat csak mesterséges úton technikai eszközök igénybevételével lehet előállítani. A mesterséges beszédelőállítás lehetőséget ad arra is, hogy az előállítandó beszéd frekvenciaösszetevőit saját magunk előre meghatározzuk. Az, hogy milyen adatokat táplálunk be a számítógépbe, határozza meg a beszéd hangzását. Célunk az volt, hogy olyan adathalmazokat találjunk a beszéd akusztikai szerkezetének jellemzésére, amelyek egyrészről jó hangzást biztosítanak, másrészről megvalósítják azt a kívánalmat, hogy a frekvenciaszerkezetet a lehető legcsekélyebb elemszámmal hozzuk létre. Találmányunk kidolgozása során meghatároztuk a fenti frekvenciaösszetevők Hz-értékeit és a frekvenciasávok alsó és felső pontját. A bab szó mesterséges előállítása során a b hangnál 250 Hz-re koncentráltuk a jellemző frekvenciát, az a hangnál 500 és 1000 Hz-re. A bab hangsorban tehát csak három jellemző frekvenciakoncentráció szerepel, a 250, az 500 és 1000 Hz-es. A példa többi szavára ez a frekvenciakoncentráció a következő: szék: sz = 6000 Hz, é — 400 és 2000 Hz, k = 1500 Hz. meggy: m — 250 Hz, e = 550 és 1800 Hz, ggy = 250 és 2500 Hz. ász: á 700 és 1300 Hz, sz = 7 — 8000 Hz. A fenti adatokból látható, hogy egy-egy hangsor egyszerre több frekvenciasávot képvisel a meghallás szempontjából. Az adatokból az is kitűnik, hogy vannak olyan beszédhangok, amelyek többféle frekvenciasávval is jellemezhetők anélkül, hogy elhangzásukban, illetve megértésükben probléma lenne (például az sz hang). A 3. és 4. ábrákból beláthatóan az ész szóban az sz hang frekvenciakoncentrációját 4200 Hz-re, az ász szóban pedig 700 Hz fölötti értékre állapítottuk meg. A 2b. ábra a szék szó mesterséges változatának frekvenciaszerkezetét mutatja a fentiek szerinti írekvenciakoncentrációkkal. Ha a szót éphalló hallgatja, akkor jól meg fogja érteni, és vissza is tudja mondani (ismételni). Ha olyan hallgatja, akinek magashangcsökkenése van, a magas frekvenciákon tehát nem tökéletesen hall, akkor az sz magas energiaI932I 5 10 15 20 25 30 35 40 45 50 55 60 65