193211. lajstromszámú szabadalom • Eljárás szintetikus hangsorok előállítására hallásvizsgálatokhoz

hang észlelésekor. A beszédingerre adandó válasz nem új feladat számára, hiszen ezt a beszédeisajátítás során állandóan gyakorol­ja. Csak létre kellett hozni olyan beszédanya­got, amely akusztikai tartalmánál fogva lehe­tővé teszi a gyermek válaszaiból a hallástar­tomány bizonyos mértékű feltérképezését. Ügy találtuk továbbá, hogy a számítógép­pel speciálisan, a. fenti módszer szerint szinte­tizált kis redundanciájú beszéd hangsorok (szavak, szótagok) jól felhasználhatók böl­­csődés, óvodás korú gyermekek hallásának iránymutató feltérképezéséhez. Jelenleg ilyen végzésére kidolgozott egyszerű eljárás (a szű­rést a gondozó, illetve óvónő képes elvégezni, különleges műszerigény nincs), amely lehető­­yé teszi a kb. 2 éves kortól a kisgyermekek hal­lásának ellenőrzését, nincs. Az esetleges hal­láskárosodás mielőbbi felismerésének és diag­nosztizálásának igen nagy a jelentősége, a gyógyítás hatékonyságának és eredményessé­gének szempontjából. Ilyen vizsgálatok vég­zésére szolgáló beszédanyagot csak szinteti­kus úton lehet előállítani. Találmányunk szerinti eljárás jobb megér­tése érdekében néhány, az eljárás során alkal­mazott szó frekvenciaszerkezetét, illetve hangszínképét rajzmellékleteken mutatjuk be, ahol az la. ábra a „búr” szó természetes hang­színképét, az lb. ábra az la. ábra szerintieket mester­séges előállításban, a 2a. ábra a „szék” szó természetes ejtésű változatának hangszínképét, a 2b. ábra a 2a. ábra szerintieket mester­séges előállításban, a 3. ábra a szintetizált „ész” szó hang­színképét, a 4. ábra a szintetizált „ász” szó hangszín­képét mutatja be. Az la. — b., valamint a 2a. — b. ábrákból beláthatóan a „búr” szó természetes változata sokkal redundánsabb, sokkal több információt tartalmaz, mint a mesterséges, ez pedig nagy segítség a megértés számára. A szék szónál is jól látható ez. A hangsor elkészítése során a beszédhan­gok frekvenciaösszetevőit paraméterváltoz­tatással mindig a legjellemzőbb frekvencia­­sávra koncentráljuk, ez biztosítja a jó hang­zást. Ügy találtuk, hogy amennyiben az adott frekvenciasávon a hallástartomány károso­dást szenvedett, a szó felismerése nem jöhet létre, tehát a válasz nem ugyanaz lesz, mint amit a fülbe közvetítettünk. A természetes ejtésű hangsorok ilyen vizs­gálatra nem alkalmasak, mivel sok többlet-in­formációt tartalmaznak. Például a „búr" szó frekvenciaszerkezetét vizsgálva az idő függvé­nyében kirajzolódnak azok a plusz frekven­ciakomponensek, főleg a magasabb frekven­ciákon, amelyek a megértéshez nem feltétle­nül szükségesek, tehát redundánsak. Hogy egy nyelvben melyek ezek a frekvenciaösszetevők, 5 4 azt akusztikai mérésekkel és meghallgatásos kísérletekkel lehet meghatározni. Kísérleteink során meghatároztuk, hogy a magyar beszédhangokban melyek azok a frek­venciaösszetevők, amelyek feltétlenül szüksé­gesek, hogy jelen legyenek a hangban a meg­értés számára, és melyek azok, amelyek el­hagyhatók. Az lb. ábrán példaként mutatjuk be a feltétlenül szükséges összetevőket, hang­színképen szemléltetve az előbbi búr szóra. Az la. és lb. ábrát összevetve világosan lát­szik, hogy az la. ábrán több frekvenciaössze­tevő látható (főleg a 2 — 5 kHz-es frekven­ciasávban), mint az lb. ábrán. Ugyanez lát­ható a 2a. — 2b. ábra összehasonlításakor is. Ilyen csökkentett elemszámú beszédhango­kat és ezekből felépített hangsorokat csak mesterséges úton technikai eszközök igénybe­vételével lehet előállítani. A mesterséges be­szédelőállítás lehetőséget ad arra is, hogy az előállítandó beszéd frekvenciaösszetevőit saját magunk előre meghatározzuk. Az, hogy milyen adatokat táplálunk be a számítógépbe, határozza meg a beszéd hangzását. Célunk az volt, hogy olyan adathalmazokat találjunk a beszéd akusztikai szerkezetének jellemzésére, amelyek egyrészről jó hangzást biztosítanak, másrészről megvalósítják azt a kívánalmat, hogy a frekvenciaszerkezetet a lehető legcse­kélyebb elemszámmal hozzuk létre. Találmá­nyunk kidolgozása során meghatároztuk a fenti frekvenciaösszetevők Hz-értékeit és a frekvenciasávok alsó és felső pontját. A bab szó mesterséges előállítása során a b hangnál 250 Hz-re koncentráltuk a jellemző frekven­ciát, az a hangnál 500 és 1000 Hz-re. A bab hangsorban tehát csak három jellemző frekven­ciakoncentráció szerepel, a 250, az 500 és 1000 Hz-es. A példa többi szavára ez a frek­venciakoncentráció a következő: szék: sz = 6000 Hz, é — 400 és 2000 Hz, k = 1500 Hz. meggy: m — 250 Hz, e = 550 és 1800 Hz, ggy = 250 és 2500 Hz. ász: á 700 és 1300 Hz, sz = 7 — 8000 Hz. A fenti adatokból látható, hogy egy-egy hangsor egyszerre több frekvenciasávot kép­visel a meghallás szempontjából. Az adatok­ból az is kitűnik, hogy vannak olyan beszéd­hangok, amelyek többféle frekvenciasávval is jellemezhetők anélkül, hogy elhangzásuk­ban, illetve megértésükben probléma lenne (például az sz hang). A 3. és 4. ábrákból beláthatóan az ész szó­ban az sz hang frekvenciakoncentrációját 4200 Hz-re, az ász szóban pedig 700 Hz fölöt­ti értékre állapítottuk meg. A 2b. ábra a szék szó mesterséges válto­zatának frekvenciaszerkezetét mutatja a fenti­ek szerinti írekvenciakoncentrációkkal. Ha a szót éphalló hallgatja, akkor jól meg fogja érteni, és vissza is tudja mondani (ismételni). Ha olyan hallgatja, akinek magashangcsök­­kenése van, a magas frekvenciákon tehát nem tökéletesen hall, akkor az sz magas energia­I932I 5 10 15 20 25 30 35 40 45 50 55 60 65

Next

/
Oldalképek
Tartalom