198579. lajstromszámú szabadalom • Preprocesszor kapcsolási elrendezés főleg beszédfelismerő rendszerekhez | Library

198579. lajstromszámú szabadalom • Preprocesszor kapcsolási elrendezés főleg beszédfelismerő rendszerekhez

1 HU 198579 B 2 A találmány tárgya preprocessor kapcsolási elrendezés főleg beszédfelismerő rendszerekhez, amely elrendezésnek szűrő sora, logaritmikus erősítője, A/D átalakítóval kiegészített mikroszámítógépe, zőngéshang szűrője, teljes sávú egyenirányítója és nullátmenet számlálója van. A szakirodalomból ismert, hogy a korszerű beszédfelismerő készülékek és rendszerek preproeesszorból és jelminta értékelő egységből állanak. A preprocesszor a beszédből vett minták alapján további jelfeldolgozásra alkalmas, célszerűen digitális jelsorozatokat állít elő. A jelminta értékelő egység pedig a preprocesszor által előállított mintasorozatot valamely alkalmasan megválasztott felismerő algoritmus segítségével értékeli. A preprocesszor tehát a beszédfelismerés folyamatában a bemenő beszédminták lényeges, mérhető paramétereit választja ki. A paramétereket lehetőleg úgy kell kiválasztani, hogy jellemzőek legyenek a bemenő beszédmintára, vagyis az egyik beszédmintát a másiktól nagy biztonsággal meg lehessen különböztetni. Ezt a folyamatot lényegkiemelésnek nevezik. Lényegkiemeléskor csökkentjük a beszédjelet leiró adatokat. A lényegkiemelés annál sikeresebb, minél kevesebb adattal, minél tömörebben lehet a beszédet jellemezni. Ez segiti elő a további feldolgozáshoz szükséges berendezés, azaz a felismerő egység egyszerűsítését, és ezen belül a tárkapacitás csökkentését, valamint a feldolgozási idő rövidítését. A preprocesszor által biztosított lényegkiemelés tulajdonképpen a felismerés akusztikai szintje. A lényegkiemelésnél ma a leggyakrabban használatos akusztikai elemzési módszerek a következők: analóg vagy digitális szűrősoron alapuló akusztikus elöfeldolgozás, a lineáris előrejelzés (linear prediction) különböző módszerei, cepstrumelemzés és gyors Fourier-transzforniáció. A szűrősoron alapuló akusztikus elófeldolgozás széles szakirodalmából megemlítjük - a ZWICKER,E.: Subdivision of the Audible Frequency Range into Critical Bands (Frequenzgruppen). JASA (1961), Vol. 23. p. 248.;- a SILVERMANN, H.F.-DIXON.N.R.: State Coptrained Dinamic Programming (SCDP) for Discrete Utterance Recognition in Prog. ICASSP 80, Vol. 1 pp. 169-172 és- a DAUTRICH,B.H.-RABINER,L.R.-MARTIN.T.B.: On the Effects of Vanging Filter Bank Parameters in Isolated Word Recognition. IEEE Trans, on Acoustics, Speech and Signal Processing, 1983, Vol. ASSP-31, No.4. pp. 793-807. című munkákat. A lineáris előrejelzéssel foglalkozó igen jelentős művek közül a következő két cikkre hívjuk fel a figyelmet: - ATAL,D.S.-HANAUER,S.L.: Speech Analysis and Synthesis by Linear Prediction of the Speech Wave, JASA (1971), Vol. 49. pp. 637-655 és- WHITE,G.M.-NEELY.R.B.: Speech Recognition Experiments with Linear Prediction, Bandpass Filtering and Dinamic Programming. IEEE Trans, on Acoustics, Speech and Signal Proc. (1976), Vol. ASSP-24, No. 2. pp. 183-189. A cepstrumelemzésen alapuló beszédfelismeréssel foglalkozik többek között- a NOLL,A.M.: Cepstrum Pitch Determination. JASA (1967) Vol. 41, No. 2. pp. 293-309; - a SCHAFFER,R.W.-RABINER.L.R.: System for Automatic Formant Analysis of Voiced Speech. JASA (1970), Vol. 47. pp. 634-648 és- a BOGÉRT,R.P.-HEALY,M.J.R.-TUKEY,G.W.: Quefrency Analysis of Time Series of Echoes. Proc. of Symposium on Time Series Analysis, Wiley and Sons, N. Y. 1963. pp. 209-243. című szakirodalom. Végül a gyors Fourier-transzforniáció módszerei, például - a BRIGHAM,E.O.: The Fast Fourier Transformation. Prentice-Hall, Englewood Cliffs, 1974. és- a Digital Signal Analysis, Technical Review. Brüel and Kjaer, 1981. című könyvekből ismerhetők meg. Az elméleti kérdések tisztázásával egyidejűleg több beszédfelismerő kapcsolási elrendezés szabadalmi oltalmat is nyert. A DE 2 431 458 lajstromszámú szabadalmi leírás alapfrekvencia-, időtartam- és amplitúdó-mérésre vezeti vissza a beszédfelismerés problémáját.. A DE 2 753 277 lajstromszámú szabadalmi leirás multi processzoros beszédfelismerő rendszert ismertet. A DE 2 945 414 lajstromszámú szabadalmi leírás az alkalmazott szűrósor középfrekvenciáinak és a beszédenergia kvantálási szintjeinek egy származtatási algoritmusát védi. Az SU 1 156 126 lajstromszámú szabadalmi leírás a beszédhangnak a zajos hangháttérből való kiemelésével foglalkozik. Az SU 1 159 059 lajstromszámú szabadalmi leírásban pedig többek között beszédkezdetet figyelő áramkör segiti a beszédfelismerő folyamatot. Általában elmondható, hogy a négy ismertetett lényegkiemeló módszer közül a szűrósoros elemzésen alapuló lényegkiemelés biztosítja a leggyorsabb előfeldolgozást és ugyanakkor egyéb paraméterek (megbízhatóság, bonyolultság) tekintetében sem rosszabb a felsorolt másik három eljárásnál. Elmondható még, hogy az olyan kisegítő áramkörök megválasztása is rendkívül fontos, mint a beszédhang kiemelése, a beszédkezdet figyelése, vagy az alkalmazott szűrők középfrekvenciáinak és a beszédenergia kvantálási szintjeinek a megfelelő kiválasztása. 5 10 15 20 25 30 35 40 45 50 55 60 65 3

Thumbnails

Contents