198579. lajstromszámú szabadalom • Preprocesszor kapcsolási elrendezés főleg beszédfelismerő rendszerekhez

1 HU 198579 B 2 A találmány tárgya preprocessor kapcsolási elrendezés főleg beszédfelismerő rendszerek­hez, amely elrendezésnek szűrő sora, logarit­mikus erősítője, A/D átalakítóval kiegészített mikroszámítógépe, zőngéshang szűrője, teljes sávú egyenirányítója és nullátmenet számlá­lója van. A szakirodalomból ismert, hogy a kor­szerű beszédfelismerő készülékek és rend­szerek preproeesszorból és jelminta értékelő egységből állanak. A preprocesszor a be­szédből vett minták alapján további jelfeldol­gozásra alkalmas, célszerűen digitális jelso­rozatokat állít elő. A jelminta értékelő egység pedig a preprocesszor által előállított minta­sorozatot valamely alkalmasan megválasztott felismerő algoritmus segítségével értékeli. A preprocesszor tehát a beszédfelisme­rés folyamatában a bemenő beszédminták lé­nyeges, mérhető paramétereit választja ki. A paramétereket lehetőleg úgy kell kiválaszta­ni, hogy jellemzőek legyenek a bemenő be­szédmintára, vagyis az egyik beszédmintát a másiktól nagy biztonsággal meg lehessen kü­lönböztetni. Ezt a folyamatot lényegkiemelés­nek nevezik. Lényegkiemeléskor csökkentjük a beszédjelet leiró adatokat. A lényegkieme­lés annál sikeresebb, minél kevesebb adattal, minél tömörebben lehet a beszédet jellemezni. Ez segiti elő a további feldolgozáshoz szük­séges berendezés, azaz a felismerő egység egyszerűsítését, és ezen belül a tárkapacitás csökkentését, valamint a feldolgozási idő rö­vidítését. A preprocesszor által biztosított lényeg­kiemelés tulajdonképpen a felismerés akusz­tikai szintje. A lényegkiemelésnél ma a leg­gyakrabban használatos akusztikai elemzési módszerek a következők: analóg vagy digitá­lis szűrősoron alapuló akusztikus elöfeldolgo­­zás, a lineáris előrejelzés (linear prediction) különböző módszerei, cepstrumelemzés és gyors Fourier-transzforniáció. A szűrősoron alapuló akusztikus elófel­­dolgozás széles szakirodalmából megemlítjük - a ZWICKER,E.: Subdivision of the Audible Frequency Range into Critical Bands (Frequenzgruppen). JASA (1961), Vol. 23. p. 248.;- a SILVERMANN, H.F.-DIXON.N.R.: State Coptrained Dinamic Programming (SCDP) for Discrete Utterance Recognition in Prog. ICASSP 80, Vol. 1 pp. 169-172 és- a DAUTRICH,B.H.-RABINER,L.R.-MARTIN.T.B.: On the Effects of Vanging Filter Bank Parameters in Isolated Word Recognition. IEEE Trans, on Acoustics, Speech and Signal Processing, 1983, Vol. ASSP-31, No.4. pp. 793-807. című munkákat. A lineáris előrejelzéssel foglalkozó igen jelentős művek közül a következő két cikkre hívjuk fel a figyelmet: - ATAL,D.S.-HANAUER,S.L.: Speech Analysis and Synthesis by Linear Prediction of the Speech Wave, JASA (1971), Vol. 49. pp. 637-655 és- WHITE,G.M.-NEELY.R.B.: Speech Recognition Experiments with Linear Prediction, Bandpass Filtering and Dinamic Program­ming. IEEE Trans, on Acoustics, Speech and Signal Proc. (1976), Vol. ASSP-24, No. 2. pp. 183-189. A cepstrumelemzésen alapuló beszédfel­ismeréssel foglalkozik többek között- a NOLL,A.M.: Cepstrum Pitch Determination. JASA (1967) Vol. 41, No. 2. pp. 293-309; - a SCHAFFER,R.W.-RABINER.L.R.: System for Automatic Formant Analysis of Voiced Speech. JASA (1970), Vol. 47. pp. 634-648 és- a BOGÉRT,R.P.-HEALY,M.J.R.-TUKEY,G.W.: Quefrency Analysis of Time Series of Echoes. Proc. of Symposium on Time Series Analysis, Wiley and Sons, N. Y. 1963. pp. 209-243. című szakirodalom. Végül a gyors Fourier-transzforniáció mód­szerei, például - a BRIGHAM,E.O.: The Fast Fourier Trans­formation. Prentice-Hall, Englewood Cliffs, 1974. és- a Digital Signal Analysis, Technical Review. Brüel and Kjaer, 1981. című könyvekből ismerhetők meg. Az elméleti kérdések tisztázásával egy­idejűleg több beszédfelismerő kapcsolási el­rendezés szabadalmi oltalmat is nyert. A DE 2 431 458 lajstromszámú szabadal­mi leírás alapfrekvencia-, időtartam- és amp­litúdó-mérésre vezeti vissza a beszédfelisme­rés problémáját.. A DE 2 753 277 lajstromszámú szabadal­mi leirás multi processzoros beszédfelismerő rendszert ismertet. A DE 2 945 414 lajstromszámú szabadal­mi leírás az alkalmazott szűrósor középfrek­venciáinak és a beszédenergia kvantálási szintjeinek egy származtatási algoritmusát védi. Az SU 1 156 126 lajstromszámú szaba­dalmi leírás a beszédhangnak a zajos hang­­háttérből való kiemelésével foglalkozik. Az SU 1 159 059 lajstromszámú szaba­dalmi leírásban pedig többek között beszéd­­kezdetet figyelő áramkör segiti a beszédfel­ismerő folyamatot. Általában elmondható, hogy a négy is­mertetett lényegkiemeló módszer közül a szű­­rósoros elemzésen alapuló lényegkiemelés biztosítja a leggyorsabb előfeldolgozást és ugyanakkor egyéb paraméterek (megbízható­ság, bonyolultság) tekintetében sem rosszabb a felsorolt másik három eljárásnál. Elmondha­tó még, hogy az olyan kisegítő áramkörök megválasztása is rendkívül fontos, mint a beszédhang kiemelése, a beszédkezdet figye­lése, vagy az alkalmazott szűrők középfrek­venciáinak és a beszédenergia kvantálási szintjeinek a megfelelő kiválasztása. 5 10 15 20 25 30 35 40 45 50 55 60 65 3

Next

/
Thumbnails
Contents