Nyelvtudományi Közlemények 85. kötet (1983)

Tanulmányok - Gósy Mária–Olaszy Gábor: A gépi beszéd megértése (Az UNIVOICE magyar nyelvű, azonos idejű, számítógépes szövegszintetizáló rendszer percepciós vizsgálata) [The Perception of Machine Voice (Examination of the UNIVOICE, Hungarian Speaking, Real Time Text-to-Speach Synthesizing System)] 93

94 GÓSY MÁRIA-0LASZY GÁBOR — a vezérlő számítógép : PDP 11/34 típusú, 32 K szó memóriával, — a szintetizátor : OVE IIIc típusú (FONÉMA, Sweden) soros formánsszintetizátor, — adatbázisa : 370 hangszeletet tartalmaz, amely a teljes magyar beszédet reprezentálja, — működtetése : írógépről (manuálisan) vagy előre beprogramozott adattárból (automatikusan) — beszédelőállítás : a magyar helyesírás szerint begépelt szöveget a rendszer a kiejtés követelményeinek megfelelő beszéddé alakítja, — működése : azonos idejű (a szintézist kb. 1 mp alatt végzi el, a beszéd a begépelés után gyakorlatilag azonnal hallható), — az előállítani kívánt hangsor tartalma : szabadon, megkötés nélkül választható, — az előállítani kívánt hangsor terjedelme : szabadon változtatható az izolált hangoktól a mondatokig, hosszabb szövegig, — az egyszerre szintetizálható szöveg időtartama : 5 mp, — az időszerkezet (és ritmus) meghatározása : a begépelt hangsor bármely hangja tetszőlegesen nyújtható a "'" segédjel alkalmazásával (pl. i"'8kola). A szavak vagy szórészek közé szünet iktatható a „space" billentyűvel. A szünet hosszúsága a leütések számától függ, — a beszédtempó meghatározása: 0,1 hang/s-tól 30 hang/s-ig szabadon választható külön programutasítással, — automatikus dallamformálás : az ereszkedő hanglejtés jele a pont, a lebegő hanglejtésé a pont és felkiáltójel, — manuális dallamformálás : tetszőleges hanglejtésformával szólaltatható meg a begépelt hangsor 100—600 vagy 50—300 Hz-es tartományban (a külön programutasításban meg kell adni a kívánt dallamforma időszerkezeti és frekvenciaszerkezeti adatait), — automatikus intenzitásformálás : az adatbázis tartalmazza a magyar beszédre jellemző alapvető intenzitásviszonyokat, — az intenzitásszerkezet manuális változtatása : tetszőleges intenzitásszerkezet alakítható ki 40 dB-es tartományban (a külön programutasításban meg kell adni, hogy a hangsor mely részében milyen intenzitásváltozást — növekedést vagy csökkenést — kívánunk), — a begépelt hangsor újrahallgatása : az ismétlő gomb megnyomásával változatlan minőségben, akárhányszor történhet, — hangminősége : szubjektív ítélet alapján jó, — használatához különleges előírás : nincs. Ezek az adatok jellemzik az UNIVOICE — az első fonetikailag és technikailag optimálisan megtervezett azonos idejű, automatikus, magyar nyelvű beszédelőállító — rendszert, amely rugalmasan használható különféle kutatásokban, ipari, társadalmi alkalmazásokban. A szintetizálási eljárás feltétlen előnye, hogy a felhasználónak semmiféle adatbeviteli kódrendszert nem kell megtanulnia a működtetéshez (a rendszer a magyar helyesírást értelmezi). Az UNIVOICE első bemutatása a 8. Budapesti Akusztikai Kollokviumon történt 1982. május 6-án. 2. A beszédszintetizátorral, előre kidolgozott szabályrendszer alapján, előállított mesterséges beszéd a tudományos kutatás, az ipar és a társadalom számos területén felhasználható. Alkalmazhatóságának lehetőségeit egyelőre nem is lehet pontosan felmérni. Az alábbiakban példaként említünk néhányat.

Thumbnails

Contents