A Híd, 2003. július-december (3. évfolyam, 109-134. szám)
2003-10-03 / 122. szám
I 2003. OKTÓBER 3. TUDOMÁNY A HÍD 13 H Beszédfelismerésen tiilmutató audiovizuális projektek SZÁJRÓL OLVASVA \ pszichológusok már ötven éve megállapították, hogy sokkal jobban értjük a beszéli zemélyt, ha nemcsak hallgatjuk, de latjuk is. Több kutatóközpontban, különböze zakterületek - mesterséges látás, beszédfelismerés, egy-két esetben a gépi fordítás ■ zintézisével próbálják ugyanezt az elvet számítógépes közegre alkalmazni. Október 1. Logikus lépés az audiovizuális beszédfelismerés - állítja Ian Matthews, a Camegie Mellon Egyetem Robotikai Intézetének kutatója. Nemcsak logikus, de szükséges is, hiszen hiába fejlődtek oly sokat a személyi számítógépek, a velük történő kommunikáció módja mit sem változott az utóbbi évtizedekben. Ellenére annak, hogy a rendszerek egyre jobban értik a hangot, változadanul a billentyűzet és az egér a legfontosabb interfészek. Ráadásul a hangfelismerés még távolról sem tökéletes: nemcsak zajos környezetben, de ideális körülmények között is adódnak problémák. A gépek egyszerűen képtelenek megkülönböztetni az emberi beszéd finom árnyalatait. Csendben talán nem, de taxiban, vasútállomáson könnyen elvétik a majdnem azonos kiejtésű, viszont teljesen más jelentésű szavakat (például a “bókot” és a “pókot”, stb.). Ritkábban tévednének, ha a beszélőt hallanák és lámák is, azaz tudnának szájról olvasni. Az IBM Thomas J. Watson Kutatóközpontjában (Yorktown Heights, New York állam) dolgozó Chalapathy Neti már négy éve fejleszt audiovizuális beszédfelismerő technológiákat. Az emberre hivatkozik ő is: “az auditív és a vizuális érzékelést egyesítve döntünk az elmondottakról.” Szimultán használjuk fülünket és szemünket. A komputerek szintén megtaníthatok ugyanerre a feladatra - fűzi hozzá. A folyamat elején a számítógép és a kamera bőrszínhez hasonló színű pixeleket keres, majd statisztikai modellek segítségével választja ki az archoz hasonló formákat, lokalizálja a beszélőt. A látásért felelős algoritmusok nemcsak a szájra, hanem annak környékére is összpontosítanak. Becsléseket végeznek a különböző jegyek - például az ajkak központja, sarkaik - elhelyezkedéséről. Ha a kamera csak a szájat nézné, mindössze tizenkettőtizennégy hangot ismerne fel vizuálisan. Ezért tágították látómezejét, ami azt eredményezte, hogy többfajta mozgást érzékel: az állkapocsét, az alsó orcáét, a nyelvét, valamint a fogak helyzetét is. Végül egyesítik a vizuális és az audiomintákat. Az egyesített anyagot (újfent) statisztikai modellek elemzik, s meghatározzák, mit mondott a beszélő. Neti és társai többször, eltérő körülmények között - csendben, gyenge és erős háttérzajjal - tesztelték a rendszert. Sokkal jobb Mágnessel az érékeiéért Október 2. A pulzáló mágneses mezővel végzett stimulációs terápia csökkenteni képes számos pácieas erekciós zavarait. A kezelés a vegetatív idegrendszerre hat és javítja a szervek oxigénellátását, közölte Wolfgang Greul, Bad Füssing klinikájának főorvosa. A német Bundeswehr müncheni klinikáján kimutatták, hogy az erekciós zavarokban szenvedők 80 százaléka kezelhető ezzel az eljárással. Becslések szerint Németországban mintegy 4,5 millió férfi szenved erekciós zavarokban, a 40 és 70 év közötti férfiak közül csaknem minden második. Organikus eredetű impotencia esetén az. előidéző többnyire a nemi szerv vérellátási zavara, állapította meg Greul. A cukorbaj, a magas vérnyomás, a magas koleszterinszínt, valamint az erős dohányzás és sok szeszesital fogyasztása számos esetben erekciós zavarokat idézhet elő. .Akadályozhatja az erekciót a tesztoszteron hiánya és hasonló mellékhatása lehet bizonyos depresszióellenes gyógyszereknek is. Greul szem v* w ■’■"T rint a pulzáló mágneses rezonancia összességében élénkíti az anyagcserét és elősegíti az egész test lényegesen jobb vérellátását. A szóban forgó terápiánál mágneses mezőt alkalmaznak, amelynek pulzálását a páciens szívritmusa határozza meg. A véráramlás javulása vizsgálattal kimutatható, idézte az AP jelentése Greul főorvost. eredményeket kaptak, mint a csak audiokísérletek során. A zajon kívül egyéb zavaró, a laboratóriumok falain kívül mindennapos tényezőkkel is számolnak: a beszélő nem néz a kamerába, elfordítja a fejét, rosszak a látási viszonyok. Ezek ellensúlyozására fejlesztenek egy audiovizuális headsetet, apró kamerával a mikrofonon. A kamera, függetlenül a fej és a test mozgásától, állandóan látná a szájat. Kiegészítésként, jelenleg a száj környékének állandó infravörös megvilágítást biztosító pirinyó szerkezettel kísérleteznek. A másik megoldás a látási feltételeket vizsgáló viszszacsatoló rendszer lenne. A megbízhatósági szint alapján döntené el, hogy használható-e a vizuális információ: ha magas a szint, akkor igen, ha alacsony - például amikor a beszélő elfordítja a fejét -, akkor nem. Az Intelnél a beszédet audiovizuális alapon elemző szoftvert fejlesztettek, s teszteltek kínaiul és angolul egyaránt. Biztatóak a zajos közegben született eredmények: a rendszer öt szóból négyet felismert. Hang és kép fúziójára, a beszéd vizualizálására tett kísérlet az Egyesült Államok negyedik leggyakrabban használt nyelvét, a süketek/süketnémák kommunikációját biztosító, francia eredetű (!) ASL-re (American Sign Language) vonatkozó fejlesztés is. A chicagói DePaul Egyetemhez tartozó Számítógép-tudományi, Telekommunikáció és Információs Rendszerek Iskolájában Rosalee Wolfe irányításával az elmondott szöveget automatikusan ASL nyelvre fordító rendszeren dolgoznak. Az ASL legalább annyira különbözik az angoltól, mint bármely más beszélt nyelv. Önálló mondattannal, jelentéstannal rendelkezik. Egységeket képező jegyek, úgynevezett cherémák (cheremes, görögül: kéz) különböztetik meg egymástól a jeleket: a kézmozgás, a kéz formája (egyenes, kicsavart), a fej orientációja, a nem-manuális elemek (például az arckifejezések) az alapok. A beszéd e jegyek különböző kombinációjából épül fel. Egy-egy jel egész mondatot, vág)' csak egy szót fejez ki. A fordítóprogram a verbális kommunikációt animált vizuális információvá alakítja. Az inputot egy ASL-szekvenciákat generáló mesterséges közvetítő nyelvre, interlinguára konvertálja. Ezután, a kerémák és más elemek felhasználásával dolgozza ki a vizuális jeleket, melyeket Paula, egy animált figura tolmácsol élethűen a nézőnek. A megértést könnyítendő, Paula kezét és fejét szokatlanul nagyra tervezték. Wolfe és munkatársai eredetileg csak repülőtéri biztonsági alkalmazásra gondoltak, később viszont már szélesebb körben (oktatásban, kereskedelemben, egészségügyben) használható eszköz kivitelezését jelölték meg célként. Mellékprojektként a repülőtéri munka gördülékenységét, illetve a süketek/süketnémák biztonságérzetét fokozó modulokat terveznek. Röviden Rákkeltő anyagok miatt PERELIK AZ IBM-ET Szeptember 29. A világ legnagyobb számítástechnikai konszernjét amerikai sajtóértesülések szerint rákkeltő vegyi anyagok alkalmazása miatt citálták bíróság elé. Négy egykori munkatárs ügyvédei azt róják fel a vállalatnak, hogy tudatosan tette ki az alkalmazottait rákkeltő anyagok hatásának. A négy munkatárs egyike még 1991-ben, 36 éves korában rákban hunyt el. Az IBM adatokat gyűjtött több mint 30 ezer néhai alkalmazottja halálának okairól, és eközben ijesztően magas volt a rákos megbetegedések aránya, állítják a felperesek. A vállalat visszautasítja a vádakat, és a beadvány elutasítását kérte a bíróságtól. A per egyébként egyike a volt alkalmazottak által az IBM ellen indított 250 eljárásnak. Szakértők arra emlékeztetnek, hogy az ügy; kimenetele hatással lehet a teljes informatikai és chipgvártó ágazatra. Fél év házi őrizet a Hulk-kalóznak Október 1. New Yorkban hat hónap házi őrizetre és három év felfüggesztett börtönre ítéltek egv férfit, amiért a Hulk című filmet engedély nélküli másolat formájában kitette az internetre. A 24 éves Kerry Gonzales ezen kívül 2000 dollár pénzbüntetést illetve 5000 dollár kártérítést is köteles fizetni az Universal filmstúdiónak. Amerikai sajtóértesülések szerint Gonzales a film félkész változatát egy barátjától kapta meg. A digitalizált változat a hivatalos bemutató előtt két héttel online elérhetővé vált. Az eset azért keltett nagy feltűnést, mert rendszerint csak a bemutatásuk után jutnak ki a filmek az internetre. Online vásárlók számára KERESŐT FEJLESZT AZ AMAZON Október 1. Az Amazon internetes könyváruház internetes bevásárlásra használható keresőt fejleszt. Az alkalmazás célja, hogy az internetes felhasználók számára egyszerűbbé váljon a termékek összehasonlítása. Még nem ismert, hogy mikorra várható az ideiglenesen A9 név alatt emlegetett kereső beindítása. Az Amazon ezzel a lépéssel a keresőoldalak piacáért folyó versenybe száll be. A terület legfontosabb szereplője a Google és a Yahoo. Nemzetbiztonsági kockázatot jelent a Microsoft? Szeptember 28. .Amerikai számítógépbiztonsági szakértők szerdán nyilvánosságra hozott jelentése szerint a széles körben elterjedt Microsoft-szoftverek veszélyeztetik az Egyesült Államok és más országok céges és állami hálózatainak biztonságát. Ä Microsoft operációs rendszerei és szoftverei a vírusirtók és hackerek első számú célpontjai. A monokultúra megszüntetése a valódi cél" - erre a végkövetkeztetésre jutott az amerikai számítástechnikai ipar szereplőit tömörítő CC1A washingtoni éves közgyűlésén szerdán ismertetett vitairat. A Cyberinsecurity: The Cost of Monopoly (rossz informatikai biztonság: a monopólium ára) címet viselő irat szerzői a Microsoftot nevezik meg a vírusírók fő célpontjaként. A CCIA nem - meglepő módon - a Microsoft konkurenseit tömöríti. Az irat szerzői ugyanakkor független szakértők, akik utalnak arra. hogy a Microsoft szoftvereinek bonyolultsága jelentősen növeli azok sebezhetőségét.