Nyelvtudományi Közlemények 77. kötet (1975)
Tanulmányok - Timaffy Ildikó: Szende Tamás: Spontán beszédanyag gyakorisági mutatói 300
SZEMLE-ISMERTETÉSEK 301 „A feladatról" szóló ismertető fejezet hasonló precizitással készült. Feladatának tekinti, hogy ,,a nyelvstatisztikai mutatók tükrében olyan jellemzőket mutasson meg, amelyek sajátosan spontán beszédanyagnak a jellemzői" (16). Részletesen ismerteti az anyagválasztás munkáját, mellyel a hangsúlyozott spontaneitást igyekeztek biztosítani, és pontos definíciót ad arra nézve is, hogy mit ért spontán beszédanyagon. A mintáról — összetételén kívül — számszerű adatokat is közöl (hang- szóterjedelem), ismerteti a feldolgozás előkészítésének folyamatát, nehézségeit is, és végül szemléltetés céljából részleteket is közread. Hasonló pontossággal és szemléltetéssel foglalja össze a számítógépi feldolgozás lebonyolítását, nehézségeit is. Eredményeinek ismertetését egy általános törvényszerűség kimondásával kezdi SZENDE TAMÁS: „minél bonyolultabb, összetettebb egységekre vonatkozik a statisztikai eljárás, annál egyedibb jellemzők kerülnek napvilágra" (26) ; majd néhány olyan jellemző eltérést mutat be, amely a spontán beszédet szembeállítja az írott szövegmintával (állandó megszakítóttság, esetlegesség, amely ismétléseket, félbemaradt szavakat — mondatokat, és ennek kapcsán speciális hangkapcsolatokat eredményez stb.). Á konkrét mintára vonatkozó adatokat és számításokat mintegy ismeretterjesztő-szintű részletességgel és szemléletességgel közli SZENDE. Először a beszédhangok megoszlási mutatóit ismerteti, külön táblázattal szemléltetve a magánhangzók, külön a mássalhangzók eloszlását ; arányukat, a hangok hangkapcsolatok szerinti statisztikáját, és felállít egy gyakorisági sorrendet is. Itt azonban a dolgozat halványabb pontjához érkezünk. A statisztikai módszerek illetve számítások ismertetése ugyanis több esetben megkérdőjelezhető, sőt egyes helyeken értelmetlen. A problémák két szinten jelentkeznek : egyrészt megfogalmazásbeli pontatlanságok, másrészt matematikai jellegű pontatlanságok formájában, s ezek már komolyabb félreértésekhez vezethetnek. Az első bonyodalom a hibahányad meghatározására szolgáló képlet ismertetésénél adódik. Idézem : „Ha kisszámú adatmennyiséget megkettőzünk, nem úgy növeljük a megbízhatóságot, mintha százezres nagyságrendeket dupláznánk, s ezt a képlet megszerkesztői ugyancsak tekintetbe vették, azzal, hogy a szöveg adatainak teljes hosszát kifejező számnak ós a gyakorisági sorrendnek a szorzatát négyzetgyök alá helyezték" (31). Sajnos a mondatban jelzett ok — okozati kapcsolat nem igaz, sőt értelmetlen (a). Hasonlóképpen zavaros a képlet másik részének, az ua tényezőnek a magyarázata (b). 1 ti. Nézzük a képletet : ô y N • p Annak valószínűsége, hogy N nagyságú mintában egy adott hang K-szor fordul elő, binomiális eloszlást követ. Ha p a hang előfordulási valószínűsége, akkor K várható értéke /M(K)/ a binomiális eloszlásból következően : M(K) = J KÍ^lpKa-p^-K-Np (1) Hasonlóképpen a szórásnégyzet : o* (K) = £ EK - M (K)P [ K) PK ( X - P)N ' K - »P(l -r P) (2 ) A szórás : a (K) = 1 NpTT^p) (a) A „négyzetgyök alá helyezés" tehát nem a szerző szerinti megfontolásból adódik. À p valószínűséget nem ismerjük. A mintabeli gyakoriság azonban a várható érték körül ingadozik, ezért (1) p-re becslési lehetőséget ad. * _JL p _ N . 1Vö. RÉNYI ALFRÉD, Valószínűségszámítás. Tankönyvkiadó, Budapest, 1968. VINCZE ISTVÁN, Matematikai statisztika Egyetemi jegyzet. Budapest, 1973.