Nyelvtudományi Közlemények 66. kötet (1964)

Tanulmányok - Kiefer Ferenc: Választás és véletlen a nyelvben 239

ISMERTETÉSEK - SZEMLE 241 szláv intézete szó-statisztikai vizsgálatokat végzett orosz szövegek alapján.5 A szövege­ket 25 százalékban a XIX. századból, 25 százalékban az 1800—1918-as évekből, és 50 százalékben pedig 1918-tól napjainkig^ terjedő időszakból válogatták össze. Minden periódusra meghatározták vm értékét. Úgy találták, hogy vm még inkább jellemző egy egész korszakra, mint valamely író stílusára. Tekintettel arra, hogy a mintákat a leg­különbözőbb írók műveiből vették, a vm stabilitása a közös szókincsnek köszönhető, amely 1830-tól napjainkig körülbelül változatlan maradt. A vm most már mint egyfajta „langue—parole"-viszony jelzője (indexe) fogható fel, vagyis vm megmutatja, hogy a teljes szókincs (la langue) és az előfordulások (la parole) aránya egy eléggé tekintélyes korszakon belül állandó marad. Mivel az előfordulások számának megváltozásával szemben vm invariáns, változás a vm értékében így csak akkor következhet be, ha a szókincs (akár a részleges, akár a teljes) megváltozik. Ez utóbbit a vizsgálatok messzemenően igazolták. A változások a tapasztalat szerint csökkenő tendenciát mutatnak. A nyelv bizonyos vonatkozásokban rokonságot mutat tehát a fizikai rendszerekkel és azok jellemzőjével, az entrópiával. Tudniillik ez a csökkenő tendencia más szóval azt jelenti, hogy a szavak használatának gyakorisága a legtöbb szó esetében egy középérték köré csoportosul, a gyakoriságok az idő múlásával pedig mind kisebb variációs eltérést mutatnak. Amint a szógyakoriság relatív fluktuációja egy mini­mum felé közeledik, az „állapot" valószínűsége maximális lesz. A Herdan-féle vm paraméter YULE K-jellemzőjéhez hasonlít, és lényegében csak abban különbözik tőle, hogy nem függ attól a feltételtől, amelytől K függ. A K-ról YUXE ugyanis feltételezte, hogy a szógyakoriságok PoissoN-féle eloszlást mutatnak.6 A vm egyetlen hiányossága, hogy a YULE által javasolt kontroll-lehetőségeket HEEDAN nem használta ki a vm használatánál, és így eredményei nem tekinthetők 100 százalékosak­nak. HERDAN e hiányosságot részben kiküszöböli második könyvében (Type-Token Mathematics), ahol a stílus jellemzésére újabb paramétert talál.7 Nyelvészek körében felmerülhet az az ellenvetés — és ezzel HERDAN is tisztában van —, hogy bár ilyen paraméterek használata bizonyos kényelmet jelent, de ezek nem mondanak semmi újat és érdemlegeset a jelenség nyelvészeti oldaláról. HERDAN azon­ban utal arra, hogy ha olyan, a nyelvészetben egyébként jól ismert tényt, mint hogy a szókészlet arányosan növekszik a szöveg hosszának növekedésével, kvantitatíve le tudunk írni, az jóval több mint kényelmi szempont. De a gyakorlatban is nagy jelentőségű két stílus összehasonlításánál az a tény, hogy ugyanarra az eredményre jutunk, ha sta­tisztikai paraméterekkel dolgozunk, éppúgy mint amikor az eddig szokásos módszereket alkalmazzuk. Tulajdonképpen amikor a statisztikai módszereket alkalmazzuk a nyelv­ben, a következő hipotézisből indulunk ki: ha egy adott szöveg különböző részeiből veszünk mintákat, amelyek mindegyike elegendő szót tartalmaz, akkor a szavak gyakori­sági eloszlása az előfordulások gyakoriságának megfelelően nem fog lényegesen külön­bözni egymástól a különböző minták esetén, még akkor sem, ha mintaként az egész szöveget vesszük. Más szóval ez azt jelenti, hogy bármely megfelelő nagyságú szöveg­részt úgy tekinthetünk a szókészlet gyakorisági eloszlását illetően, mintha a teljes szöveg­ből vakpróba alapján vettünk volna mintát. Ezért a szóelőfordulás statisztikai hipoté­zise nem azt igyekszik megmagyarázni, hogy miért használunk egy bizonyos szót, vagy miért használunk egy bizonyos grammatikai formát. Függetlenül attól, hogy valamely összefüggő szövegben milyen sajátságos szavak fordulnak elő, vagy hogy azokat hogyan fűzik egybe a nyelvtani szabályoknak megfelelően, egy elegendően nagy szövegrész vakpróba alapján vett mintának tekinthető a szógyakoriság, a fonémák, a szóhosszúság szempontjából. Természetesen már magában is fontos tény az, hogy bizonyos nyelvi formák statisztikai törvényeket követnek, amely semmi esetre sem „a priori" tény. Ha azonban a legkisebb nyelvi egységekből — a betűkből, fonémákból — indulunk kis, és így jutunk a nagyobb egységekhez: a morfémákhoz, szótagokhoz, mondatokhoz, akkor a tárgy 5 Vö. H. H. JOSSELSON, The Russian Word Count (para. 5 by B. Epstein, Detroit 1953). 6 Annak feltételezése, hogy a szógyakoriság egy határozott valószínűségi tör­vényt követ, nem indokolható kellőképpen. Ezért HERDAN paraméterének matematikai levezetésében a fenti feltételt kizárja. 7 HERDAN egyik leghasználhatóbb statisztikai paramétere e tekintetben a logarit­mikus jelpéldány (type-token) arány, ahol a jel a nyelvi forma (fonéma, morféma stb.), a példány az illető jel előfordulási száma. Ez a paraméter a minta nagyságától független {legalábbis különböző nagyságú minták esetén az eltérések elhanyagolhatók), és ezért jól használható a stílus statisztikai vizsgálatára. . 16 Nyelvtudományi Közlemények LXVI/1 \

Next

/
Thumbnails
Contents