Nyelvtudományi Közlemények 66. kötet (1964)
Tanulmányok - Kiefer Ferenc: Választás és véletlen a nyelvben 239
ISMERTETÉSEK - SZEMLE 241 szláv intézete szó-statisztikai vizsgálatokat végzett orosz szövegek alapján.5 A szövegeket 25 százalékban a XIX. századból, 25 százalékban az 1800—1918-as évekből, és 50 százalékben pedig 1918-tól napjainkig^ terjedő időszakból válogatták össze. Minden periódusra meghatározták vm értékét. Úgy találták, hogy vm még inkább jellemző egy egész korszakra, mint valamely író stílusára. Tekintettel arra, hogy a mintákat a legkülönbözőbb írók műveiből vették, a vm stabilitása a közös szókincsnek köszönhető, amely 1830-tól napjainkig körülbelül változatlan maradt. A vm most már mint egyfajta „langue—parole"-viszony jelzője (indexe) fogható fel, vagyis vm megmutatja, hogy a teljes szókincs (la langue) és az előfordulások (la parole) aránya egy eléggé tekintélyes korszakon belül állandó marad. Mivel az előfordulások számának megváltozásával szemben vm invariáns, változás a vm értékében így csak akkor következhet be, ha a szókincs (akár a részleges, akár a teljes) megváltozik. Ez utóbbit a vizsgálatok messzemenően igazolták. A változások a tapasztalat szerint csökkenő tendenciát mutatnak. A nyelv bizonyos vonatkozásokban rokonságot mutat tehát a fizikai rendszerekkel és azok jellemzőjével, az entrópiával. Tudniillik ez a csökkenő tendencia más szóval azt jelenti, hogy a szavak használatának gyakorisága a legtöbb szó esetében egy középérték köré csoportosul, a gyakoriságok az idő múlásával pedig mind kisebb variációs eltérést mutatnak. Amint a szógyakoriság relatív fluktuációja egy minimum felé közeledik, az „állapot" valószínűsége maximális lesz. A Herdan-féle vm paraméter YULE K-jellemzőjéhez hasonlít, és lényegében csak abban különbözik tőle, hogy nem függ attól a feltételtől, amelytől K függ. A K-ról YUXE ugyanis feltételezte, hogy a szógyakoriságok PoissoN-féle eloszlást mutatnak.6 A vm egyetlen hiányossága, hogy a YULE által javasolt kontroll-lehetőségeket HEEDAN nem használta ki a vm használatánál, és így eredményei nem tekinthetők 100 százalékosaknak. HERDAN e hiányosságot részben kiküszöböli második könyvében (Type-Token Mathematics), ahol a stílus jellemzésére újabb paramétert talál.7 Nyelvészek körében felmerülhet az az ellenvetés — és ezzel HERDAN is tisztában van —, hogy bár ilyen paraméterek használata bizonyos kényelmet jelent, de ezek nem mondanak semmi újat és érdemlegeset a jelenség nyelvészeti oldaláról. HERDAN azonban utal arra, hogy ha olyan, a nyelvészetben egyébként jól ismert tényt, mint hogy a szókészlet arányosan növekszik a szöveg hosszának növekedésével, kvantitatíve le tudunk írni, az jóval több mint kényelmi szempont. De a gyakorlatban is nagy jelentőségű két stílus összehasonlításánál az a tény, hogy ugyanarra az eredményre jutunk, ha statisztikai paraméterekkel dolgozunk, éppúgy mint amikor az eddig szokásos módszereket alkalmazzuk. Tulajdonképpen amikor a statisztikai módszereket alkalmazzuk a nyelvben, a következő hipotézisből indulunk ki: ha egy adott szöveg különböző részeiből veszünk mintákat, amelyek mindegyike elegendő szót tartalmaz, akkor a szavak gyakorisági eloszlása az előfordulások gyakoriságának megfelelően nem fog lényegesen különbözni egymástól a különböző minták esetén, még akkor sem, ha mintaként az egész szöveget vesszük. Más szóval ez azt jelenti, hogy bármely megfelelő nagyságú szövegrészt úgy tekinthetünk a szókészlet gyakorisági eloszlását illetően, mintha a teljes szövegből vakpróba alapján vettünk volna mintát. Ezért a szóelőfordulás statisztikai hipotézise nem azt igyekszik megmagyarázni, hogy miért használunk egy bizonyos szót, vagy miért használunk egy bizonyos grammatikai formát. Függetlenül attól, hogy valamely összefüggő szövegben milyen sajátságos szavak fordulnak elő, vagy hogy azokat hogyan fűzik egybe a nyelvtani szabályoknak megfelelően, egy elegendően nagy szövegrész vakpróba alapján vett mintának tekinthető a szógyakoriság, a fonémák, a szóhosszúság szempontjából. Természetesen már magában is fontos tény az, hogy bizonyos nyelvi formák statisztikai törvényeket követnek, amely semmi esetre sem „a priori" tény. Ha azonban a legkisebb nyelvi egységekből — a betűkből, fonémákból — indulunk kis, és így jutunk a nagyobb egységekhez: a morfémákhoz, szótagokhoz, mondatokhoz, akkor a tárgy 5 Vö. H. H. JOSSELSON, The Russian Word Count (para. 5 by B. Epstein, Detroit 1953). 6 Annak feltételezése, hogy a szógyakoriság egy határozott valószínűségi törvényt követ, nem indokolható kellőképpen. Ezért HERDAN paraméterének matematikai levezetésében a fenti feltételt kizárja. 7 HERDAN egyik leghasználhatóbb statisztikai paramétere e tekintetben a logaritmikus jelpéldány (type-token) arány, ahol a jel a nyelvi forma (fonéma, morféma stb.), a példány az illető jel előfordulási száma. Ez a paraméter a minta nagyságától független {legalábbis különböző nagyságú minták esetén az eltérések elhanyagolhatók), és ezért jól használható a stílus statisztikai vizsgálatára. . 16 Nyelvtudományi Közlemények LXVI/1 \