Nyelvtudományi Közlemények 78. kötet (1976)
Tanulmányok - Vértes Edit: Számadatok az egyedi szókészlet nagyságának megbecsléséhez [Zahlenwerte zur Einschätzung der Größe des individuellen Wortschatzes] 484
SZÁMADATOK AZ EGYEDI SZÓKÉSZLET MEGBECSLÉSÉHEZ 489 azokat együtt számoltam, pl. 'wo', 'wohin', 'woher', de 'wer' és 'wann' külön. Egyes esetekben vitatható, hogy a naiv beszélő és a nyelvész döntése azonos lenne-e, ez azonban statisztikus egybevetésnél és az arányok vizsgálatakor úgyis kiegyenlítődik, hiszen más megoldás esetén részben több, részben kevesebb szócsalád adódna. Az egyes adatközlők alakilag különböző szavaira a fenti számadatokból semmi módon sem lehet következtetni, minthogy az összetett és képzett szavakat figyelmen kívül hagytam, márpedig ezek száma jelentős. A két 'Vater' szó összetételei között 'Schwester', 'Bruder', szitkok (145b —146a), ill. a nagyszülők elnevezése stb. (922ab) található, több mint tíz déli osztják összetett szó; a 'groß' osztják melléknév származékai 'wachsen', 'aufziehen' stb. (52b— 53a), a 'Muster' szó családjába 'sticken', 'schreiben', 'bunt' stb. (312b—314a) tartozik. A fent közölt összeállítás alapján tehát annyi bizonyosan állítható, hogy a négy adatközlő legalább 4—5-ször annyi szót ismert, mint ahány szócsalád ebben az összeszámlálásban szerepel. (A közölt szövegekben persze nem fordul elő valamennyi szócsalád minden lehetséges származéka és összetétele). Néhány nehezen fordítható, de gyakori szót oszt jakul vettem fel a jegyzékbe. Ezek között több orosz szó is található, a, i, stb. melyeket a szótár fel sem vesz. Az osztjákok oroszok között éltek, élnek, így nyelvükben az orosz szavak nem tekinthetők olyan idegen elemeknek, mint a külföldre szakadt magyarok ad hoc közösségében található francia, angol stb. szavak, melyeket LAZICZITJS (i. m. 70—71) nem tart a magyar nyelv szókészletébe tartozó elemeknek. Az eddigi számadatokból kiderült, hogy a nyelvileg gyakori és nyelvileg ritka szócsaládok aránya a DN, Ts. ós Kr. szövegekben nagyjából egyező. Arra nézve azonban még semmit sem állapítottam meg, hogy a négy adatközlő közül melyiknek volt gazdagabb, színesebb a nyelvezete. Az összehasonlítás számok segítségével csak úgy végezhető el, ha valamilyen módon „közös nevezőre" tudjuk a különböző terjedelmű szövegeket hozni. Egyik ilyen lehetőség kiszámítani, hogy Karjalainen laponként átlag hány különböző szót (szócsaládot) jegyzett fel. A DN szövegek terjedelme 40 kéziratos lapnak tekinthető, a Ts. szövegeké, a finn feljegyzéseket leszámítva, 32-nek, a Sav. feljegyzéseké 17-nek, a Kr. 67 félakkora lapnak. Ez az összehasonlítási alap azonban nem teljesen kielégítő, mert az írás sűrűsége változó, a kettéhajtott Kr. lapokból két kis lapon több a feljegyzés, mint a többinél egy nagy lapon. Statisztikai vizsgálódásaimból tudom, hogy 10 000 hang a DN-szövegekben 11 2/3, aTs.-ban 11 1/5, a Sav.-ban 12 1/4, aKr.-ban 21 1/5 lapon található. így hármasszabállyal kiszámítható, hogy 1000 hangonként hány új szó található. Ellenőrzésként megszámoltam a nyomtatott szövegek sorainak számát (a tört sorokat becsléssel egyesítve), s így sorra 690, 597, 356%, 669*4 sor terjedelműnek mutatkoztak a szövegek. Ily módon egybevethetők az eredmények: Eltérő szavak átlagos száma DN Ts. Sav. Kr. Karjalainen foliólapjain 17,15 21,47 28,24 20,78 1000 hangonként 20,01 24,05 34,59 22,02 nyomtatott soronként 0,99 1,16 1,34 1,04