Kutatás-Fejlesztés – Tudományszervezési Tájékoztató, 1986
3-4. szám - Szemle
288 72/ Coile vitába szállt Murphy és Schorr eredményeivel. Részletesen kifejtette Lotka törvényének levezetését, és statisztikai próbának vetette alá a két tanulmány adatait. Mindkét esetben azt találta, hogy a szerzők állitásával ellentétben Lotka törvénye nem illeszkedik a megfigyelt adatokra. Coile azért ugy vélekedett, hogy ezek a tanulmányok "félreértelmezték Lotka törvényét és tévesen következtettek arra, hogy a törvény a szóbanfurgó szakterületeken is alkalmazható". Schorr'3/ megvizsgálta a törvény érvényességét az igazságügyi orvostan szakirodalmára. Eredményei azt sugallták, hogy ezen a területen a törvény nem érvényes. Valószínűleg ezek a fejlemények vezették Pottert74/ ahhoz az állításához, hogy "ugy látszik, hogy bizonyos félreértések folytán a legtöbb tanulmány, amelyet Lotka törvényének alátámasztására idézni szoktak, nem emliti Lotkát, és nem tartalmaz összevethető adatokat". ZIPF TÖRVÉNYE Zipf törvényét George Kinsley Zipfről, a Harvard Egyetem hajdani filozófiaprofesszoráról nevezték el. Zipf75/ 1945-ben jelentette meg "Az emberi viselkedés és a legkisebb erőkifejtés elve" cimü könyvét. Ennek az elvnek az értelmében az emberek szivesebhen választanak és használnak ismerős szavakat, mint kevésbé ismerőseket, ezért egy ismerős szó következő előfordulásának valószínűsége egy szövegben nagyobb, mint egy kevésbé ismerős szóé. Illusztrációképpen Zipf előfordulási gyakoriságuk csökkenő sorrendjében sorbarendezte a Joyce Ulyssesében előforduló 29 899 különböző szót. Minden szóhoz hozzárendelt egy rangszámot /г/ 1-től 29 899-ig. Ezután itiinden szó rangszámát megszorozta a szó előfordulási gyakoriságával /f/. Az igy kapott С szorzat a teljes szójegyzékre állandónak bizonyult, mint azt az X. táblázat tanusitja. Zipf törvényének képlete tehát r-f = C. Ugy látszik, hogy más jelenségek is hasonló eloszlást mutatnak. Simon76/ a kutatóknak a cikkek száma szerinti eloszlását, a városoknak a népesség szerinti eloszlását és a biológiai fajoknak az egyedek száma szerinti eloszlását emliti. Bookstein''' >7°/ megkísérelt egy összesitő áttekintést adni az ilyen eloszlásokról. Wyllys'9/ szerint Mandelbrot e jelenségek meggyőzőbb magyarázatát adja. Mandelbrot a kommunikáció "költségeit" vette alapul a szavak, a szavakat alkotó betűk és a szavakat elválasztó szóközök kifejezésében. Ez a költség növekszik a szavak betűinek a számával és az információ terjedelmével. E szerint a gondolatmenet szerint Zipf törvénye a betűkkel és szóközökkel kifejezhető kommunikációs költségek közelítésének tekinthető. Zipf törvényének ezek a különféle magyarázatai mutatják, hogy a törvény indokolása tekintetében még nem teljes az egyetértés. A törvény alapelvének az a u t omatikus indexelésre való alkalmazásában Luhn ö u/ és Baxenda leöl/ végzett úttörő munkát. Ez a módszer számitógép segítségével összeszámlálja a dokumentumokban leggyakrabban előforduló szavakat és kifejezéseket, miután a "tiltott szavak" listája segítségével kizárja a legáltalánosabban használt, nem informativ szavakat. A leggyakrabban előforduló szavakat és kifejezéseket tekinti ezek után a dokumentum tárgyát jellemző kulcsszavaknak. Egy másik fajta megközelités az abszolút gyakoriság helyett a viszonylagos gyakoriságot használja. A viszonylagos gyakoriság itt a várhatóhoz képest mért gyakoriságot jelenti. így pl. egy információszervezésről szóló cikkben az "információ" és a "szervezés" szavakat