Schubert András, Glänzel Wolfgang, Braun Tibor: Tudománymetriai mutatószámok 32 ország természettudományos alapkutatásának összehasonlító elemzéséhez 1976–1980 (A MTAK Informatikai És Tudományelemzési Sorozata 3., 1983)
4 ADATFORRÁSOK ÉS AZ ADATFELDOLGOZÁS MÓDSZEREI - 4.3 Az idézettségi mutatószámok összehasonlításának statisztikai megbízhatósága
28 tanulmányozhatók részletesen. A Narin által megadott folyóiratok szakterületi hovatartozását elemzésünkhöz változtatás nélkül átvettük minden olyan folyóiratra, amely 50%-nál nagyobb arányban valamely szakterülethez tartozott. Az olyan folyóiratokat, amelyek nem tettek eleget ennek a feltételnek, valamint az említett kötetben nem szereplő folyóiratokat a „nem azonosítható" kategóriába soroltuk. A fentiek alapján, Narin nyomán a következő szakterületi kategóriákat használtuk: Klinikai orvostudomány Orvosbiológiai kutatás Biológia Kémia Fizika Földtudományok és űrkutatás Mérnöki tudományok Pszichológia Matematika Nem azonosítható Az egyes szakterületekhez sorolt folyóiratok jegyzékét a Függelék 7.1 részében találhatja meg az olvasó. 4.3 AZ IDÉZETTSÉGI MUTATÓSZÁMOK ÖSSZEHASONLÍTÁSÁNAK STATISZTIKAI MEGBÍZHATÓSÁGA Könyvünk 2.2 részében hangsúlyoztuk, hogy statisztikailag megbízható következtetéseket csak elegendően sok publikáció adataira támaszkodva vonhatunk le. így míg egy-egy publikáció idézettségét inherens tulajdonságain felül (szakterülete, szakmai színvonala, hozzáférhetősége stb.) számos esetleges, véletlenszerű tényező befolyásolja, egy megfelelően nagy publikációhalmazt tekintve ezek a véletlen hatások kiegyenlítődnek és az egy publikációra eső átlagos idézettség az illető publikációhalmaz tényleges tudományos hatására jellemző mutatószámnak tekinthető. A következőkben a fenti „elegendően sok", „megfelelően nagy" kitételek pontosabb értelmezésével foglalkozunk. Tekintsük az egy publikációra kapott idézetek számát egy x valószínűségi változónak; legyen p k = p (x=k), (k=0,l,...) annak a valószínűsége, hogy egy publikáció pontosan k idézetet kap. Vizsgáljunk egy n publikációból álló halmazt (mintát), melynek elemei rendre x,,xj,..„ x n idézetet kaptak. Az x = (x! + x 2 + ... + x n) / n mintaátlag nyilvánvalóan az egy publikációra kapott idézetszám E(x) = 2 k= 0 kp k várható értékének becslőértéke; a becslés pontosságát a mintaátlag D(x) szórásával jellemezhetjük. a Tapasztalataink szerint x olyan eloszlást követ (negatív binomiális 6 4), hogy n > 10 esetén az x mintaátlag igen jó közelítéssel normális eloszlásúnak tekinthető. A mintaátlagok összehasonlítása során így a normális eloszlásra vonatkozó jól ismert statisztikai módszerek használhatók 7 6 . Ha pl. arra a kérdésre keresünk választ, hogy egy minta alapján az idézettség E(x) várható értékét egy rögzített a értéktől szignifikánsan eltérőnek nyilváníthatjuk-e, akkor a következőképpenjárhatunk el: Képezzük az x mintaátlag és ennek D(x) szórása segítségével a w = - m . (1) D(x) statisztikát. Válasszunk egy p megbízhatósági szintet; a következő táblázatból keressük ki a hozzátartozó w p küszöbértéket (p = 20 (w p) - 1; 0 (•) a standard normális eloszlás eloszlásfüggvénye).