Péczely György: Éghajlattan (Nemzeti Tankönyvkiadó, Budapest, 1998)
5. Az éghajlatelemzés matematikia-statisztikai módszerei - 5.7 Hipotézisek ellenőrzése (feltevésvizsgálat)
5.7.3 Valószínűségek konfidencia határai Gyakran felmerülő probléma éghajlati adatok elemzésénél a következő: ismerjük valamely esemény bekövetkezésének P valószínűségét egy teljes adatsokaságra, majd bizonyos szempontok szerint kiválasztunk részsokaságokat, ezekre is meghatározzuk az esemény bekövetkezésének p valószínűségét (ill. helyesebben, miután általában kisebb elemszámú mintákról van szó, relatív gyakoriságát), s azt vizsgáljuk, hogy az esemény bekövetkezését előidéző ok ugyanúgy hatott-e a kiválasztott részsokaságokban, mint a teljes adatsokaságban. Például egy ipari városban azt tapasztaltuk sok év megfigyelései alapján, hogy januárban a 2 km alatti rossz látástávolság bekövetkezési valószínűsége 40 százalék, s 6 év januárjának munkaszüneti napjain (össszesen 30 esetben), amikor a légszennyező üzemek egy része nem dolgozott, a rossz látás valószínűsége 31 százalékra csökkent. Kérdés, jelentősen eltér-e ez a valószínűség a januári összes napra meghatározottól, azaz feltehető-e, hogy az üzemek egy részének a munkaszüneti napokon való kikapcsolódása a levegő szennyezéséből kimutathatóan befolyásolta a látástávolság megjavulását? Egy másik hasonló típusú probléma: adva van egy tóparti megfigyelőhely, ahol a szabad vízfelület az észlelőponttól számított északkelet-délkelet irányok által határolt 90 fokos szektorba esik. A tapasztalat szerint nyáron a nappali órákban elég gyakran megfigyelhető tavi szél állomásunkon. Júliusban például az óránkénti szélmegfigyelések szerint 30 százalék annak a valószínűsége, hogy az állomáson a fenti szektorból fúj a szél, s 5 év megfigyeléseiből azt kaptuk, hogy déli 12 órakor az esetek 47 százalékában volt vízfelőli szélirány. Kérdés, eltér-e ez a relatív gyakoriság olyan mértékben a teljes sokaságra megállapított alapvalószínűségtől, hogy kimondhassuk a nappali tavi szél törvényszerű fellépését. E problémák megoldása a valószínűségek konfidencia intervallumának meghatározásával lehetséges. Az eljárás lényege a következő. Legyen adott a teljes adatsokaságra egy esemény P alapvalószínűsége. Válasszunk ki véletlenszerűen a teljes adatsokaságból n tagú részsokaságokat, s ezekből meghatározva az esemény valószínűségét (relatív gyakoriságát) különböző p értékeket kapunk. Ezek a p értékek véletlenszerűen szóródnak P körül, eloszlásukra normál eloszlás tételezhető fel. Az n megfigyelésből meghatározott p valószínűség szórása az alábbi képlettel adható meg: (5.7.3-1)