Hidrológiai Közlöny 1994 (74. évfolyam)
3. szám - Goda László–Zsuffa István: Vízrajzi adatok homogenitásának vizsgálata a kétmintás Szmirnov–Kolmogorov próba élesített változatával
GODA L. - ZSUFFA I.: Vízrajzi adatok homogenitásának vizsgálata 173 gi erdőtüzek, az árvizek levonulását, ellapulását módosító tóltésezések, folyószabályozási munkák következményei mellett a mai vízgazdálkodás tározóépítkezéseinek árvízcsökkentő hatása nyilvánvalóan befolyásolja, illetve befolyásolhatja az adatok egyöntetűségét. Ezen közvetlen hatások mellett fölmerülhet a mezőgazdasági munkák változásának, a burkolt felületek, útpályák, beépített területek, repülőterek lefolyás módosításának a vizsgálata is. 2. A homogenitás vizsgálat elmélete; a Szmirnov-Kolmogorov próba Az adatok egyöntetűségére vonatkozó alaphipotézis elfogadásának, vagy elvetésének a kérdése kizárólag fizikai meggondolásokkal nem dönthető el. A vizsgálandó statisztikai minta elemei olyan véletlen eseményeket jellemző számok, valószínűségi változók, amelyek értékei igen sok, véges eszközökkel nyomon nem követhető, fizikai tényező okozataként alakultak ki. Ezen tényezők közül egyeseknek az esetleges jellegzetes megváltozása a többi, végtelen sok tényező hatását nem föltétlenül módosítja statisztikai szempontból döntő, „szignifikáns" módon. A kérdésre statisztikai eszközökkel kell a választ keresnünk, és a homogenitás kérdését is statisztikai kérdésként kell megfogalmaznunk. Azt kell eldöntenünk, hogy a rendelkezésünkre álló statisztikai minta minden eleme ugyanabból a statisztikai sokaságból való, ahonnan a vizsgált rendszerre jellemző valószínűségi változó aktuális, illetve a közeli jövőre vonatkozó értékei származnak. Ez a hipotézis úgy is megfogalmazható, hogy a folyamatot befolyásoló, vagy befolyásolható jelenség - erdőtűz, szabályozási munkák, tározóépítkezések - előtt észlelt adatok statisztikai mintája és a jelenség bekövetkezése utáni adatok halmaza azonos statisztiai sokaságot jellemez-e, és így a teljes adatsor egységes statisztikai mintája, vagy annak csak a mai időponthoz közeli része alkalmas a mai állapotra vonatkozó valószínűségek becslésére. E kérdésre a szubjektív válasz nyilvánvalóan a két minta eloszlásának a vizuális összehasonlításán alapulhat. A minták empirikus gyakorisági eloszlásait ábrázoló lépcsős függvények azonos, vagy eltérő jellegét kell megítélnünk. Az eltérő jelleg mérőszámaként a két empirikus eloszlás közötti, azonos értékhez tartozó gyakoriságok maximális különbségét tekinthetjük. Amennyiben ezt az értéket túl nagynak ítéljük, nyilván nemcsak ezt az idősort, hanem minden olyan idősort inhomogénnak tekintünk, amely két részidősorának gyakorisági eloszlásai között ezen eltérésnél nagyobbat észlelünk. E szubjektív döntésnél kétfajta hibát követhetünk el: vagy túlzottan enyhén ítélünk, és még a valóban szignifikáns elérését sem vesszük figyelembe. Ilyen módon tehát a nem homogén adatsort homogénnak minősítjük, azaz úgynevezett „másodfajú hibát követünk el". Ezzel ellentétben túl szigorúak is lehetünk, és az adatsort akkor is elvetjük, ha az homogén, azaz minden eleme, az adatok mindkét részidősora, azonos sokaságból származik, és így úgynevezett „elsőfajúnak" nevezett hibát követünk el. Mindkét esetben a megfelelő fajtájú hiba elkövetése véletlen esemény, ami előfordulási valószínűséghez köthető. Az azonban világos, hogy egyszerre nem lehet az ember túl szigorú, illetve túl engedékeny, azaz a két fajtájú hiba elkövetése valószínűségének egyidejű minimalizálására nincsen mód. Sőt az is nyilvánvaló, hogy az elsőfajú hiba nagy valószínűséggel történő vállalása a másodfajú hiba elkövetésének esélyét csökkenti. A legtöbb statisztikai próba alapelve éppen az, hogy olyan szigorú vizsgálati módszert alkalmazunk, amelynél, igen magas szinten, 95 %-os valószínűséggel vállaljuk az elsőfajú hibát, azért, hogy a másodfajú hiba elkövetését gyakorlatilag kizáijuk. Nyilvánvaló, hogy amennyiben olyan szigorú szűrőt alkalmazunk, amelyen még a valóságban homogén adatsorok 95 %-a is fennakad, az ilyen szűrésen átjutó adatsor inhomogén jellege igen nagy valószínűséggel kizárható. Természetesen fölmerül az a kérdés, hogy miért nem törekszünk ezen "nagy valószínűséggel kizárható" másodfajú hiba elkövetése valószínűségének a közvetlen, vagy közvetett numerikus becslésére, és miért nem ezen valószínűségnek megfelelő minimális értékéhez kötjük a próba eredményét. A választ a Szmirnov-Kolmogorov próba fölépítése adja. A valószínűségi változó statisztikai sokaságából származó két véges elemszámú statisztikai minta empirikus eloszlása nyilvánvalóan azonos nem lehet, az empirikus eloszlásokat az úgynevezett mintavételi bizonytalanság jellemzi. E mintavételi bizonytalanság jellemzője a két minta empirikus gyakorisági eloszlása közötti maximális d eltérés. E d eltérés, valamint a két minta Wj és n 2 elemszáma felhasználásával képzett /— nl • n2 d.\n, ahol n = «! + n 2 valószínűségi változó, viszonylag nem túl bonyolult módon igazolhatóan, úgynevezett Kolmogorov eloszlást követ, azaz az L{z) = p(dbfn s z) valószínűség a Kolmogorov eloszlásból számítható. A Kolmogorov eloszlás ismeretében tehát az említett, túlzott szigorúság értékszáma, az elsőfajú hiba elkövetésének a valószínűsége könnyen becsülhető, hiszen 1 -L(z) =p(dVn > z) annak valószínűsége, hogy a kérdéses vagy annál nagyobb d értékek elvetése esetén azonos sokasághoz tartozó, tehát homogén adatsorokat is elvetünk. Azt is könnyű belátni, hogy a másodfajú hiba elkövetésének a valószínűségére ezen valószínűség alapján igen nehéz következtetni, ezért a szigorú, magas szignifikancia szintű vizsgálatok esetén csak annyit állíthatunk, hogy inhomogén adatsor ilyen módon aligha állja ki ezt a próbát. Az elsőfajú hiba és a másodfajú hiba közötti