Hidrológiai Közlöny 1994 (74. évfolyam)

3. szám - Goda László–Zsuffa István: Vízrajzi adatok homogenitásának vizsgálata a kétmintás Szmirnov–Kolmogorov próba élesített változatával

GODA L. - ZSUFFA I.: Vízrajzi adatok homogenitásának vizsgálata 173 gi erdőtüzek, az árvizek levonulását, ellapulását módo­sító tóltésezések, folyószabályozási munkák következ­ményei mellett a mai vízgazdálkodás tározóépítkezései­nek árvízcsökkentő hatása nyilvánvalóan befolyásolja, illetve befolyásolhatja az adatok egyöntetűségét. Ezen közvetlen hatások mellett fölmerülhet a mezőgazdasági munkák változásának, a burkolt felületek, útpályák, be­épített területek, repülőterek lefolyás módosításának a vizsgálata is. 2. A homogenitás vizsgálat elmélete; a Szmirnov-Kolmogorov próba Az adatok egyöntetűségére vonatkozó alaphipotézis el­fogadásának, vagy elvetésének a kérdése kizárólag fi­zikai meggondolásokkal nem dönthető el. A vizsgálan­dó statisztikai minta elemei olyan véletlen eseményeket jellemző számok, valószínűségi változók, amelyek ér­tékei igen sok, véges eszközökkel nyomon nem követ­hető, fizikai tényező okozataként alakultak ki. Ezen tényezők közül egyeseknek az esetleges jellegzetes megváltozása a többi, végtelen sok tényező hatását nem föltétlenül módosítja statisztikai szempontból dön­tő, „szignifikáns" módon. A kérdésre statisztikai esz­közökkel kell a választ keresnünk, és a homogenitás kérdését is statisztikai kérdésként kell megfogalmaz­nunk. Azt kell eldöntenünk, hogy a rendelkezésünkre álló statisztikai minta minden eleme ugyanabból a statisz­tikai sokaságból való, ahonnan a vizsgált rendszerre jellemző valószínűségi változó aktuális, illetve a közeli jövőre vonatkozó értékei származnak. Ez a hipotézis úgy is megfogalmazható, hogy a folyamatot befolyá­soló, vagy befolyásolható jelenség - erdőtűz, szabályo­zási munkák, tározóépítkezések - előtt észlelt adatok statisztikai mintája és a jelenség bekövetkezése utáni adatok halmaza azonos statisztiai sokaságot jellemez-e, és így a teljes adatsor egységes statisztikai mintája, vagy annak csak a mai időponthoz közeli része alkal­mas a mai állapotra vonatkozó valószínűségek becslé­sére. E kérdésre a szubjektív válasz nyilvánvalóan a két minta eloszlásának a vizuális összehasonlításán alapul­hat. A minták empirikus gyakorisági eloszlásait ábrá­zoló lépcsős függvények azonos, vagy eltérő jellegét kell megítélnünk. Az eltérő jelleg mérőszámaként a két empirikus eloszlás közötti, azonos értékhez tartozó gyakoriságok maximális különbségét tekinthetjük. Amennyiben ezt az értéket túl nagynak ítéljük, nyil­ván nemcsak ezt az idősort, hanem minden olyan idő­sort inhomogénnak tekintünk, amely két részidősorá­nak gyakorisági eloszlásai között ezen eltérésnél na­gyobbat észlelünk. E szubjektív döntésnél kétfajta hibát követhetünk el: vagy túlzottan enyhén ítélünk, és még a valóban szig­nifikáns elérését sem vesszük figyelembe. Ilyen módon tehát a nem homogén adatsort homogénnak minősítjük, azaz úgynevezett „másodfajú hibát követünk el". Ezzel ellentétben túl szigorúak is lehetünk, és az adatsort akkor is elvetjük, ha az homogén, azaz minden eleme, az adatok mindkét részidősora, azonos sokaságból szár­mazik, és így úgynevezett „elsőfajúnak" nevezett hibát követünk el. Mindkét esetben a megfelelő fajtájú hiba elkövetése véletlen esemény, ami előfordulási valószí­nűséghez köthető. Az azonban világos, hogy egyszerre nem lehet az ember túl szigorú, illetve túl engedékeny, azaz a két fajtájú hiba elkövetése valószínűségének egyidejű minimalizálására nincsen mód. Sőt az is nyil­vánvaló, hogy az elsőfajú hiba nagy valószínűséggel történő vállalása a másodfajú hiba elkövetésének esé­lyét csökkenti. A legtöbb statisztikai próba alapelve éppen az, hogy olyan szigorú vizsgálati módszert alkalmazunk, amelynél, igen magas szinten, 95 %-os valószínűség­gel vállaljuk az elsőfajú hibát, azért, hogy a másod­fajú hiba elkövetését gyakorlatilag kizáijuk. Nyilván­való, hogy amennyiben olyan szigorú szűrőt alkalma­zunk, amelyen még a valóságban homogén adatsorok 95 %-a is fennakad, az ilyen szűrésen átjutó adatsor inhomogén jellege igen nagy valószínűséggel kizárha­tó. Természetesen fölmerül az a kérdés, hogy miért nem törekszünk ezen "nagy valószínűséggel kizárható" másodfajú hiba elkövetése valószínűségének a közvet­len, vagy közvetett numerikus becslésére, és miért nem ezen valószínűségnek megfelelő minimális érté­kéhez kötjük a próba eredményét. A választ a Szmirnov-Kolmogorov próba fölépítése adja. A valószínűségi változó statisztikai sokaságából származó két véges elemszámú statisztikai minta em­pirikus eloszlása nyilvánvalóan azonos nem lehet, az empirikus eloszlásokat az úgynevezett mintavételi bi­zonytalanság jellemzi. E mintavételi bizonytalanság jellemzője a két minta empirikus gyakorisági eloszlása közötti maximális d eltérés. E d eltérés, valamint a két minta Wj és n 2 elemszáma felhasználásával képzett /— nl • n2 d.\n, ahol n = «! + n 2 valószínűségi változó, viszonylag nem túl bonyolult módon igazolhatóan, úgynevezett Kolmogorov elosz­lást követ, azaz az L{z) = p(dbfn s z) valószínűség a Kolmogorov eloszlásból számítható. A Kolmogorov eloszlás ismeretében tehát az emlí­tett, túlzott szigorúság értékszáma, az elsőfajú hiba elkövetésének a valószínűsége könnyen becsülhető, hi­szen 1 -L(z) =p(dVn > z) annak valószínűsége, hogy a kérdéses vagy annál na­gyobb d értékek elvetése esetén azonos sokasághoz tar­tozó, tehát homogén adatsorokat is elvetünk. Azt is könnyű belátni, hogy a másodfajú hiba elkövetésének a valószínűségére ezen valószínűség alapján igen nehéz következtetni, ezért a szigorú, magas szignifikancia szintű vizsgálatok esetén csak annyit állíthatunk, hogy inhomogén adatsor ilyen módon aligha állja ki ezt a próbát. Az elsőfajú hiba és a másodfajú hiba közötti

Next

/
Thumbnails
Contents