Hidrológiai Közlöny, 2015 (95. évfolyam)
2015 / 1. szám - Szigyártó Zoltán: Sorozatos statisztikai hipotézisvizsgálat excel-táblázattal
35 Sorozatos statisztikai hipotézisvizsgálat excel-táblázattal Szigyártó Zoltán 1118. Budapest, Somlói út 30/b A tanulmány célja Azt már a jelen évszázad legelején elvégzett vizsgálatok eredményeként tudjuk, hogy, — legalábbis a Tisza völgyében, a Tisza és mellékfolyói esetében — az évi legnagyobb jégmentes vízállások eloszlása a vízrajzi állomások döntő többségénél időben nem állandó (Szi- gyártó-Bénik 2003, Szigyártó-Bénik-Szlávik-Bálint 2005). Vagyis ezeket az idősorokat tartalmazó minták nem egyöntetűek. Közelebbről, az állomások döntő többségénél- az eloszlások középértéke időnként ugrásszerűen megváltozik, míg- az állomáson egymás után előálló középértékek körüli szórás a minta származási helyétől (a folyótól és a vízmérceállomás szelvényétől) függő, időben állandó érték, s így független a középérték nagyságától is, továbbá- a korábbi kutatások (Csoma-Szigyártó 1975) figyelembe vételével várható, hogy egy-egy állandó középértékkel jellemezhető időszakon belül az eloszlás normális eloszlással közelíthető. Mindebből az következik, hogy ezekre az adatsorokra támaszkodó, s a különböző valószínűségi árvízszintek meghatározását célzó számításoknál a keverékeloszlásokra érvényes összefüggéseket kell alapul venni (Rényi 1954, 239. o.). Ahhoz pedig, hogy ezt megtehessük, mindenek előtt tisztázni kell azt, hogy az adatsor középértéke mikor és milyen mértékben változott. Erre a célra viszont már régen kidolgoztuk a „sorozatos statisztikai hipotézisvizsgálat” módszerét, s akkoriban e vizsgálatokhoz egy számítógép program is készült ( Szigyártó-Vár- nainé 1981). Azóta azonban a program gyakorlati használata elé jelentős akadályok gördültek: Ezzel a programmal a hidrológiai vizsgálatokat végző vállalatok és állami szervek közül egyik sem rendelkezik. Maga a program pedig a számítástechnika erősen megváltozott környezetében — inkább előbb, mint utóbb — egyáltalán nem lesz futtatható. Igencsak indokolt tehát az, hogy a továbbiakban a sorozatos statisztikai hipotézisvizsgálatot e program helyett más úton végezzük el. Erre a célra pedig rendkívül alkalmas a ma már széles körben használt Excel táblázat is. Ezért a tanulmány azt kívánja bemutatni, hogy az Excel táblázattal miként, azaz milyen szabályok betartásával és milyen algoritmussal lehet sorozatos statisztikai hipotézisvizsgálatot végezni. Mindezek közreadásának azonban nem csak az lesz az egyetlen előnye, hogy segítségével normális eloszlású valószínűségi változók esetén a középértékkel és a szórással kapcsolatos sorozatos statisztikai hipotézisvizsgálat némi fáradsággal bár, de egyértelműen elvégezhető lesz. Ennek előnye lesz az is, hogy (ha erre igény van) felhasználásával egy olyan újabb számítógép programot is el lehet majd készíteni, amellyel (a régi programhoz hasonlóan (Szigyártó-Várnainé 1981)) egy ilyen vizsgálat igen rövid idő alatt elvégezhető. Egyébként ez az e- gyik célja annak, hogy a tanulmányhoz egy mintapéldát is csatoltunk; amely amellett, hogy segíti mondanivalónk megértését, még felhasználható az említett új program futásának több oldalú az ellenőrzésére is. Az eljárás alkalmazásának feltételei A sorozatos statisztikai hipotézisvizsgálatot, mint említettük, a normális eloszlásokból a szokásos feltételekkel származó minták egyöntetűség-vizsgálatára dolgoztuk ki. Közelebbről, ennek a módszernek a segítségével (bizonyos kockázatot alapul véve) azt lehet megvizsgálni, hogy a mintán belül a normális eloszlás két paramétere, a középérték vagy a szórás állandó érték-e, s ha nem állandó, úgy ez a két paraméter a mintán belül miként változik. A módszer alapjairól szólva mindenek előtt azt kell hangsúlyozni, hogy ez az eljárás, mindig a minta két meghatározott részének (legalább két-két elemből álló csoportjának) a középértékét vagy szórását vizsgálja abból a szempontból, hogy ezek eltérése szignifíkáns-e. így az eljárás — normális eloszlásból származó, általában kis mintákról lévén szó — a középértékek eltérésének a vizsgálatát a Student próbával (Csoma-Szigyártó 1975. 65. o.), a szórások eltérésének a vizsgálatát pedig az F próbával (Csoma-Szigyártó 1975. 77. o.) végzi el. Következésképen a sorozatos statisztikai hipotézis vizsgálat alkalmazhatóságának feltétele az, hogy- a teljes minta (a továbbiakban „a minta”) elemei a szokásos feltételeknek megfelelően egymástól teljesen függetlenek legyenek,- a minta minden eleme valamilyen normális eloszlású anyasokaságból származzon és- a minta n elemszáma «>4 legyen. Ezeknek a feltételeknek a teljesülése pedig, az eddigi tapasztalatok szerint, az évi legnagyobb jégmentes vízállások adatsorainál — legalább is a Tisza völgyében — munkahipotézisként elfogadható. így a vizsgálat a szokásos P<5 %-os szignifikancia szint alapul vételével elvégezhető. Mindebből az következik, hogy a sorozatos statisztikai hipotézisvizsgálat során feltétlenül ellenőrizni kell a minta elemeinek a függetlenségét és azt, hogy a minta, illetve annak egymást követő, s különböző középértékekkel, illetve szórásokkal jellemezhető mintaszakaszainak az elemei valóban normális eloszlásból származnak- e. Ami a mintaelemek függetlenségének az ellenőrzését illeti, erre a célra egyedül a Wald-Wolfowitz próba (Csoma-Szigyártó 1975. 39. o.) használható, amelyet, mint tudjuk, folytonos eloszlásokból vett „nagy minták”-ra dolgozták ki. Vagyis, a szokásos gyakorlatot követve, az ilyen vizsgálat eredménye elfogadhatónak csak akkor tekinthető, ha a minta elemszáma «>30. így ha „kis minták”-kai van dolgunk, vagyis ha a minta elemszáma n< 30, ennek a vizsgálatnak az elvégzése kifogásolható. A- zonban ezt ebben az esetben (kizárólag nagyvonalú tájékozódás céljából) mégis csak célszerű elvégeznünk; azzal, hogy a sorozatos statisztikai hipotézisvizsgálat ered