Hidrológiai Közlöny 2007 (87. évfolyam)
4. szám - Gálai Antal: A Szmirnov-Kolmogorov próba – ahogy az alkalmazók monták: élesítése
57 A Szmirnov-Kolmogorov próba - ahogy az alkalmazók mondták: élesítése Gálái Antal http:llvip.baja.hulGalailAntalliialai@baia.hu Kivonat: A korábban kézi kalkulátorral vagy grafikusan végzett vizsgálatok gépesítését a 70-es évek derekán többnyire valószínűség- és statisztikai könyvek alapján saját barkácsolást! programokkal kezdte a Szerző és az általa vezetett közösség. Az ADUVÍZIG egykori R10-es alapú, s a PC-s kor hajnalán szélnek eresztett bajai számítóközpontjában készült programokat az egész országban alkalmazták, s eleinte az adatok utaztak, de egyre gyakrabban és egyre nagyobb távolságra útra keltek maguk a programok is szerte e világban a fejlett és fejlődő régiókba, amerre csak magyar vízmémökök hosszabbrövidebb ideig dolgoztak, tanítottak: Mongólia, Algéria, Nigéria területére. De idegenek is használtak, pl. Koreában, s Ausztráliában bajai programokat. A későbbiekben elhajítva minden eddigi programot, semmi már ismert vagy kipróbált algoritmust fel nem használva, a Szerző a gyorsítás érdekében újrafogalmaztam a feladatot. Kulcsszavak: vízügyi számítógépesítés történelem, valószínúségszámítás. A Kolmogorov-Szmirnov próba a mért adatok, a statisztikai minta homogenitását illetve a homogénnek bizonyult időszak valószínűségi eloszlásra való illeszkedését hivatott eldönteni. Most a homogenitást vizsgáljuk. A homogenitás ez esetben hétköznapi szavakkal azt jelenti, hogy a véletlen - vagyis pontosan nem ismeret törvényszerűségektől függő, mérhető jellemzővel leírható-jelenség a teljes mintavételezés alatt azonos szabályszerűségek szerint játszódott le, s e jellemző - a mintát alkotó mért értékei azonos eloszlást követnek a teljes mintavételezés során. Az inhomogenitás egyik jó példájában a különben jól viselkedő jelenséget egy beavatkozás - pl a vízgyűjtő fejlesztése során a művelési ág megváltoztatása - egy adott időpontban erőteljesen befolyásol, s ettől kezdve más törvényszerűségek szerint játszódik le a jelenség. Ekkor és emiatt a beavatkozás előtti és a beavatkozás utáni minta eltérő eloszlást követ. Sok esetben ez a mért adatokon nyomon követhető s elegendő hosszúságú minta esetén ez már a grafikus feldolgozások korában is jól észlelhető volt. Amennyiben a beavatkozásról nincs tudomásunk, és a különben elegendően hosszú minta idősora rendelkezésre áll, akkor a kézi számolásos és grafikus értékelésű eljárások helyett néhány évtizede adatfeldolgozási alkalmazásokkal végezzük e vizsgálatot. Igaz ugyan, hogy statisztikai programcsomagok már az első komputerek elterjedésével egy időben felbukkantak, s a piac bővülésével az egyre jobban térhódító IT komponensek olcsóvá tették az alkalmazásokat is, nem térhetünk ki e metódusok magjának ismerete elől. Háromszög-szerkesztésre sincs szüksége legtöbbünknek az iskolapadot elhagyva, mégis a biztos gondolkodás és tájékozódás megköveteli e módszerek lényegének ismeretét. így van ezzel a statisztikai metódusokat alkalmazó mérnök is, a biztos kezű alkalmazáshoz kell ismernie a lényeges metódusok algoritmikus motorjának főbb működését. Az ADUVÍZIG bajai számítóközpontjában a 70-es évek közepe óta dr. Zsuffa István javaslatára a vízügyi gyakorlatban hazánkban elterjedt kétmintás próbát használtuk az adatsorban rejlő változások felderítésére, vagyis az idősor inhomogenitásának mértékétől függő - két részidőszakra történő szétválasztására, vagy egyben hagyására. Ekkor az adatsort két rész-adatsorra bontogatva elvégeztük a két gyakorisági függvény legnagyobb eltérésének számítását, s az ebből a differenciából és a részminták elemszámaiból képzett valószínűségi változóhoz tartozó függvény-értéket tekintettük a homogenitás mértékének, míg ennek komplementere az adatsor inhomogenitásának fokát határozta meg. Az idővel elfogadott konszenzus alapján a gyakorlatban kialakított konfidencia értékeket, a próba használatát ismerteti e folyóirat 74. (1994) évfolyam 3. számában az ötletadó Zsuffa István, és az elkészült programokat futtató, s az eredmény-értékelések előkészítését régóta végző Goda László közös írásában. Amint az sok matematikai statisztikai és műszaki szakkönyv az elmúlt fél évszázadban ismerteti - a Kolmogorov egyenlőtlenségből következik, hogy - eloszlások és gyakoriságok eltérésének maximuma arányos a minta elemszáma reciprokának gyökével. A becslést két részmintára felírva s a két részminta eltérő elemszáma miatt pedig az eltérésének maximuma arányos a részminták elemszám-reciprok-összegének gyökével. A maximális különbséggel való felső becslésnek persze történeti okai is vannak, hiszen kézi és/vagy grafikus feldolgozáskor a két lépcsős-függvényt felrajzolva rögtön szembe tűnik a legnagyobb eltérés, s nem kell az összes eltérés négyzetét számolgatni. Az adatfeldolgozás automatizálásával nem lenne szükség a különbségeket maximumukkal felülről becsülni, hisz a maximum meghatározásához az összes különbséget úgyis végigszámoljuk, s ez már a két függvény eltérésének informatívabb mértékét a két függvény közti területtel is jellemezhetné, de ennek kihasználása a teljes felépítményt érintené, s ezért a pár komputerizált évtizedért eddig nem kavarták meg a több évtizedes előző jól bevált gyakorlatot. A korábban kézi kalkulátorral vagy grafikusan végzett vizsgálatok gépesítését a 70-es évek derekán többnyire valószínűség- és statisztikai könyvek alapján saját barkácsolású programokkal kezdtük. A sorfejtési és konvergencia-, s egyéb numerikus hibák kiküszöbölésére felderítettem az MTA SzTAKI CDC3300-asán OSLO és MONTREAL néven elérhető első "public domain" programkönytárakat, s azok rafináltabb elemit felhasználva egészítettem ki a bajai ADUVIZIG-nél ekkoriban vezetésem alatt s programozási részvételemmel Fortran és esetenként Assembly nyelveken elkészült matematikai statisztikai eljárás-csomagot. Az ADUVÍZIG egykori R10-es alapú, s a PC-s kor hajnalán szélnek eresztett bajai számítóközpontjában készült programokat addigra már az egész országban alkalmazták, s eleinte az adatok utaztak, de egyre gyakrabban és egyre nagyobb távolságra útra keltek maguk a programok is szerte e világban a fejlett és - szemérmesen szólva - fejlődő régiókba, amerre csak magyar vízmémökök hosszabb-rövidebb ideig dolgoztak, tanítottak: Mongólia, Algéria, Nigéria területére. De idegenek is használtak, pl. Koreában, s Ausztráliában bajai programokat. A tanulságul felhozott s mindenki praxisában jelentkező (homogenitás-vizsgálat, mint) részfeladat az elsők közt készült el, a mérnököknek készült Prékopa zsebkönyvben fellelt eloszlásfüggvénye szépen konvergált, és semmi különös trükkre, matematikai, vagy numerikus, esetleg programozói rafinériára nem volt szükség. Közben az ADUVÍZIG csapata képzettekkel s józan fejűekkel, s látnokokkal egyaránt gyarapodott, de szélsebesen növekedett a digitális állapot-