Hidrológiai Közlöny 1994 (74. évfolyam)
3. szám - Reimann József: Újabb módszerek a korreláció- és regresszióelméletben. I. A valószínűségi változók közötti kapcsolatok mérése
144 HIDROLÓGIAI KÖZLÖNY 1994. 74. ÉVF. 2. SZÁM Ujabb módszerek a korreláció- és regresszióelméletben I. A valószínűségi változók közötti kapcsolatok mérése Keimann József 1025 Budapest, Vend u. 7. Kivonat: A valószínűségi változók közötti függőségi viszonyok vizsgálatára számos korrelációs mérőszámot vezettek be, amelyek közül a gyakorlatban csak kevés terjedt el, elsősorban a Pearson-féle korrelációs egy üttható. Amennyiben két valószínűségi változó között a kapcsolat nem lineáris jellegű, akkor ez a mérőszám félrevezető lehet a kapcsolat szorosságát illetőleg, így más mérőszámok alkalmazása indokolt lehet. A cikkben mutatunk ilyen mérőszámokat. Ismertetünk továbbá egy egyszerű módszert, amelynek segítségével kétdimenziós eloszlásfüggvények értéke jó közelítéssel kiszámítható. Kulcsszavak: Valószínűségeloszlások, függőség, korreláció, regresszió. A hidrológiai kutatásban és gyakorlatban sokszor szükséges két vagy több valószínűségi változó közötti kapcsolat vizsgálata. A valószínűségi változók közötti kapcsolatok vizsgálatára szolgáló módszereket korrelációés regressziótlmélet néven szokták összefoglalni. E kérdéskörbe meglehetó'sen különböző jellegű feladatok tartoznak, amelyeknek közös vonása, hogy mennyiségek közötti összefüggések kvalitatív és kvantitatív tulajdonságait vizsgálják. Az u.n. korrelációelmélet elsősorban a kapcsolat szorosságának mérésével foglalkozik és annak eldöntésére irányul, hogy van-e egyáltalán kapcsolat a valószínűségi változók között, vagy azok függetlenek (legalábbis korrelálatlanok). Ha van kapcsolat a valószínűségi változók között, akkor a következő kérdés, hogy ez a kapcsolat laza vagy szoros. Legszorosabb a kapcsolat, ha a két változó között függvénykapcsolat van, azaz egyik változó megfigyelt (mért) értékéből a másik változó aktuális értéke kiszámítható. A legismertebb mérőszám a valószínűségi változók közötti kapcsolatra a K. Pearsontó\ származó korrelációs együttható, mely az E(x.y)-E(x)E(y) D(x)D(y) (í > formulával számítandó, ahol E várható értéket, D szórást jelöl. A korrelációs együttható azt méri. hogy két változó szorzatának várható értéke mennyire tér el a várható értékeik szorzatától-alkalmas normálással, amit a szórásokkal való osztást biztosít. Amennyiben X és Y függetlenek, akkor szorzatuk várható értéke a várható értékeik, szorzatával egyenlő, tehát r=0. Jól ismert tény, hogy ha az X és Y valószínűségi változók között lineáris függvénykapcsolat van: Y = a X+b, akkor r = ±1, aszerint, hogy a pozitív vagy negatív előjelű. Ha az X és Y valószínűségi változók közötti kapcsolat - közös tendencia - nem lineáris jellegű, akkor a korrelációs együttható értéke nem mindig tükrözi a kapcsolat szorosságát. Előfordulhat, hogy X és Y között függvénykapcsolat van, az r korrelációs együttható értéke mégis igen kicsi, vagy éppenséggel 0. A korrelációs együttható két változó kapcsolatának linearitását méri elsősorban, nem pedig a kapcsolat szorosságát. Felvethető a kérdés, hogy egyáltalán miért érdekes számunkra, hogy két hidrológiai változó között milyen szoros összefüggés van. A válasz a kérdésre az, hogy minél szorosabb függés van az A' és Y változók között, annál több információt hordoz egyik változó megfigyelt értéke a másik valószínűségi változó aktuális értékét illetőleg. Ez az információ különösen hasznos számunkra, ha mondjuk az X valószínűségi változó értékei korábban vagy könnyebben megfigyelhetők, mint az Y változó értékei. Ha pl. az X valószínűségi változó egy árhullám levonulási idejét jelöli és az X és Y változók között szoros összefüggés van, akkor az X tetőzési értékből jól becsülhető az Y levonulási idő. Mivel a tetőzés közel a levonulási idő felénél következik be, a kapcsolat szorossága jelentős előrelátást tesz lehetővé. Ha az X és Y valószínűségi változók függetlenek, akkor egyik változó megfigyelt értéke a másik változóra vonatkozólag semmi információt nem tartalmaz. A függetlenség fogalma egyértelműen van definiálva: az X és Y valószínűségi változók függetlenek, ha P(* < x, Y < y) = P(X < x) . P(Y < y) (2) minden (x,y) értékpárra. Folytonos eloszlások esetében, ha X és y együttes eloszlás függvénye H(x,y), az X változó eloszlásfüggvénye F(r), az Y változó eloszlásfüggvénye G(y), akkor függetlenség esetén H(x,y) = F(x) . G(y) (3) A függetlenség tényét tehát az együttes eloszlásfüggvény és a vetület eloszlásfüggvények segítségével fejezhetjük ki. Bonyolultabb fogalom a függés fogalma az A" és Y