Hidrológiai Közlöny 1994 (74. évfolyam)
3. szám - Reimann József: Újabb módszerek a korreláció- és regresszióelméletben. I. A valószínűségi változók közötti kapcsolatok mérése
REIMANN J.: Korreláció- és regresszióelmélet 145 valószínűségi változók között. Leltmann (1966) bevezette a kvadránsfüggőség fogalmát a következő definícióval: Azt mondjuk, hogy az X és Y valószínűségi változók között pozitív kvadránsfüggőség van, ha tetszőleges (x,y) E R síkbeli pontra a P(Jf < x, Y < y) >P(X < x) . ?(Y < y) (4) egyenlőtlenség teljesül. Ha az egyenlőtlenség ellenkező irányú, akkor negatív kvadráns függőség áll fenn. Folytonos eloszlások esetében a (4) összefüggés ekvivalens ' U(x,y) > F(x) G(y) (5) egyenlőtlenséggel. Mint látható a kvadránsfüggőség is az együttes eloszlásfüggvény és a vetület eloszlásfüggvények segítségével fejezhető ki. Pozitív kvadránsfüggőség esetében tetszőleges (x,y) pontban a H (x,y) együttes eloszlásfüggvények szorzata ugyanezen pontban. A hidrológiai gyakorlat számára elsősorban az érdekes, hogy milyen erős a kvadránsfüggőség az X és Y valószínűségi változók között, mekkora a kapcsolat szorossága. Ha az X valószínűségi változó eloszlásfüggvénye F (x), az Y valószínűségi változó eloszlásfüggvénye G (y) ismertek is (ezek illeszkedés vizsgálattal meghatározhatók), a H (x,y) együttes eloszlásfüggvény még végtelen sokféle lehet. A H (x,y) együttes eloszlásfüggvény kétváltozós felület. Ugyancsak kétváltozós felület a vetület eloszlásfüggvények F (jc). G (y) szorzata is. Az (5) formula azt fejezi ki, hogy pozitív kvadráns függőség esetében, a H (x,y) felület magasabb, mint F (jf) G (y) bármely (x,_y) E R pontban. Az (5) formula azt is sugallja, hogy mennél magasabban futó felület H (x,y) az F (x) • G (y) felülethez képest, annál nagyobb fokú a pozitív kvadránsfüggőség, annál szorosabb a sztohasztikus kapcsolat az X és Y valószínűségi változók között. Meg lehet mutatni, hogy ha az A" és Y valószínűségi változók között pozitív kvadránsfüggőség áll fenn, akkor az (1) formulával kifejezett korrelációs együttható pozitív. Az (1) formula számlálójában szereplő kovariancia ugyanis kifejezhető az együttes eloszlásfüggvény és a vetület eloszlásfüggvények szorzata segítségével a következő módon. W,Y) - E(X), E(Y) = f f= [H(x,y)-F(x), G(y)] dx dy (6) Adott X és Y valószínűségi változók esetében a szórások adottak, így az (1) formula alapján, ha nagyobb a kovariancia, akkor nagyobb az integrandus, azaz H (x,y) és F (x) • G (y) különbsége. Az r korrelációs együttható, tehát a (6) formulát figyelembe véve OD o •a ' \H(x,y)-F(x) G(y)]. ax . dy OiCTZ (7) alakban írható, ahol o, = D(r), o 2 = D(y) szórásokat jelölik. A pozitív kvadránsfüggőséget definiáló (2) formulát P(Y < y | = y )±P(Y<y) (8) alakban írhatjuk, amely azt fejezi ki, hogy kicsiny X értékhez Y kicsiny értéke (nagy X-hez, pedig nagy Y) nagyobb valószínűséggel társul pozitív kvadránsfüggőség esetén, mint független változók esetében, amikor is a (8) formulában az egyenlőség jele érvényes. Ez azt jelenti, hogy ha az (x,y) valószínűségi változópárra vonatkozólag statisztikai mintával jelentkezünk. (T (XJi), (X 2,Y 2), (X nY n) és a mintát síkbeli pontfelhőként ábrázoljuk, akkor a pontfelhő az alábbi alakú (7. ábra). "T—" 1. ábra. Az ábrán látható, hogy az X cs Y valószínűségi változók között közös monoton növekvő tendencia mutatkozik: kisebb A"-hez, kisebb Y, nagyobb A-hez, nagyobb Y érték tartozik. Mindig ez a helyzet ha H ( x>y) > F( x) G (y), azaz X és Y között pozitív kvadránsfüggőség áll fenn. Példaként említjük, hogy ha a Tiszán árhullám vonul le, és A" jelöli adott c-szint (pl. c=600 cm) túllépésének nagyságát, Y pedig az árhullám levonulási idejét, akkor, mondjuk, a legutóbbi 100 árhullámra vonatkozó X^Yi), (X 2,Y 2), (Xj.Yj) összetartozó értékeket (az adatokat lásd pl. Vágás István ,A Tisza árvizei" c. könyv 231. old.) pontfelhőként ábrázolva, az 1. ábrán látható pontfelhőhöz hasonló, képet kapunk. A (6) formula mutatja, hogy két valószínűségi változó között annál nagyobb a korreláció, minél nagyobb a különbség a H (x,y) együttes eloszlásfüggvény és a vetület eloszlások F(x).G(y) szorzata között, amely ugyancsak együttes eloszlásfüggvény. Ha H(x,y) > F(x)G(y) azaz X és Y közötti pozitív kvadránsfüggőség van, akkor azt mondhatjuk, hogy minél nagyobb H(x;y) értéke, adott (x,y) pontban annál nagyobb lesz a korreláció X és Y között. Felmerül a kérdés, hogy milyen nagy lehet H(jc,y) értéke adott (x,y) pontban. A valószínűségelmélet elemeiből jól ismert, hogy 0 s H(x,y) = P(X<x, Y <y)s 1, továbbá H(x, + oo) = P(X<x) = F(x)\ H(+°°,y) = P(Y<y) = G(y) a vetület eloszlásfüggvények. Az {Xoc} és {y<y} események jelölésére vezessük be az A = {*<*-}, B = {y<y} jelölést, ekkor H(x,y) = P(AB), F(x) = P(A), G(y) = P(B) Jól ismert, hogy P(AB) < P(A); P(AB) < P(B)