Hidrológiai Közlöny 1983 (63. évfolyam)
11. szám - Dr. Reimann József: Megjegyzések a korreláció- és regresszióelmélethez. I. Korreláció-elmélet
Dr. Reimann J.: Korreláció-elmélet Hidrológiai Közlöny 1983. 11. sz. 483 / "Z H % % 0 7 16 c 5 16 B M 3 16 A 1 16 "ifi *,/2 XQ— ' ( n V 2 ( 3 n 1 2 h"ir j , v 2 Í6~J 16 5 n 3 n ( 5n Y ( In V V*—Térj , v' 4 Í6 J 5n 7(T 7 n 16 (18) Ha viszont a H 0 hipotézis az, hogy f és rj között monoton növekvő íj= qp(|) függvénykapcsolat van, akkor a fenti tartományok mindegyikébe eső pontok relatív gyakoriságának várható értéke 1/4, ezért a megfelelő % 2-statisztika: ( n\ 2 ( n\ 2 ( n \ 2 2 | ^-t J | h—J , Xi = n T n T n T Í--TÍ , (/. ábra. Az A, fí, G és D diszjunkt halmazok valószínűségi mértéke a £ és rj valószínűségi változók függetlensége esetén Puc. 4. Beppsimnocmubie 3iia<ieuun ducwHKmmix Muoítcectru, A,B, C u D e CAyiae ne3aeuMocmu eepoHiniiocmubix nepeMemibix I u rj Abb. 4. Wahrscheinlichkeitsmaß der disjunkten Haufen (Aggregate) A, B, G und D bei unabhängigen Zufallsgrösse I und rj kvadránsokba eső pontok számai az 1:2:3:4 arányhoz állnak közel. (A pontok számát most egymásba skatulyázott kvadránsokban tekintjük.) Ez az észrevétel módot ad a függetlenség hipotézisének, illetve a monoton növekvő függvénykapcso- • lat fennállására vonatkozó hipotézisnek % 2-próbával történő ellenőrzésére kevés számolással. Ha az a H 0 hipotézisünk, hogy £ és rj függetlenek, akkor a 4. ábrán jelölt A, B, C, D diszjunkt tartományokba eső pontok relatív gyakoriságának várható értékei meghatározhatók. Ha az A, B, C, I) tartományokba eső pontok számait v v v 2, v 3 , ill. v 4-gyel jelöljük, akkor a megfelelő x 2-statisztika: n T 4 n 2 (4»,-»)» (19). í = í A kritikus érték mindkét esetben 3 — szabadságfokú % 2-mennyiség kritikus értéke pl. 0,05 szinten: z 2(krit) = 7,815. Hangsúlyozzuk, hogy nem két alternatív hipotézist vizsgálunk, hanem külön-külön kell döntenünk, hogy lehet-e a két változó független vagy nem, ill. lehet-e közöttük monoton növekvő függvénykapcsolat, vagy nincs ilyen. Előfordulhat, hogy mind JÍ 0 2 mind nagyobb mint a kritikus érték, vagyis sem függetlenség, sem függvénykapcsolat nem áll fenn. A kapcsolat szorosságát ekkor pl. a mérhetjük. y„ mérőszám alkalmazásával 4. Információelméleti mérőszámok valószínűségi változók kapcsolatára Ha két valószínűségi változó, | és r] között szoros sztochasztikus kapcsolat, pl. erős monoton tendencia van, akkor egyik változó megfigyelt értéke információt hordoz a másik változó aktuális értékére vonatkozólag. Ha | és r) között monoton függvénykapcsolat van, akkor egyik változó értékének megfigyelése elegendő, mivel a másik változó értékékét pontosan ki tudjuk számítani. Ha viszont | és rj függetlenek, akkor egyik változó megfigyelt értéke semmi információt nem nyújt a másik változó aktuális értékére vonatkozólag. Ilyenformán várható, hogy információelméleti meggondolások útján is konstruálható mérőszám a két változó kapcsolata szorosságának mérésére. E. H. Linfoot [3] a következő információs mérőszámot javasolta: ahol US, V) = [l-e -2/<f, r,) ] 2. A (21) formulában F(x) a | változó eloszlásfüggvénye, G(y) az rj eloszlásfüggvénye, h(x, y) a (r\) változó—pár kétdimenziós sűrűségfüggvénye. Kimutatható, hogy a (20) formulával defniált mérőszám valamennyi felsorolt posztulátumok kielégíti, kiszámításához azonban ismerni kell a két változó együttes eloszlását és a vetületeloszlásokat. Ha £ és r? egyaránt diszkrét eloszlású valószínűségi változók, akkor kapcsolatuk szorosságának mérésére javasolható az oo oo f f log 4^dF(x)dG(y) J J f(x)g(y) h f(x)g{y) K ' yy > — oo — oo Ä(l, 1?)=1H(j\ V)+H(r, |g) H(t)+H(n) (20) (21) (22) A (22) formulában H(£) a £ eloszlásának entrópiáját, H{rj) az r] eloszlásának entrópiáját, H(£\ 17), ill. H{r\11) a megfelelő feltételes entrópiákat jelölik. (Lásd bővebben [3]). Könnyű belátni, hogy iü(£, rj)=R(rj, £) továbbá i?(£, ÍJ) akkor és csak akkor zéró, ha £ és r] függetlenek, az Ä(£, 17) = 1 akkor és csak akkor, ha £ és U között kölcsönös egyértelmű függvénykapcsolat