Hidrológiai Közlöny 1994 (74. évfolyam)

3. szám - Reimann József: Újabb módszerek a korreláció- és regresszióelméletben. I. A valószínűségi változók közötti kapcsolatok mérése

R EI MANN J.: Korreláció- és regresszióelmél et 147 Felmerül a kérdés, hogy, ha az X valószínűségi változó eloszlásfüggvénye F(x), az Y valószínűségi változó eloszlásfüggvénye G(y), akkor ezek ismereté­ben hogyan tudjuk kiszámítani legalább megközelítő­leg a H(x,y) együttes eloszlásfüggvényt. Feltesszük, hogy H(x,_y) > F(x) • G(y), azaz X és Y között pozitív kvadránsfiiggőség van. (A (6) formu­lával adott kovariancia pozitív.) Ekkor a (9) egyen­lőtlenséget figyelembe véve: u E• rr /F-FG ha F<G (FG)-FG= \ G-FG ha G<F (11) Ki lehet mutatni, hogy ha A 1 és Y között monoton növekvő Y = 4> (x) függvénykapcsolat áll fenn, azaz az egységnyi valószínűségi tömeg a síkon úgy van eloszlatva, hogy az egész tömeg egy görbe mentén helyezkedik el, akkor H(^y) = min [F(x), G(y)]. Ez a legnagyobb felület, amelynek vetületei F(x), ill. G(y). A legnagyobb eloszlásfelület tehát a legszoro­sabb kapcsolatnak, a funkcionális kapcsolat esetének felel meg. Kiszámították továbbá a következő integ­rálok értékét: Innen cp'(^) = oo a a CO 00 fj [min(F,G)-F,G] 2 .dF .dG [min(F,G) -F,G].dF. dG = — 90 (12) (13) A továbbiakban, ha nem okoz félreértést, az x, ill. y argumentumokat nem íijuk ki) Mivel a (9) egyenlőtlenség alapján pozitív kvad­ránsfüggőség esetén a H együttes eloszlásfüggvény min (F, G) és FG közé esik, kézenfekvőnek tűnik H értékét a maximális és minimális felületek lineáris kombinációjával közelíteni, azaz választani valamely o<X.<l együtthatót, képezni a H x = Xmin (F,G) + (1 -X)F.G (14) lineáris kombinációt. A HX kétváltozós eloszlásfügg­vény vetület eloszlásai ugyancsak az F ill. G elosz­lásfüggvények és FGzH kn min (F,G) (15) A kérdés természetesen az, hogyan kell a X együtt­hatót megválasztani ahhoz, hogy H x az igazi H elosz­lásfüggvénytől (amelyeket nem ismerünk) lehető leg­kevesebbet különbözzék. A H,, és H kétváltozós függ­vények távolságát négyzetintegrállal mérve meg kell oldanunk a következő minimum feladatot: 9(>-)/ / (H x - H) 2 • dF,dG = f f (16) ** —OT —00 —Oo —00 (X[min{F,G)-F,G]-(H-F,G) } 2 f.g.dx,dy=min 00 —00 00 CO <p(h) = X 2jJ [min(F,G)-FGfdF,dG-<Xj J (min (F,G)-F,G](H-FG)dF.dG + oo oo i-/ J (H-FG) 2dF.dG = min (17) A cp(X) függvény minimális értékét csak olyan X-ra veheti fel, amelyre <p'(^) = 0 A (p(X) függvény a (10.4),(10.7) és (13) formulák alapján a következő alakban írható (18) X 2 2cpXV u 2X-2v 90 ; 0 azaz X = |i választás mel­lett van szélsőérték. Mivel cp"(X) > 0 következik, hogy ha együtthatónak (14) lineáris kombinációban a 00 00 v = 90f f [min(F,G) - F,G](H-F,G).f,dx,dy (1 •L 00 •'-OO 9) mennyiséget választjuk, (amely a sztochasztikus kap­csolatnak igen jó mérőszáma), akkor a H ismeretlen kétváltozós eloszlásfüggvénytől négyzetintegrálra néz­ve legkevésbé eltérő // v = v . min(F,G) + (1 -P)FG el­oszlásfüggvényt kapjuk. A négyzetes átlageltérés nagyságát megbecsülhetjük, ha a (18) formulában X helyére a v mennyiséget tesszük: <p(v)­mivel: 2 2 2 v - 2v r\i [i - v 90 90 : 90 iv(l-v^ H<vésv(l-v)< 90 1 360 (20) A Hx. eloszlásfüggvény, amelyet az F és G vetü­let-eloszlásfüggvények segítségével tetszőleges (jc,y) pontban könnyen ki tudunk számítani (hiszen F(x) és G(y) közül a kisebbiket választjuk és kivonjuk belőle az F(JC), G(Y) szorzatot) legalább 10" 3 nagyságrendben közelíti négyzetintegrálra az ismeretlen H(x,_y) két­változós eloszlásfüggvényt. Megjegyezzük, hogy a jobb oldali becslés megle­hetősen durva, hiszen p. általában lényegesen kisebb, mint X, amit az a (10.4) és a (10.7) formulából ki­olvasható. Mivel a (19) formulában szereplő kapcso­latmérőszám kiszámítása gondot okozhat, felmerül a kérdés, hogy milyen közelítés érhető el az ismeretlen ! H kétdimenziós eloszlásfüggvényre, ha a (14) formu­lában szereplő lineáris kombináció X együtthatójának az r korrelációs együtthatót választjuk, amelyet az (x h yi)> (• x2> y2)<-—, (*n y n) statisztikai mintából jól becsül­hetünk az Ixjyt Xr, Iy t n n Kx.-J) 2 2(y,-y) 2 (21) empirikus korrelációs együtthatóval. Ekkor a (18) összefüggés alapján: 90 90 90 90 90 (22) Az utolsó egyenlőtlenség annak következménye, hogy - mint igazolható ^is v. Minthogy r és v értéke általában néhány tized, így a (22) formulában szereplő cp{r) függvény értéke, azaz a H r lineáris kombináció és a H „igazi" kétváltozós eloszlásfüggvény négyzetintegrálra való eltérése 10" 3 nagyságrendű. Ennek a ténynek az ad jelentőséget, hogy ha nem ismeijük a H(j^_y) együttes eloszlásfügg­vényt, a H r = r . min (F,G) + (1-r) F,G (23) formula segítségével síkbeli valószínűségeket jó köze­lítéssel tudunk számolni a vetület-eloszlásfüggvények táblázatának használatával. Megjegyezzük, hogy két-

Next

/
Oldalképek
Tartalom