Reimann József - Tóth Julianna: Valószínűségszámítás és matematikai statisztika (Tankönyvkiadó, Budapest, 1989)
II. rész. Matematikai statisztika - 12. Korreláció- és regresszióelmélet
Jelöljük a szóban forgó valószínűségi változók együttesét a (ci, £2,<?„) véletlen vektorral, s ennek n dimenziós sűrűségfüggvénye legyen f(x 1, x2,x„). Vizsgálhatjuk, hogy a £1 változó értékeit a £2, £3, ••• 61 változók mely függvényének értékei közelítik legjobban. A legkisebb négyzetek módszere most is a feltételes várható értékhez vezet, amely most n — 1 változós függvény: 00 J xi/Oi x2,..., x„) dxx M(£i\€2 = *2, 6 = *3, ...An = X„) = g{x2, x3, ...,X„) = ^----------------------------. í f(x3,x2, ...,x„)dx1 — 00 A g(x2, ... x„) függvényt £i-nek, a (£2, •••, £n)-re vonatkoztatott regressziós felületének nevezzük. Adott rögzített (megfigyelt) x2,x3,...,x„ értékrendszer mellett g(x2, x3,..., x„) képviseli a legjobb becslést megfigyelendő értékére vonatkozólag. A regressziós felület viszonylag egyszerű n dimenziós normális eloszlás esetében, amint az alábbi tételből látható, amelyet bizonyítás nélkül közlünk. Tétel. Abban az esetben, ha a (£1, £2, •••» £») változók együttes eloszlása n dimenziós normális eloszlás, akkor a regressziós felület sík, vagyis x1 = M(£i|f2 = x2,..., £„ = x„) = ai2x2 + ai3x3+ ... + ai„xn + ai. A £1 változó helyett természetesen a £,• változók bármelyikét kifejezhetjük a többi változó függvényeként, esetleg nem is mindegyik változót vesszük a £2, •••An változók közül. Annak kifejezésre juttatása, hogy melyik változót emeljük ki, és mely többi változó függvényeként közelítjük, meglehetősen bonyolult jelölésmóddal lehetséges, amelyet nem kívánunk bevezetni, inkább megállapodunk, hogy mindig az aktuális kiválasztott változót jelöljük £i-gyel. Hasonlóan a két valószínűségi változó közötti regressziós görbe egyenessel való közelítéséhez, több valószínűségi változó esetében is gyakran megelégszünk egy kiválasztott £1 változónak lineáris függvénnyel való közelítésével akkor is, ha az együttes eloszlás nem n dimenziós normális eloszlás. Meghatározzuk azt a regressziós „síkot” (valójában n — 1 dimenziós ún. hipersíkot), amelytől £1 értékei a legkisebb négyzetek módszere alapján a legkevésbé térnek el. Egyszerűség kedvéért feltesszük, hogy MA) = 0 0=1,2,...,«). Ezt mindig elérhetjük azáltal, hogy mindegyik valószínűségi változóból levonjuk a várható értékét. Keressük tehát azt a £1 — Öi2<^2 + öl3^3 + --- + ain^n 238