Hidrológiai Közlöny 1977 (57. évfolyam)
5. szám - Domokos Miklós–Dr. Csermák Béla–Dr. Jean Weber: Többváltozós regressziós modellek alkalmazása a vízigények előrejelzésére
Domokos M. és mtsai: Többváltozós regressziós modellek Hidrológiai Közlöny 1977. 5. sz. 211 sával r értékét úgy számítjuk, hogy előállítjuk a legkisebb négyzetes maradékok sorozatának önmaga egy időegységgel eltolt változatával alkotott regresszióját. Az r ismeretében most már a legkisebb négyzetes becslést az Y t — r-Y t_\ és az Xjj — rXjj_i transzformált változókra végezzük el. Ezesetben tehát a b együttható-vektor (5) szerinti becslése helyett az alábbi, általánosított legkisebb négyzetes becslést kapjuk: b^X'ß^X^X'ß^y, (17) ahol 1 r ... r n~ 1 f-n —1 f/L - 2 Egy folyamatban levő kutatás [28] eddigi eredményei arra utalnak, hogy a Durbin— Watson statisztika értéke megváltozik, hogy ha a hibák szériálisan korreláltak ugyan, de függőségük más típusú, mint az elsőrendű autokorreláció. Egyes esetekben a (13) egyenlet, illetve az 1. ábra szerinti Durbin— Watson próba ilyen eltérő szerkezetű hibák esetében is hatékony, más esetekben nem. Hasonlóképpen, az elsőrendű autokorrelációs együttható becslésén alapuló (17) szerinti általánosított legkisebb négyzetes becslés eredményei is függnek a hiba-folyamat szerkezetétől. Bizonyos esetekben a (17) eljárás csak arra jó, hogy inszignifikáns Durbin— Watson statisztikát kapjunk, ugyanakkor viszont alig változtatja meg a becsült regressziós együtthatók szórását. Mindebből az következik, hogy a (13) szerinti Durbin— Watson statisztikát és a hozzá kapcsolódó, (17) szerinti általánosított legkisebb négyzetes becslést csakis akkor szabad alkalmaznunk, ha előzőleg meggyőződtünk róla, hogy a hiba-idősort elsőrendűen autokorrelált folyamat írja le. 3.2. A független változók lineáris kapcsolata A lineáris regressziós modell együtthatóinak becsléséhez a független változókra vonatkozóan egyetlen matematikai feltétel teljesülését kívánjuk meg. Ez pedig az, hogy az adatok n-k méretű X mátrixának a rangja legyen k. Vagyis azt tesszük fel, hogy a független változók között nincs lineáris kapcsolat. Erre azért van szükség, mivel az (5) egyenlet nem oldható meg, ha (X' Xnem létezik. A multikollinearitásnak az a szélsőséges esete, midőn valamennyi független változó teljes mértékben kollineáris, a gyakorlatban ritkán fordul elő. A multikollinearitásnak kevésbé szélsőséges esetei viszont, amikor több vagy akár valamennyi független változó nagymértékben, de nem teljesen kollineáris, annál gyakrabban fordulnak elő. Ha a független változók inultikollineárisak, akkor a megfelelő regressziós együtthatók becslése nem pontos, továbbá nehéz — ha nem lehetetlen — becsülni az egyes független változók relatív fontosságát a függő változó meghatározásában. A multikollinearitás magának a modellszerkezetnek a felépítését is megnehezíti, mivel ez esetekben könnyen előfordulhat, hogy a felépítés során egyes fontosabb független változók figyelembevételét is elmulasztjuk. A multikollinearitás okozta bizonytalanság ugyanis lehetetlenné teheti e változók felderítését. Ez azt jelenti, hogy még ha teljesülnek is a hiba-tag normális eloszlására, homogén szórására és szériális függetlenségére vonatkozó feltevések, a regressziós egyenlet eredményeinek értelmezésére a független változók (pl. a népesség, a jövedelem és az ipari fejlődés mutatója) egymás közötti korreláltsága miatt még ekkor is nehézségekbe ütközhet. Matematikailag ez a bizonytalanság a (9) egyenletnek, illetve a belőle származó var (bj) = aj ja 2,j=l,2,...,k (19) összefüggésnek a következménye, amelyben aß az (X' A)1 mátrix főátlójának J-edik eleme. Ha valamelyik Xj független változó a többi változó közül eggyel vagy többel közelítően kollineárissá (lineárisan összefüggővé) válik, akkor mind a megfelelő Ujj elem, mind pedig a hozzá tartozó (de nem becsülhető határértékű) rj regressziós együttható Sj szórásának az értéke is a végtelenhez tart. Ha tehát két vagy több független változó korrelált, nehéz meghatározni relatív súlyukat a regressziós egyenletben. A multikollinearitásnak mind a becsült regreszsziós együtthatókra, mind a hozzájuk tartozó szórásokra lehet hatása. A regressziós együtthatókat együttesen (egy vektorként), a legkisebb négyzetek kritériumának alkalmazásával becsüljük. Mindaddig, míg valamely független változó nincs korrelativ kapcsolatban a többivel, a változó becsült regressziós együtthatója nem függ attól, hogy rajta kívül milyen egyéb független változókat tartalmaz még a regressziós egyenlet. Tegyük fel, hogy egy k független változót tartalmazó egyenletből határozzuk meg, a legkisebb négyzetek elvén, a regreszsziós együtthatókat. Ha a független változók közül egyet kiveszünk az egyenletből, akkor a megmaradó k— 1 független változót tartalmazó egyenletből becsült regressziós együtthatók értékei az esetek többségében megváltoznak. Az együtthatók és a hozzájuk tartozó standard hibák értékei csak akkor nem érzik meg a független változók számában beállott változást (növekedést vagy csökkenést), ha az utóbbiak egymás között korrelálatlanok. Ez viszont ritkán fordul elő a gyakorlatban. Sokan foglalkoztak már azzal a kérdéssel, hogy milyen mérőszámmal lehetne a változók valamely halmazában levő multikollinearitás fokát jellemezni. Általában egyetértenek abban, hogy a független változók páronkénti korrelációs együtthatói adnak ugyan némi információt a multikollinearitás fokáról, de korántsem elégségesek annak számszerű jellemzésére. Lehetséges ugyanis (habár előfordulása nem túl valószínű), hogy valamennyi páronkénti korrelációs együttható értéke kicsi, s ugyanakkor a változók egyes részhalmazai közötti korreláció olyan nagymértékű, hogy azt már multikollinearitásnak nevezhetjük. Ezért a regressziós