Hidrológiai Közlöny 1977 (57. évfolyam)
5. szám - Domokos Miklós–Dr. Csermák Béla–Dr. Jean Weber: Többváltozós regressziós modellek alkalmazása a vízigények előrejelzésére
Domokos M. és mtsai: Többváltozós regressziós modellek Hidrológiai Közlöny 1977. 5. sz. 209 var (b) = cr 2(X'X)(9) ti(e'e) = (n-k)o 2, (10) bX'y R* = - -f , (11) y'y--(^) 2 ic ahol R a korrelációs együttható jele. Ha ezenkívül még azt is feltesszük, hogy a zavaró tag normális eloszlású, akkor egyszerű statisztikai próbákkal ellenőrizhetjük az egyes regressziós együtthatók szignifikáns voltát, valamint konfidencia-intervallumokat határozhatunk meg mind ezekre az együtthatókra, mind pedig az előrejelzett értékekre. 3. A regressziós modell alkalmazásának nehézségei A regressziós modellek vízigény-előrejelzésre való gyakorlati felhasználhatóságának logikaiempirikus úton megállapítható követelményei a következők : 1. A regressziós egyenlet valóban hűen — tehát elfogadható közelítéssel — írja le a függő változó (a vízigény) és a figyelembevett független változók (pl. a lakosszám, a jövedelem, a technológiai mutatók) múltbeli, észlelt értékei közötti kapcsolatot. 2. Az EÍ hibatagok legyenek véletlen jellegűek, vagyis szériálisan korrelálatlanok. 3. A regressziós egyenlet — önkényesen összegyűjtött — független változói közül ne hiányozzék olyan tényező, amely — a figyelembevett tényezőktől függetlenül — jelentősen hat a vízigény alakulására. 4. A figyelembevett független változók között ne legyenek olyanok, amelyek egymással érezhetően (lineárisan) összefüggnek. (Ezesetben ugyanis nem becsülhető megbízhatóan az egyes tényezőknek a vízigény alakításában jelentkező relatív súlya.) 5. Még oly „tökéletes" — az (1) és (2) követelményt kielégítő — regressziós modell esetében is fennmarad az az alapvető követelmény, hogy a múltbeli adatok alapján meghatározott kapcsolatnak a jövőben — legalábbis az előrejelzés időtávlatában — érvényesnek kell maradnia. 6. A modell alkalmazásához jól kell tudni becsülni a benne szereplő független változók jövőbeli értékeit. Minthogy sokszor jóformán semmi okunk sincs annak feltevésére, hogy a jövő —- a fontosabb jellemzők tekintetében — nagyon hasonlítani fog a múlthoz, az (5) követelménnyel járó nehézség anynyira alapvető, hogy semmilyen módszertani közelítéssel nem oldható meg. A követelmény teljesülésére vonatkozóan józan mérnöki-közgazdászi megfontolással kell állást foglalni. Hasonlóképpen a józan megítélés körébe kell utalnunk a független változók körének — (3) alatt említett — kiválasztását. Az (1) követelmény teljesülése — az illeszkedés jósága — a bj együtthatók becslése után közvetlenül ellenőrizhető. A vízigény-előrejelzés fennmaradó három — (2), (4) és (6) jelű — nehézségével az alábbiakban részletesebben is foglalkozunk. A (2) és (4) követelmény esetében a kérdés matematikai vetületét vizsgáljuk és megmutatjuk a nehézségek megoldásának útját. A (6) követelményhez inkább csak elvi megjegyzéseket fűzünk. 3. 1. A becslési hiba nem-véletlen jellege Az (5) egyenlettel becsült paraméterek és a kapott regressziós egyenlet szignifikáns voltának a megítéléséhez fel kell tennünk, hogy a hiba normális eloszlású, 0 várható értékű valószínűségi változó : e~iV(0, £). (12) Az utóbbi feltevésre az előrejelzett Y értékek konfidencia-intervallumának a meghatározásához is szükségünk van. E feltevés szerint tehát (a) a hibák eloszlása az Xj változók minden sorozatának (vagyis minden egyes adott t időpontban észlelt sorozatának) az esetében normális, (b) minden egyes ilyen eloszlásnak ugyanaz a szórása (más szóhasználattal: az eloszlások szórásukat tekintve homogének) és (c) a hibák szériálisan függetlenek (vagyis időben korrelálatlanok). A vízgazdálkodási — akárcsak az egyéb — alkalmazások esetén nagy esélye van annak, hogy a hibák sem nem normális eloszlásúak, sem nem homogén szórásúak. Ha a modell becslése adat-idősorok alapján történik, nagyon nagy annak a valószínűsége, hogy az adatok szériálisan nem korrelálatlanok. Az idővel szoros kapcsolatban levő észlelések ugyanis hajlamosak arra, hogy a valóságos értékektől mindig ugyanabban az irányban és kb. ugyanakkora mértékben térjenek el. Tudjuk, hogy a hibák szériális korreláltsága növeli a paraméterbecslés szórását ( még ha e becslések torzítatlanok is) és rontja a szignifikancia-próbák és a konfidencia-intervallum meghatározás hatékonyságát. Az ökonometrikusok jelentős erőfeszítéseket tettek a hibák szériális függőségének kiderítésére és javítására szolgáló módszerek kidolgozására. A szériális korreláció közgazdászok körében leginkább használt — a vízgazdálkodásban viszont eddig talán még egyáltalán nem alkalmazott — próbája a Durbin—Watson-féle 2 ( e<e<-i) 2 d= —- , e,= Y,-Y t (13) t statisztikán alapul [7, 8]. E statisztika az r (elsőrendű autokorrelációs együtthatóra vonatkozó r-0 (14) hipotézis vizsgálatára szolgál, feltéve, hogy a hiba szerkezete elsőrendű Markov-láncnak felel meg: £/ = »•£<-!+ U t, (15) U t~N{0, cr 2) (16)