Hidrológiai Közlöny 2006 (86. évfolyam)
5. szám - Tanulmányok, ismertetések - Kerék Gábor: A Lajta folyó árvíz-előrejelzési rendszere
46 HIDROLÓGIAI KÖZLÖNY 2006. 86. ÉVF. 5. SZ. tartozik, oly módon, hogy a függő változó eloszlása a független változó eloszlásával együtt, meghatározott módon változik. Ilyen esetben a változók között korrelációs kapcsolat áll fenn. Korrelációs kapcsolatban az összefüggést a változók várható értékzx között tudjuk megadni; tehát a korreláció közbenső helyet foglal el a pontosan definiált függvénykapcsolat és a változók teljes függetlensége között (sztochasztikus kapcsolat). A kapcsolat szorosságát a korrelációs együttható (r) fejezi ki. 0<r< 1 ahol a korrelációs tényező 0 értéke a változók teljes függetlenségére, az 1 pedig a pontos függvénykapcsolatra utal. A kétváltozós lineáris regresszió-analízis A regresszió-analízis során a következő feladatok megoldására nyílik lehetőség: - a két változó kapcsolatát leíró függvény paramétereinek (állandóinak) becslése - a linearitás hipotézisének vizsgálata (a korrelációs együttható statisztikai próbája) - az illesztett függvény paramétereire vonatkozó feltevések vizsgálata - konfidencia- (megbízhatósági) intervallum számítása a függvény paramétereinek és az ezekből származtatott fizikai mennyiségek hibahatárainak becslése E feladatok elvégzése a következő elvek szerint történik: A két változó kapcsolatát kifejező elméleti függvény meghatározásához grafikusan kell ábrázolni a rendelkezésre álló x-y pontpárokat (független-függő változó). A pontok a már említett kapcsolati bizonytalanság mértékétől függően szoros, vagy laza illeszkedést mutathatnak. A továbbiakban olyan egyenest vagy görbét kell illesztenünk a pontfelhőre, hogy a pontok és az elméleti függvény közötti eltérés a lehető legkisebb legyen. Nyilvánvaló, hogy nem húzható olyan görbe, ami valamennyi pontot érinti; így a feladat az, hogy a vizsgált rendszer ismeretében elméleti megfontolások alapján olyan összefüggést válasszunk, ami a változók fizikai törvényszerűségeit a lehető legjobban érvényrejuttatja. Pl. hatványfüggvényekkel bármilyen görbe megfelelő pontossággal leírható, azonban kétséges, hogy az így létrehozott elméleti függvény megfelelően reális fizikai jelentéssel bír-e, vagy csak véletlen okozta torzulásokat próbáljuk fizikai jelentéssel „felruházni". A legkisebb négyzetek módszere Miután eldöntöttük, hogy milyen függvénnyel írható le a változók közötti kapcsolat, meg kell határoznunk az illesztett függvény paramétereinek számszerű értékét. Olyan egyenlet meghatározása a cél, amelybe a független változó (x) különböző értékeit helyettesítve a lehető legpontosabban becsülhetjük meg a függő változó (y) értékeit. Ennek meghatározásához a legkisebb négyzetek módszerén alapuló regresszió-analízist alkalmazzuk. A legkisebb négyzetek elve: az összefüggést leíró függvényt és annak paramétereit úgy határozzuk meg, hogy a mért függő változó értékek és az összefüggésből azonos független változó behelyettesítésével számolt értékek különbségei négyzeteinek összege minimális legyen. Legegyszerűbb esetben az egyenes egyenletét (lineáris regresszió függvényét) illesztjük a ponthalmazra. Az adatpárokat jelentő pontok és az illesztett egyenes közti y tengely menti távolságok mutatják az eltérést a regressziótól. Azon egyenes illesztése pontosabb, melynél az eltérés négyzetösszege kisebb. A legkisebb négyzetek elvén alapuló regresszió-analízissel ezt az egyenest határozzuk meg. Az egyenes egyenlete: y= a + bx A paraméterek legvalószínűbb értéke az, amelyre igaz, hogy a függvényből számított és a mért y értékek közti eltérés négyzeteinek összege minimális: Q = Z (yj ~ f(*j )) 2 = Z (yj a~ b x< ) 2 = mi n • /=1 ;=1 Az egyenletben változónak tekintjük a függvény paramétereit (a, b), és rögzítettnek az jc, és yj mért értékpárokat. A minimum feltétele: dQ db fa"* te,)-0 rendezve és egyszerűsítve n n n n n Z xíVÍ= AZ x)+ aZ Z yj = a n+^Z xJ j=i j=i >i j=i j=i E két egyenlet ebben a formában már alkalmas az a és b paraméterek meghatározására. Az egyenletekből a paramétereket kifejezve a következő egyenletekhez jutunk: = 0; Ö Ö=f-2( y.-a-hx,,) x, = 0 db tí '' ' = 0; dQ da /= 1 "Zv, 2>.Í>, b = «I*;- Z*, >1 V J=> \2 x*y-x*y x 2-x 2 Z yí ~~ ^Z xJ 7=1 = y-b*x Ezekben a két mennyiség kézi számítással történő meghatározása igen időigényes, így mindenképpen szükséges a paraméter-meghatározás számítógépi algoritmizálása, egy grafikus lehetőségekkel is felvértezett szoftver segítségével. A korreláció szorosságának meghatározása - konfidencia (megbízhatósági) intervallum Egy adott Xj értékhez tartozó mért y, érték és a számított a és b paraméterekkel meghatározott egyenes egyenletéből számított y értékek különbségét (melynek illeszkedését a legkisebb négyzetek módszere szerint határoztuk meg) maradéknak vagy reziduumnak nevezzük. Ennek alapján definiálhatjuk a reziduális szórás fogalmát. ilyj-o-b^] ZM 7=1 7=1 reziduális ~ n—2 n—2 n ahol ^(Ay ) 2 a z eltérés négyzetösszege, amit a legkisebb 7=1 négyzetek módszere esetében már említettem. Ezt a menynyiséget illeszkedési szórásnégyzetnek is nevezzük, s mérőszámként szolgál a regresszió illeszkedése minősítéséhez. Ha valamely függő változó értékeit egy független változó értékeiből megbecsüljük; az így kapott értékek nem lesznek azonosak a függő változó megfigyelt, mért értékeivel. Ez az eltérés a függő változó olyan ingadozásainak tudható be, amelyek nincs összefüggése a független változó értékeiben bekövetkezett változásnak. Ezt a hatást jellemzi a reziduális szórás, ami tulajdonképpen meghatároz egy sávot a regressziós egyenes körül mindkét irányban. E sávon belül megtalálható a mérési eredmények bizonyos százaléka. Ez az arány a vizsgált minta elemszámától függ.