Hidrológiai Közlöny 2012 (92. évfolyam)
5-6. szám - LIII. Hidrobiológus Napok: „A hidrobiológia szerepe a víz-stratégiákban” Tihany, 2011. október 5–7.
78 HIDROLÓGIAI KÖZLÖNY 2012. 92. ÉVF. 5-6. SZ. fihony "iszabccs A Tisza vízminőségi adatsorainak vizsgálata többváltozós adatelemző módszerekkel Tanos Peter 1, Kovács József 1, Magyar Norbert 1, Hatvani István Gábor 1, Kovácsné Székely Ilona 2 Eötvös Loránd Tudományegyetem, Általános és Alkalmazott Földtani Tanszék, 1117, Budapest, Pázmány P. sétány 1/C. 2Budapesti Gazdasági Főiskola, Módszertani Intézet, 1054. Budapest, Alkotmány u. 9 - 11. Kivonat: A dolgozat egy példát mutat be a feltáró adatelemző módszerek alkalmazására a folyók vizminösitése területén. A kutatás a Tiszán mért fizikai-, kémiai-, és biológiai paramétereket ölelte fel az 1974-2005-ös időintervallumra, a Tisza teljes magyarországi szakaszának nyolc mintavételi pontján. Ez mintegy -500.000 adatot eredményezett. Ez a jelentős adatmennyiség indokolttá tette, hogy a bennük rejlő információt egy- és sokváltozós adatelemzési módszerek használatával nyeljük ki. A hosszú távú többváltozós adatelemzés lehetőségét alá kell támasztani az alapstatisztikák eredményeivel, valamint ha lehetséges hatásidő becsléssel. A kutatás során a leíró statisztikák értékelése után, első lépésként korreláció analízist, majd fökomponens analízist végeztünk. A korreláció analízis során külön vizsgálat tárgyai voltak a változópárok sztochasztikus kapcsolatai télen illetve nyáron. Eredményei jelentős különbségeket azonosítottak. A fökomponens analízis (PCA) segítségével néhány látens hatás által létrehozott folyamatok vizsgálhatók. Az eredmények alapján ezek mind időben, mind a folyó hosszában változnak, továbbá mutatják, hogy a folyamatok alakulásában nyáron illetve télen mely különböző változók játszanak kiemelkedő szerepet. Nyáron a nitrogénhez köthető paraméterek míg télen az egyéb szervetlen komponenseké a föszerep.A vizsgálatok azt bizonyítják, hogy a téli, illetve a nyári adatok nem kezelhetők egyszerre, továbbá a vízminőséget alakító folyamatok vizsgálatakor figyelembe kell venni a Tisza antropogén változásainak következményeit és a nagyobb mellékfolyóinak hatását is. Kulcsszavak: Tisza, adatelemzés, vízminőség, variogram, sztochasztikus kapcsolatok, fökomponens analízisBevezetés Magyarország legtöbb felszíni vizén évtizedek óta folyik a vízminőséget jellemző fizikai, kémiai és biológiai paraméterek mintavételezése, kevés kivételtől eltekintve ezeket az így létrejött adatokat rövid időskálán vizsgálják és leggyakrabban az adatfeldolgozás metodikáját szinte kizárólagosan a leíró statisztikák és kétváltozós adatelemző módszerek használata jellemezi. Kutatásunk alapját képezték ezek közül az alábbiak: Csépes és társai (2000) fontos megállapításokat tettek az árvizek tekintetében, miszerint az áradások idején először egy nagy fajlagos vezetőképességű hullám vonul le a folyón, ami a későbbiekben az olvadékvizek hatására egyre hígul. Szabó és társai (2004 a, b) a vízhozam és fajlagos vezetőképesség illetve vízhozam és klorofill-a külön- illetve együttváltozásait elemzik. Kettőnél több többváltozós adatelemző módszer használatával csak nagyon kevés publikáció foglalkozik, Lajter és társai (2009) „tíz ökológiailag fontos" változót vizsgál. Ugyancsak elenyésző számban készültek hosszú távú vizsgálatok a vízminősítésben. Hatvani és társai (2011) 13 éves időskálán vizsgálja a Kis-Balaton vízminőségi adatait többváltozós és idősoros adatelemző módszerekkel. A Tisza a Kárpát-medence keleti részének vizeit gyűjti össze. Vízgyűjtő területe 157.186 km 2 (Lászlóffy W. 1982). A Tisza a Máramarosi Havasoktól Titelig (torkolatáig) 966 km-t (Teplán I. 2003) tesz meg. Vízgyűjtőterületének kevesebb, mint egyharmada, található Magyarország határain belül, ezért a magyarországi Tisza szakasz vízminősége a mellékfolyóin és a határon túli szakaszán keresztül ki van szolgáltatva a szomszédos országok ipari, mezőgazdasági és egyéb tevékenységének. Jelen közlemény célja, hogy folyóvízi vízminőségi adtok hosszú távú elemzésének lehetőségét mutassa be matematikai statisztikai módszerek felhasználásával a Tisza adatsorain, különös tekintettel a többváltozós adatelemző módszerekre. Felhasznált adatok és az adathalmaz előkészítése. A magyarországi Tisza szakasz (Törzshálózati Rendszerben rögzített) 8 mintavételi pontjának 1974-2005-ig rögzített adatai kerültek elemezésre (1. ábra). A vizsgált időtartam elején, a '70-es években a KGST előírásai, majd 1994-től a máig hatályos Magyar Szabvány (MSZ 12749:1993) előírásai szerint történt a mintavételezés. Elmondható, hogy mintavételi helyenként illetve évente átlagosan 26 mintát vettek, több mint 54 változóból, melyek körét a későbbiekben leírtak szerint szükítettük. 1. ábra. A magyar Tisza és a vizsgált mintavételi pontjai. Mint ismeretes a hosszú távú adatfeldolgozáson alapuló vizsgálatokkor sajátos problémák adódnak, ezeket részletesen T. Nagy Mariann és munkatársai foglalták össze (2004). Az elsődleges nehézség hogy a vizsgált 31 év alatt mind a mintavételi, mind a mintakezelési módszerek változtak. Változott továbbá némely paraméter definíciója is. Továbbá az összehasonlíthatóság szempontjából az is problémát jelent, hogy nem egyetlen laboratóriumból származnak az adatok. Ekkora adatmennyiség esetén óhatatlanul hibás adatok is belekerülhetnek az adatsorokba. Matematikai szempontból az adathalmazban mind a négy hibafajta megtalálható (abszolút-, relatív-, szisztematikus- és véletlen hiba). Ezek matematikai módszerekkel nem küszöbölhetők ki, ezért az adathalmaz előzetes, „manuális" vizsgálata elengedhetetlen. Az ilyen extrém kiugró értékek (függetlenül attól, hogy pozitív vagy negatív irányúak) megkeresése és eltávolítása nagyon fontos, mert ezek egyértelműen rontanák a statisztikai adatelemző módszerek eredményét és azok hatékonyságát. Több változó esetében adódott adathiány. Például a KOI d és az N0 2-N idősora Záhonynál hiányzott, ezért az eredmények összehasonlításakor ezek a változók a többi mintavételi ponton sem vehetők figyelembe. Jó példa az adathiányra a klorofill-a , amelyet csak az 1990-es évek elejétől mértek rendszeresen, de az egyes mintavételi pontokon eltérő időben (3/a ábra). Ezért csak attól az időponttól használható, ahonnan az összes mintavételi ponton mérték (3/b ábra). Az adatelőkészítés elvégzése ezt a nagyfokú gondosságot az eredmények összehasonlíthatósága miatt igényli. E megállapítás hátterében az áll, hogy a miért adatok alapján kapott statisztikák valószínűségi változók, ugyanis azok a mintavételezéstől függnek (Kovács J. és Kovácsné Székely I. 2006a, 2006b).