Hidrológiai Közlöny, 2022 (102. évfolyam)
2022 / 1. szám
Blix K., Tóth R. V.: Gépi tanulás módszerek a Balaton távérzékelésében 7 fenntartással használhatóak. Ezért szükséges a Balatonra egy tanított, lokális algoritmus kifejlesztése. Sokfajta MI algoritmus létezik, amelyek eltérő matematikai alapokból származnak. Ezek közül többet már megvizsgáltak és néhányat (pl. S3 OLCI) be is vezettek a víz a-klorofill tartalmának becslésére (Kwiatkowska és Fargion 2003, Zahn és társai 2003, Camps- Valis és társai 2006 és 2009, Pasolli és társai 2010, Hieronymi és társai 2017). A regressziós erősségüket, tanítási- és predikciós idejüket tekintve minden egyes algoritmusnak előnye, illetve hátránya van. Kutatásunk célja a népszerű S3 OLCI adatokból a-klorofill koncentrációt becslő MI algoritmusok összehasonlítása, illetve a Balatonra legjobban alkalmazható modell kiválasztása. A munkánk során számos algoritmust vizsgáltunk, de jelen cikk csak a legjobban teljesítő modelleket mutatja be, vagyis az SVM (Support Vector Machine), a GPR (Gauss-folyamat regresszió) és NN-eket (neurális háló). Korábbi eredményeinkre alapozva (Blix és társai 2018), ahol a XAI (explainable Artificial Intelligence) algoritmus kimondottan a Balaton a-klorofill adataira tanítódtak, az új modellek is tanítva lettek az input változók csökkentésével és az összefüggések további elemzésével. ANYAG ÉS MÓDSZER Tanító adatsor Az algoritmusok input adatsora a Sentinel-3 Ocean and Land Color Instrument (S3 OLCI) szenzorból származó reflektancia (Remotely sensed reflectence; Rrs) értékeiből állt (1. ábra), míg az output adatsor a műhold felvétel időpontjának megfelelő, terepi mérésekből származó a-klorofill koncentrációk (mg/m3). Az adatpár mindkét része 2017-ből származik: a víz a-klorofill koncentrációt a Balatoni Limnológiai Kutatóintézet algamonitoring méréseiből vettük, míg az Rrs érték az aznapi S3 OLCI felvétel mintavételi GPS pontjára szűkített adatából áll. A meglévő adatokat bővítettük szintetikus, a Hydrolight radiációs transzfer modellel szimulált adatokkal, melyek minden szempont szerint megfelelnek a Balaton valós optikai tulajdonságainak. így a teljes adatsor 1000 méréspárból áll össze. Az I. ábra mutatja az input Rrs adatok egy részét, ahol az Rrs adatok láthatók a spektrál is csatornák függvényében. Az ábrán bemutatott adatokból is kitűnik a Rrs értékek nagy változatossága, ami a változó optikai komplexitású víztípusokra, így a Balatonra is jellemző (I. ábra). Tesztadatsor Az algoritmusok teszteléséhez az extrém balatoni vízvirágzás idején, 2019. szeptember 5-én készült S3 OLCI adatait használtuk. Az adott nap az extrémitása miatt került kiválasztásra, lehetőséget adva az algoritmusok teljesítőképességének tesztelésére olyan helyzetben, amikor a tesztadatsor jelentősen eltér a tanító adatsor értékeitől. Az adatsor tartalmazza egyrészt a C2RCC processzorral (neurális háló, NN modell) az S3 OLCI adatokból előállított atmoszférára korrigált Rrs adatait 11 csatornán és az ugyanezen algoritmussal becsült a-klorofill értékeket is, melyekre az összehasonlítás miatt volt szükség. 0.03 0.025 — 0.02 (O “0.015 “ 0.01 0.005 300 1. ábra. A terepi mérések során gyűjtött és az optikailag komplex vizekre generált szintetikus 1000 adat közül 300 Rrs spektrum a csatornák fiiggvényében Figure 1. Illustrating 300 samples out of the 1000 Rrs input training data (in situ and simulated) A 2. ábrán a Sentinel-2 műhold MSI szenzorénak valósszínes balatoni képe látható 2019. szeptember 5-én. A műholdfelvételen megfigyelhető a mély zöld (magas algabiomassza) és a szürkés (felkeveredett víz) területek váltakozása. A felvételből jól látható a Keszthelyi- és a Szigligeti-öblök intenzív zöld elszíneződése, ami a magas a-klorofill értékekre vezethető vissza (2. ábra). Mesterséges Intelligencia (MI) algoritmusok A munkánk során a következő MI módszereket használtuk, illetve vizsgáltuk: SVM (Support Vector Machine); GPR (Gaussian Process Regression); NN (Neural Network); mély gépi tanulás, amely az NN egy fajtája. Mindegyik módszert korábban már sikeresen alkalmazták vizek a-klorofill koncentrációjának becslésére távérzékelt adatokból (Kwiatkowska és Farigon 2003, Zhan és társai 2003, Camps-Valls és társai 2006 és 2009, Pasolli és társai 2010, Hieronymi és társai 2017). A felhasznált algoritmusok matematikailag jelentősen különböznek egymástól, de sok közös jellemzőjük is van, pl. mindegyik modell képes a nem lineáris regreszszióra, illetve az SVM, a GPR és az NN módszerek úgynevezett felügyelt tanulási technikák (supervised learning), vagyis a tanításhoz szükségük van valós output adatsorra. Az SVM a legjobb illeszkedés megtalálásához egy hipersíkot állít fel egy magas dimenziós térben és ezen hipersíkhoz legközelebb elhelyezkedő adatpontok alkotják az úgynevezett tartó (support) vektorokat, melyek segítségével meghatározható a legjobb regressziós felület (Smola és Schölkopf 2004). Az SVM kernel függvényt használ, amelynek helyes kiválasztásával az adatot leginkább meghatározó regresszió megállapítható. Hátránya az SVM- nek, hogy nagy mennyiségű (> n - 10 000) adatot nehezen tud kezelni.