Vízügyi Közlemények, 2023 (105. évfolyam)
2023 / 3. szám
104 Kozák -Fiala—Fehérváry Benyhe-Mrekva: Mélytanuló algoritmusok... annak érdekében, hogy a modell teljesítményét követni lehessen a nem látott adatokon (<Cerqueira et al. 2020). Az időbeli komponens nélküli adatok esetében az általános megközelítés az, hogy az adatok 80%-át véletlenszerűen kiválasztva használják a modell legjobb paraméterezésének megtalálására (tanító adathalmaz), a fennmaradó 20%-ot pedig az előrejelző képesség tesztelésére (tesztelő adathalmaz). Az idő dimenzióval rendelkező adatok véletlenszerű szétválasztása azonban problémákat okozna. Először is, elválasztja az olyan lényeges időbeli tulajdonságokat, mint a trend és a szezonalitás. Másodszor, torzítást okozhat, ami a jövőből származó adatok felhasználásával jár. Ezért kiválasztásra került egy dátum, amelyre vonatkozóan a korábbi értékeket használtuk a paraméterkereséshez (betanítás), és az azt követő dátumok validálásként szolgálnak. 2004. április 21-ét határoztuk meg felosztási pontnak, mert a 2006-os árvizet is be akartuk vonni a validálásba. így az adatok 76%-át (1951. január 1. - 2004. április 21.) használtuk fel a paraméterezéshez, és 23%-át a validáláshoz (2005. január 1. - 2020. december 31.), továbbá Cerqueira javaslatának megfelelően a képzési és a validálási halmazok között egy rést hagytunk ki (Cerqueira et al. 2020) . így az árvizek mind a paraméterezési időszakban (1970-ben, 2000-ben és 2001 -ben), mind a validálási időszakban (2006-ban és 2013-ban) megjelentek. Végül minden egyes mérőállomás adathalmazát külön-külön normalizáltuk, és a normalizációs paramétereket a betanítási halmazból számoltuk ki, majd alkalmaztuk mind a betanítási, mind a tesztelési halmazra. 3.2.5. Az alkalmazott modell A modellezés fő kihívása az volt, hogy a bemeneti többváltozós szekvenciát (több jellemző idősorozatát) leképezze, egyváltozós szekvenciára (egyetlen jellemző idősorozatra). A megfelelő modellnek tehát figyelembe kellett vennie az adatok időbeli jellegét, kezelnie kellett a többváltozós idősorokat, és képesnek kellett lennie több időpontra előrejelzést készíteni. A klasszikus gépi tanulási modellek, mint például a Feedforward neurális hálózatok nem képesek megőrizni a sorozat időbeli szerkezetét. A statisztikai modellek, mint például az ARIMA (Autoregresszív integrált mozgóátlag) általában robusztus megoldást nyújtanak az egyváltozós problémákra, de nem képesek kezelni a többváltozós idősorokat. A rekurrens neurális hálózatok (RNN) eközben jól alkalmazhatók a problémánk megoldására, mivel rendelkeznek egy beépített memória-mechanizmussal, amely lehetővé teszi számukra a kontextus fenntartását és a sorozat korábbi elemeire vonatkozó információk megőrzését. Ráadásul a többváltozós (változó hosszúságú) bemeneti adatok feldolgozása egyszerű, és az RNN-ekben tetszőlegesen hosszú előrejelzések iteratív módon állíthatók elő.