Hidrológiai Közlöny, 2020 (100. évfolyam)
2020 / 1. szám
63 Benkő G. és társai: Folyami mederanyag szemösszetételének vizsgálata Mély Tanulás eljárással drónfelvételek alapján A tudomány és az emberiség szempontjából hasznosabb alkalmazásokkal is találkozhatunk. Ilyen például az a mély neurális hálózat, amelyet bőrrák detektálására fejlesztettek ki a Stanford egyetem kutatói (Esteva és társai 2017) és amely képes 757 különböző bőrbetegséget kategorizálni aszerint, hogy rossz- vagy jóindulatú. Ennél a modellnél a kutatók 130 ezer, az emberi bőrről készült felvételt használtak fel, és a validációs eredmények alapján 3%-kal nagyobb pontossággal ismeri fel a rosszindulatú daganatokat, mint sok éves tapasztalattal rendelkező dermatológusok. Ebben a cikkben azt szeretnénk megvizsgálni, hogy a korábban említett mesterséges intelligencia modelleket lehet-e folyók mederanyagának osztályozására és annak szemcseösszetételi vizsgálatára használni. Ha lehetséges, akkor lehetőség nyílik arra, hogy olyan adatvezérelt megoldások és programok szülessenek, amelyek képesek felismerni és szegmentálni méretében és anyagában nagy varianciával rendelkező meder- és partanyagot, mind vízfolyások, mind állóvizek mentén. Ezen felül, egy kellően jól felépített és tanított modell lehetőséget nyújt arra, hogy GIS algoritmusok segítségével nagyléptékű szemösszetételi térképeket alkossunk. Egy ilyen alkalmazás képes lehet rövid idő alatt (percek-órák) egy nagyobb terület szemösszetételi térképének elkészítésére, amely magában hordozza majd a szemeloszlásra vonatkozó adatokat is. Egy ilyen modell vagy program képességei természetesen korlátozottak a tanító adat függvényében, így attól függően, hogy a tanító adathalmaz légi felvétel alapú vagy víz alatti felvételeket tartalmaz, úgy a modell is csak az adott típusú, elemezni kívánt felvételre tud megbízható eredményt adni. Ahogy az a mederanyag kutatás elemzésére vonatkozó forráselemzésből és a mély neurális hálózat alapú módszerek életkorából is kitűnik, az itt ismertetett eljárás újdonság lehet a geomorfológia és a hidrológiai tudományok területén és képes lehet gyakorlati hasznot is produkálni ezen területeken. Ellenben, ha bebizonyosodik, hogy nem használható megfelelő pontossággal vagy egyáltalán nem alkalmazható mederanyag vizsgálatra ez a képfeldolgozási eljárás, akkor tovább kell keresni a megfelelő szegmentálási módszert. AZ ELJÁRÁS FELÉPÍTÉSE A módszer alapvető eleme a folyómeder felszínéről készített videók megfelelő felbontású és pixelértékü képekké való konvertálása. Az videó és képfeldolgozás, továbbá a tanítás folyamatát mutatja be az 1. ábra. A módszer tesztelésének első lépéseként szükség volt olyan videofelvételekre, amely egy, területileg változékony mederanyag jellemzőkkel bíró folyószakaszról készültek. Ehhez a Duna felső-magyarországi, Gönyű környéki szakaszán, ahol iszap-homok-kavics-durva kavics frakciók rövid szakaszokon belül egyaránt megtalálhatók, készítettünk alacsony vízállás mellett a víz által nem borított part közeli zónákban drónfelvételeket. A rögzített felvételek 10 és 14 perc közötti hosszúságúak voltak és 30 FPS (Frame Per Second - Képkocka Per Másodperc) sebességűek, ami azt jelenti, hogy egy ilyen felvétel átlagosan 21 500 képet tartalmazott. A képek felbontása 2 704 x 1 520 pixel. A képek tartalmának varianciája nagyon kicsi, mivel sűrűn egymás után készültek, és egy viszonylag homogén felületet mutatnak be, így a videókból kinyert képhalmaz nagyban csökkenthető. Az adathalmaz szűkítése után a képek száma nagyjából 390 volt. Következő lépésként az összes képet annotálni kellett, ami azt jelenti, hogy a képeken a különböző szemcseméreti osztályokat, amelyből jelen esetben 8 volt, jól elkülöníthető színekkel le kellett határolni és ki kellett színezni. Ez a lépés az, amely a legtöbb időt igényli, mivel annak a személynek, aki az annotálást végzi szakembernek kell lennie, hogy a később input adatként szolgáló képhalmaz minél pontosabb legyen. Természetesen az annotálás időbeli hossza erősen függ attól is, hány osztályt tartalmaz egy kép, és azok hogyan helyezkednek el egymáshoz képest. Miután elvégeztük az annotálást, fontos volt átkonvertálni az összes képet RGB (Red-Green- Blue) alapú színes képről, szürkeámyalatosra. Ez azért lényeges, mivel a színes képek 3 csatornásak, azaz tartalmaznak egy vörös, egy zöld és egy kék réteget is, míg a szürkeárnyalatos képnél egy pixel csak egy értéket tud felvenni, ami 0 és 255 között található. Ebből adódik, hogy ezzel a színátalakítással a későbbi számítások során háromszoros sebességgyorsulásra tettünk szert. 1. ábra. A folyamatábra bemutatja az általunk használt eljárás összes fontosabb lépését (Megjegyzés: Az ábrán türkiz színnel láthatók a kötelezően elvégzendő lépések, míg lilával azok, amelyek csak a számítási teljesítmény csökkentésének az érdekében lettek végrehajtva. Ezeket csak akkor kell elvégeznünk, ha kevés a tanító adatunk vagy korlátozott a számítási kapacitásunk.) Figure I. The flowchart illustrates all the important steps of the procedure we used (Note: The steps coloured with turquoise are required to be performed, while the purple indicates those steps that are only performed to reduce computing requirement. We only need to perform the additional steps if we have limited training data or limited computing capacity.)