Vízügyi Közlemények, 1986 (68. évfolyam)

3. füzet - Rövidebb tanulmányok, közlemények, beszámolók

400 Bíró F. A. és Gauzer В. sarkalatos kérdése. A szakirodalomban fellelhető formulák száma ugyanis igen nagy. Részletes ismertetésüktől és értékelésüktől eltekintünk, ehelyett egy lehetséges csoporto­sításukat ismertetjük. A felosztás az egyes módszerekkel vizsgálható adatok típusa szerint a következő: - arányskálán elhelyezkedő adatok esetén alkalmazható hasonlósági függvények, - bináris adatok esetén alkalmazható hasonlósági függvények, - kevert adatok esetén alkalmazható hasonlósági függvények. Az első csoportban említett „arányskálán elhelyezkedő adatok" kifejezés a leggyak­rabban előforduló adattípust jelöli, amikor az adatok számértékükkel szerepelnek, egy­mástól való különbözőségük mértéke, valamint az értékek között még kezdőpont is definiálható. Az ilyen típusú adatokat a továbbiakban számszerű adatoknak nevezzük. A második csoportba tartozó adatok esetén csak egy tulajdonság létét, vagy hiányát vizsgáljuk, például, hogy egy adott értéknél nagyobb-e, vagy sem a vizsgált adat. A harmadik csoportba sorolható hasonló függvényeket különböző típusú adatokat tartalmazó adatsorok vizsgálatára alkalmazzuk. Ekkor mód nyílik az ún. nominális adatok vizsgálatára is. Az ilyen adatok jellemzője, hogy csak egymáshoz képesti különbö­zőségük vagy azonosságuk állapítható meg, a különbözőség mértéke nem. A számított hasonlóságértékek hasonlósági mátrixba rendezhetők. Ez alapján megál­lapíthatjuk, hogy melyik kettő hasonlít a legjobban egyáshoz. Ezt a két adatsort egy clusterbe vonjuk össze. (A továbbiakban már adatsor-cluster és cluster-cluster összevo­nások is előfordulnak.) Amennyiben ezzel az összevonással az összes adatsor egy cluster­be került, az analízis befejeződik. Ellenkező esetben továbbmegyünk. Ha az /-edik és a y'-edik objektumot vontuk össze, a kettőjük közti hasonlósági értékét jelöljük Zjj-vel. Kiszámítjuk a kapott cluster és az összes többi adatsor, cluster közötti hasonlósági értékeket. Ez a Lance-Williams­féle lineáris összefüggés alapján végezhető el: Zi,j,h = <XiZ i h+0LjZ j h + ßZij+ у I z i h-z J h\ . (1) A kapott új hasonlósági értéket beírjuk a hasonlósági mátrix г'-edik sorába és oszlopába. A j-edik sorra és oszlopra a továbbiakban már nem lesz szükségünk. Ezt követően visszatérünk a szélsőérték-kereső lépéshez. Az analízis eredményét egy derékszögű koordináta-rendszerben elhelyezett fa-gráf­fal, a dendrogrammal szemléltetjük. A vízszintes tengelyen az osztályozott adatsorokat, a függőleges tengelyen pedig a hasonlóság mértékét tüntetjük fel. A dendrogram vízszintes vonalai jelzik, hogy a hozzá tartozó hasonlóságértékek mellett mely adatsorokat vontuk össze egy cluster-be. így jól tanulmányozható az adatsorok és ezek különböző csoportjai között kimutatható hierarchia. 2. Mintapélda Tegyük fel, hogy négy vízmintánk van, amelyeket háromféle vízminőségi kompo­nensre vizsgáltunk meg, és a vízminták osztályozását ezen vizsgálatok eredményei alap­ján szeretnénk elvégezni. Az osztályozandók száma tehát négy, az osztályozás szempont­jainak (az attribútumoknak) a száma pedig három. Legyen az adatmátrixunk a következő: 6 0 2 8 112 0 4 112

Next

/
Thumbnails
Contents