Vízügyi Közlemények, 1986 (68. évfolyam)
3. füzet - Rövidebb tanulmányok, közlemények, beszámolók
400 Bíró F. A. és Gauzer В. sarkalatos kérdése. A szakirodalomban fellelhető formulák száma ugyanis igen nagy. Részletes ismertetésüktől és értékelésüktől eltekintünk, ehelyett egy lehetséges csoportosításukat ismertetjük. A felosztás az egyes módszerekkel vizsgálható adatok típusa szerint a következő: - arányskálán elhelyezkedő adatok esetén alkalmazható hasonlósági függvények, - bináris adatok esetén alkalmazható hasonlósági függvények, - kevert adatok esetén alkalmazható hasonlósági függvények. Az első csoportban említett „arányskálán elhelyezkedő adatok" kifejezés a leggyakrabban előforduló adattípust jelöli, amikor az adatok számértékükkel szerepelnek, egymástól való különbözőségük mértéke, valamint az értékek között még kezdőpont is definiálható. Az ilyen típusú adatokat a továbbiakban számszerű adatoknak nevezzük. A második csoportba tartozó adatok esetén csak egy tulajdonság létét, vagy hiányát vizsgáljuk, például, hogy egy adott értéknél nagyobb-e, vagy sem a vizsgált adat. A harmadik csoportba sorolható hasonló függvényeket különböző típusú adatokat tartalmazó adatsorok vizsgálatára alkalmazzuk. Ekkor mód nyílik az ún. nominális adatok vizsgálatára is. Az ilyen adatok jellemzője, hogy csak egymáshoz képesti különbözőségük vagy azonosságuk állapítható meg, a különbözőség mértéke nem. A számított hasonlóságértékek hasonlósági mátrixba rendezhetők. Ez alapján megállapíthatjuk, hogy melyik kettő hasonlít a legjobban egyáshoz. Ezt a két adatsort egy clusterbe vonjuk össze. (A továbbiakban már adatsor-cluster és cluster-cluster összevonások is előfordulnak.) Amennyiben ezzel az összevonással az összes adatsor egy clusterbe került, az analízis befejeződik. Ellenkező esetben továbbmegyünk. Ha az /-edik és a y'-edik objektumot vontuk össze, a kettőjük közti hasonlósági értékét jelöljük Zjj-vel. Kiszámítjuk a kapott cluster és az összes többi adatsor, cluster közötti hasonlósági értékeket. Ez a Lance-Williamsféle lineáris összefüggés alapján végezhető el: Zi,j,h = <XiZ i h+0LjZ j h + ßZij+ у I z i h-z J h\ . (1) A kapott új hasonlósági értéket beírjuk a hasonlósági mátrix г'-edik sorába és oszlopába. A j-edik sorra és oszlopra a továbbiakban már nem lesz szükségünk. Ezt követően visszatérünk a szélsőérték-kereső lépéshez. Az analízis eredményét egy derékszögű koordináta-rendszerben elhelyezett fa-gráffal, a dendrogrammal szemléltetjük. A vízszintes tengelyen az osztályozott adatsorokat, a függőleges tengelyen pedig a hasonlóság mértékét tüntetjük fel. A dendrogram vízszintes vonalai jelzik, hogy a hozzá tartozó hasonlóságértékek mellett mely adatsorokat vontuk össze egy cluster-be. így jól tanulmányozható az adatsorok és ezek különböző csoportjai között kimutatható hierarchia. 2. Mintapélda Tegyük fel, hogy négy vízmintánk van, amelyeket háromféle vízminőségi komponensre vizsgáltunk meg, és a vízminták osztályozását ezen vizsgálatok eredményei alapján szeretnénk elvégezni. Az osztályozandók száma tehát négy, az osztályozás szempontjainak (az attribútumoknak) a száma pedig három. Legyen az adatmátrixunk a következő: 6 0 2 8 112 0 4 112