AZ ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR ÉVKÖNYVE 1972. Budapest (1975)
II. A könyvtári munka elvi és gyakorlati kérdései - Horváth Tibor: A könyvtári szolgáltatások rendszere
úton nyert — szótárba kerülnek behasonlításra. Ha a szótárban a kifejezés megtalálható, akkor azt a dokumentum meg is kapja. Vagy nem létezik a behasonlítás céljaira szógyűjtemény, ilyenkor a szövegösszefüggések, gyakoriság stb. ad támpontokat az indexelés céljaira. Az automatikus rendszerek aszerint is továbboszthatók, hogy a gépi elemzésre milyen szöveget biztosítunk: címeket, referátumokat vagy teljes szöveget. Az automatikus megoldások igen nagy hátránya, hogy meghatározott nyelvhez kötött. Működő automatizált visszakereső rendszerre jó példa a már említett SMART rendszer, amely hosszú évek után kilépett a kísérletezés szakaszából. g) felosztás: a visszakeresési szintek szerint A visszakeresési folyamat leegyszerűsítve úgy megy végbe, hogy a feltett kérdés alapján meghatározott ún. keresőképet (maga is ismérvek sorozata) összehasonlítjuk a dokumentumok képével (amelyeket ugyanezen ismérvek közül néhánynak sorozatával jellemeztünk). Teljes vagy elég magas egyezés esetén — szaknyelven szólva: magas korreláció esetén — a dokumentum relevánsnak minősül és valahogyan kijelezzük. Ezzel kapcsolatban két probléma szokott felmerülni. Az egyik, hogy nemcsak a kérdésre releváns dokumentumok kerülnek elő. A másik: nem minden releváns dokumentum kerül elő. (A két tényezőt egyébként két mutató méri; ezeket elég jól kidolgozták az értékelés elméletében.) Felmerül tehát a kérdés, hogyan lehet javítani a visszakeresés hatékonyságát akár annak árán is, hogy a visszakeresési folyamat megismétlődik, vagy több fázisra oszlik. Ebből a szempontból beszélhetünk egyszintű és többszintű visszakereső rendszerekről. Miután az egyszintűek feltehetően közismertek — ilyen bármely könyvtári katalógus vagy bibliográfia — a többszintű keresőrendszereket — inkább példaként — szükséges ismertetni annyira, amennyire a fogalom megértéséhez szükséges. Egyik típus a visszacsatolásos keresés. Lényege az, hogy az első keresőszakaszban eredményül kapott dokumentumokat abból a szempontból minősítik, hogy mennyire relevánsak. A magas relevanciájú dokumentumok ún. dokumentumvektorával (lényegében ismérveinek összességével) kiegészítik a keresőképet, és az így módosított kérdés alapján ismételt visszakeresést végeznek. A folyamat akárhányszor megismételhető. Az a meggyőződés húzódik meg eme elgondolás mögött, hogy — kiélezve — nem is annyira a kérdésre releváns dokumentumok egyenkénti megkeresése vezet eredményre, hanem a biztosan releváns dokumentumhoz hasonló dokumentumok megtalálása. Többszintű keresésen nyugszik a „clusterálás" is. (Magyar kifejezés, legalábbis találó, nem ismeretes. A „cluster" egyébként rajt, csomót jelent.) Ismét gondoljunk a visszakereső rendszereket modelláló mátrixra. Mondottuk, ebből dokumentumvektorok, illetve ismérv vektorok nyerhetők. Magát a visszakereső rendszert felfoghatjuk nemcsak absztrakt értelemben, hanem praktikusan is úgy, mint vektorok halmazát. E vektorok között vannak olyanok, amelyek nagyon távoliak egymástól, semmiben sem hasonlítanak. Mások kicsit, megint mások jobban hasonlítanak egymáshoz. Ennek alapján a dokumentumoknak számos csoportja, klasztere alakítható ki, aszerint, hogy vektoraik között mekkora a korrelációs 80