AZ ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR ÉVKÖNYVE 1972. Budapest (1975)
II. A könyvtári munka elvi és gyakorlati kérdései - Horváth Tibor: A könyvtári szolgáltatások rendszere
felépített ismérvrendszer szükséges. E követelményeknek általában megfelelnek a természetes nyelvű szövegekből nyert ismérvek. A generalizálás feladata más: csoportosítás, valamely szempontból homogén halmazok létrehozása a tárolásban. E két ellentétes funkció nehezen illeszkedik össze, s így rendszerint a tárak szervezésekor szükséges megszabni az individualizálás, illetve a generalizálás szintjét. Vegyünk egy példát. Ha van egy monográfiánk a számelméletről, akkor ezt minősíthetjük, osztályozhatjuk úgy, hogy „számelmélet". A műben ugyanakkor több száz tétel és definíció található, s az ezekre vonatkozó információk elvesznek, és a dokumentum sohasem kerül elő, ha a kérdés úgy szól, hogy a „diofantikus approximáció pontosságának javítási lehetőségei". Márpedig a kérdések ebben a mélységben merülnek fel. A probléma megértéséhez azonban tudni kell, hogy a pontosítással növeljük az információveszteséget a visszakeresésben, a generalizálással pedig növeljük az információs „zajt" (nem releváns információk a visszakeresésben). A probléma részletezése nem e tanulmány feladata, e helyen elegendő, ha a két rendszertípust különválasztjuk. A két típus két végletet képvisel, a gyakorlatban a két szélsőség között érdemes a rendszert kialakítani, egyikhez vagy a másikhoz közelebb. e) felosztás: az ismérvek elemzésének fokozatai szerint A tárolási (egyben visszakeresési) ismérveket valahonnan össze kell gyűjteni, meg kell határozni. A gyűjtésnek számos módszere lehetséges. Úgy tűnik azonban, egyre kevésbé lehet megkerülni a tárolandó dokumentumok szövegeinek (legalább a cím, de a referátum, illetve a teljes szöveg) elemzését. A szógyűjtést néha automatizálják a szövegek szóstatisztikai elemzésével, amelynek lényege, hogy bizonyos gyakoriságú kifejezések, szavak minősíthetők azoknak, amelyeket a rendszer használ. A nyert szóanyagot vagy alávetik további elemzésnek, vagy nem. Ebből a szempontból is két szélső eset van. Az elsőt az ún. természetes nyelvű osztályozások alkotják, ahol nincs további elemzés, vagy az elemzés csak a szóvégződések (ragok, jelek) levágására korlátozódik. A másik, ellentétes esetet a tezauruszok képviselik, ahol a további elemzés mind nyelvi, mind logikai-szemantikai szempontok szerint megy végbe. így szabványosított ismérvgyűjtemények jönnek létre, amelyekben a kifejezéseket és köztük levő viszonyokat egyaránt meghatározzák. Nem dönthető el, melyik a jobb megoldás. Nagyon hatékony rendszerek ismeretesek mindkét megoldás alapján. A jelenleg ismert legkiválóbb visszakereső rendszer, az INTREX (USA, Massachusetts Institute of Technology) „uncontrolled vocabulary"-t, ellenőrizetlen kifejezések szótárát alkalmazza. Egy tárolási dokumentumból azonban 30—35 szót nyernek, s így igen nagy valószínűséggel megtalálható a dokumentum a keresőképpel való összehasonlítás révén. A másik, még szélsőségesebb példát a SMART rendszer képviseli (USA, Cornell Egyetem), ahol minimum a referátumokat, de más változatokban a teljes szöveget elemzik automatikusan, és a fejezet elején ismertetett mátrixból ún. dokumentumvektorokat, illetve ismérvvektorokat nyernek. A visszakeresés során pedig a kérdésvektort ezekkel vetik össze, és azokat a dokumentumokat, amelyeknél a kérdésvektorral való egybevetéskor a dokumentumvektor magas korrelációt mutat, 78