Levéltári Szemle, 39. (1989)

Levéltári Szemle, 39. (1989) 4. szám - KILÁTÓ - Szaszkó István: A "The American Archivist" 1987-es évfolyama / 70–75. o.

foglalkoztató Educational Resources Information Center-re (Nevelési Forrá­sok Információs Központja) számíthatnak. A kötet féltucat automatizálással, a számítógép levéltári alkalmazásával foglalkozó írása közül alább kettőt ismertetünk, a többiekre (Michelson, Avra: Állományleírás és tárgyszavazás a gépi adatfeldolgozás korában, vol. 50, no. 2.; Zboray, Ronald J.: A dBase III Plus és a MARC AMC adatformátum, ugyan­ott; Smither, Roger: (Játék)filmarchívumok számítógépes állomány-nyilván­tartása, vol. 50., no. 3.) csak említésükkel hívjuk fel a figyelmet. William Nolte a 4. számban a nagysebességű szövegkereső rendszerek le­véltári alkalmazásáról jelentetett meg egy rövid írást (vol. 50., no. 4., 1987 ősz, p. 580—584.). A számítástechnikának még csupán az alapjait ismerők előtt is köztudott, hogy a gépi visszakeresés megoldása jóval nehezebb feladat, mint az adatok felhalmozása. A nagysebességű szövegkereső rendszer (angol nevéből eredő rövidítéssel HSTS) új fejlődési fokot jelent, ugyanis nem csupán adat­bázisokból előállított indexált kifejezések, hanem teljes adatbázisok vizsgála­tára is alkalmas (full-text search). Az eddigi visszakereső rendszerek legtöbbje szoftveres indexelést alkal­maz, invertált file-okat hoz létre lényegében minden, a szövegben megjelenő szóból. A hagyományos invertált file-ok jól működnek, használhatóak, de csak az index file-ok létrehozása esetén, ezek azonban legalább olyan mére­tűek, mint maguk az adatbázisok. Az invertált file-ok tehát költségesek, pa­zarolják a tárolókapacitást, s hatékonyságuk a keresőkérdések összetettségé­nek növekedésével egyenes arányban romlik. Az invertálás egyik alternatí­vája a karakterenkénti keresés, amelynek során a keresőprogram a kereső­kérdés karaktercsoportját keresi az adatbázisban; e módszer hátránya, hogy még nagygépeken is igen lassú (órákig, napokig tarthat!). Minden ma még meglevő korlátja ellenére a csábítás a teljes-szöveg keresők kifejlesztését ered­ményezte mikrogépektől a nagycomputerekig. A jelen cikk a nagygépeken al­kalmazott programokról szól. A HSTS rendszerek kifejlesztését a párhuzamos adatfeldolgozási (parallel processing) módszernek az ötödik generációs számítógépeken történt megje­lenése tette lehetővé. Ebben az esetben nem a műveleti sebességben történt minőségi ugrásról van szó, hanem a bizonyos feladatokat ellátó processzor ok számának növeléséről. A rendszer ezen felépítése lehetővé teszi, hogy a mul­tiple processzorok azonos időben keressék a kívánt adatot, számuk növelésével arányosan csökkentve a keresési időt. A cikk példát hoz néhány HSTS rendszer keresési sebességére: A GESCAN másodpercenként 250 000 karakteret (50—70 könyvoldal*) vizsgál át. A Fást Data Finder nevű program készítői szerint a szoftver egy 5,4 billió karakternyi adatbázist 13 másodperc alatt nézett át. A Utah Text Search Engine másodper­cenként 50 millió karakter átvizsgálására képes. Ha feltesszük, hogy a HSTS technika széles körben elterjed (s ez eddig minden hatékony technikai újdonsággal előbb-utóbb megtörtént), ennek a le­véltárügy elméletét és gyakorlatát is érintő következményei lehetnek. Ha ugyanis minden iratképző szervnek meglesz a technikai lehetősége iratai-ada­tai gyors, pontos visszakeresésére, nem lesz motivációja a dokumentumok le­véltárba adására. Ez a gépi irattározásban és visszakeresésben mutatkozó ön­kiszolgáló attitűd szerző szerint kiolthatja a levéltáros, mint olyan szakember iránti igényt, aki az iratok leírására és visszakeresésére megfelelő ismeretek­kel és segédletekkel rendelkezik, tehát a technika jóvoltából mindenki „levél­tárossá" válhatik. A HSTS hatással lehet az iratok kiválasztása (appraisalf 74

Next

/
Thumbnails
Contents