Levéltári Szemle, 39. (1989)
Levéltári Szemle, 39. (1989) 4. szám - KILÁTÓ - Szaszkó István: A "The American Archivist" 1987-es évfolyama / 70–75. o.
foglalkoztató Educational Resources Information Center-re (Nevelési Források Információs Központja) számíthatnak. A kötet féltucat automatizálással, a számítógép levéltári alkalmazásával foglalkozó írása közül alább kettőt ismertetünk, a többiekre (Michelson, Avra: Állományleírás és tárgyszavazás a gépi adatfeldolgozás korában, vol. 50, no. 2.; Zboray, Ronald J.: A dBase III Plus és a MARC AMC adatformátum, ugyanott; Smither, Roger: (Játék)filmarchívumok számítógépes állomány-nyilvántartása, vol. 50., no. 3.) csak említésükkel hívjuk fel a figyelmet. William Nolte a 4. számban a nagysebességű szövegkereső rendszerek levéltári alkalmazásáról jelentetett meg egy rövid írást (vol. 50., no. 4., 1987 ősz, p. 580—584.). A számítástechnikának még csupán az alapjait ismerők előtt is köztudott, hogy a gépi visszakeresés megoldása jóval nehezebb feladat, mint az adatok felhalmozása. A nagysebességű szövegkereső rendszer (angol nevéből eredő rövidítéssel HSTS) új fejlődési fokot jelent, ugyanis nem csupán adatbázisokból előállított indexált kifejezések, hanem teljes adatbázisok vizsgálatára is alkalmas (full-text search). Az eddigi visszakereső rendszerek legtöbbje szoftveres indexelést alkalmaz, invertált file-okat hoz létre lényegében minden, a szövegben megjelenő szóból. A hagyományos invertált file-ok jól működnek, használhatóak, de csak az index file-ok létrehozása esetén, ezek azonban legalább olyan méretűek, mint maguk az adatbázisok. Az invertált file-ok tehát költségesek, pazarolják a tárolókapacitást, s hatékonyságuk a keresőkérdések összetettségének növekedésével egyenes arányban romlik. Az invertálás egyik alternatívája a karakterenkénti keresés, amelynek során a keresőprogram a keresőkérdés karaktercsoportját keresi az adatbázisban; e módszer hátránya, hogy még nagygépeken is igen lassú (órákig, napokig tarthat!). Minden ma még meglevő korlátja ellenére a csábítás a teljes-szöveg keresők kifejlesztését eredményezte mikrogépektől a nagycomputerekig. A jelen cikk a nagygépeken alkalmazott programokról szól. A HSTS rendszerek kifejlesztését a párhuzamos adatfeldolgozási (parallel processing) módszernek az ötödik generációs számítógépeken történt megjelenése tette lehetővé. Ebben az esetben nem a műveleti sebességben történt minőségi ugrásról van szó, hanem a bizonyos feladatokat ellátó processzor ok számának növeléséről. A rendszer ezen felépítése lehetővé teszi, hogy a multiple processzorok azonos időben keressék a kívánt adatot, számuk növelésével arányosan csökkentve a keresési időt. A cikk példát hoz néhány HSTS rendszer keresési sebességére: A GESCAN másodpercenként 250 000 karakteret (50—70 könyvoldal*) vizsgál át. A Fást Data Finder nevű program készítői szerint a szoftver egy 5,4 billió karakternyi adatbázist 13 másodperc alatt nézett át. A Utah Text Search Engine másodpercenként 50 millió karakter átvizsgálására képes. Ha feltesszük, hogy a HSTS technika széles körben elterjed (s ez eddig minden hatékony technikai újdonsággal előbb-utóbb megtörtént), ennek a levéltárügy elméletét és gyakorlatát is érintő következményei lehetnek. Ha ugyanis minden iratképző szervnek meglesz a technikai lehetősége iratai-adatai gyors, pontos visszakeresésére, nem lesz motivációja a dokumentumok levéltárba adására. Ez a gépi irattározásban és visszakeresésben mutatkozó önkiszolgáló attitűd szerző szerint kiolthatja a levéltáros, mint olyan szakember iránti igényt, aki az iratok leírására és visszakeresésére megfelelő ismeretekkel és segédletekkel rendelkezik, tehát a technika jóvoltából mindenki „levéltárossá" válhatik. A HSTS hatással lehet az iratok kiválasztása (appraisalf 74