Haraszti Viktor: Digitalizálás a gyakorlatban. Levéltári Szemle, 52. (2002) 4. 3–18.
Röviden a digitalizálásnál követett gyakorlatot ismertetném: a szoftver — és természetesen szkennerek — segítségével TIFF4 formátumba digitalizáljuk az iratokat és a digitalizált képekhez (fájlokhoz) sokrétű visszakeresési szempontrendszer alapján adatbázist (index-adatokat) rendelünk. Az adatbázis építése manuális, az index-mezőket a munkatársak az iratokon található információk segítségével töltik fel. Az adatbázisban a következő fontosabb visszakeresési szempontok (index-mezők) kerültek meghatározásra: az irat küldője, feladója; az irat címzettje; az irat keletkezési ideje; az irat ÁPV Rt-nél kapott iktatószáma; az iraton található egyéb nyilvántartási számok (egyes szervezeti egységek nyilvántartási száma); az irat tárgyköre, azaz rendezés utáni tételbe sorolása. Az iratok selejtezhetőségét jelző, az ÁPV Rt. irattári tervében meghatározott tételszámok is az index-adatok részét képezik, így a digitalizált iratok papíralapú eredetijük őrzési idejének lejártával egyszerű leválogatás után selejtezhetöek lesznek.28 Bár a biztonsági mentésként kiírt CD-ken az irattári anyag egésze az adathordozó fizikai megsemmisüléséig selejtezetlen formában is megmarad, a levéltárnak már csak a maradandó értékű irattári tételek digitalizált állományait kell — leválogatás után — ma még nem rögzített módon és formában átadni. Az irat tárgya is rögzítésre kerül egy ún. memo-mezőben. A tárgy mezőbe 64 KB. szöveges információ helyezhető el, ami akár azt is jelentheti, hogy az irat egész szövegét OCR (karakter-felismerő) segítségével át lehet emelni. Ebben az esetben az irat képi digitalizált formája mellett teljes szövegű adatbázisként — akár más alkalmazások részére is — rendelkezésre áll. A teljes adatbázis sokrétű lekérdezési, egymás mellé rendelési, szűkítési stb. lehetőséget biztosít, de a felhasználó számára biztosított az adatbázisban lévő összes adatban, az index-mezőkben egyidejűleg történő teljes körű szöveges, akár szótöredékes keresés, beleértve ebbe a tárgy mezőben lévő meghatározásokat is. Ha a tárgy mezőbe karakter-felismerővel az irat teljes szövegét átemeljük, akkor az ún. intelligens irat is létrejön, míg az eredeti képi megfelelője is megtalálható marad. A képként történő digitalizálás előnye ugyanakkor, hogy a későbbi karakterfelismerővel történő átalakítás bármikor elvégezhető, a digitalizált kép megváltoztatása nélkül. Ha a karakterfelismeréshez előbb digitalizáljuk az iratot, majd képét nem, csupán a teljes szövegű adatbázist őrizzük meg, akkor mindazon előnyök, amelyekről már szó esett, elvesznek. A digitalizálás adatbázis-építését segítő archiváló szoftverek esetében a felhasználó nem válogathat a jobbnál-jobb megoldások közt, már ami a levéltári célú felhasználást illeti. Az említett irat archiváló, digitalizáló szoftverek nem olcsók, több milliós beszerzési áruk meggondolásra késztet. Ugyanakkor szabad-e adatbázist építeni megfelelő adatbázis kezelő nélkül? Véleményem szerint nem, és ha mégis ez történik, az az anyagi és szellemi erőforrások elpocsékolását jelenti. Az elektronikus iratkezelés és a workflow rendszerek teljes regisztratúrákat kezelnek. A papíralapú irattárak digitalizálásánál sem az irattári terv szerinti őrzési idők szerint történik a feldolgozás. Utólag a digitalizált iratokat irattári tételbe sorolni nem kis munka. Ha ez a feldolgozás során nem történik meg, akkor a jövőben a levéltárak teljes regisztratúrákat vehetnek majd át, egy szerv digitalizált ill. csupán elektronikus formában létező iratainak selejtezetlen egészét, ami a levéltári anyag fogalmát döntően változtathatja meg. 10