Körmendy Lajos: Levéltári informatika. In: Körmendy Lajos (szerk.): Levéltári kézikönyv. Budapest, 2009, Osiris – Magyar Országos Levéltár, 637–732.
7. LEVÉLTÁRI INFORMATIKA • SZERK. KÖRMENDY LAJOS - 7.6. DIGITALIZÁLÁS • CSEH GERGŐ BENDEGÚZ - 7.6.2. A levéltári digitalizálás minőségi és technikai követelményei - 7.6.2.1. Hagyományos levéltári iratok digitalizálásának technikai követelményei
7.6. Digitalizálás • 691 ■ Tömörítés A digitalizálás során alkalmazott szoftverek lehetőséget nyújtanak a képek valamilyen formában - adatvesztéssel vagy a nélkül - való tömörítésére. (A legelterjedtebb adatveszteség nélküli tömörítési eljárások közé tartozik a CCIT Group 3 és 4, LZW, RLE, Deflate, Huffmann Encoding, a legismertebb adatvesztéssel járó formátumok pedig a JPEG, JPEG2000, Fractal.) Levéltári digitalizálás során az eredeti iratokról készült mesterpéldányokat lehetőleg bármilyen tömörítés nélkül, szükség esetén adatveszteség nélküli tömörítéssel kell elkészíteni, a felhasználói másolatok esetében azonban célszerű a kisebb és így hatékonyabban felhasználható tömörített formátumok valamelyikének használata. ■ Fájlösszefűzés A digitalizálás során a képfájlokat minden esetben összefűzés nélkül, oldalanként önálló képekként kell elmenteni, a megfelelő kezelhetőségről a fájlok átgondolt elnevezésével, áttekinthető könyvtárstruktúra kialakításával, valamint a szükséges metaadatok rögzítésével kell gondoskodni. ■ Fájlelnevezés A képfájlok elnevezése rendkívül fontos a rendszer kompatibilitása, valamint az adott képek utólagos azonosíthatósága szempontjából. A fájlneveknek ezért minden esetben utalniuk kell az adott iratot őrző levéltárra, a levéltári jelzetre, illetőleg az oldalnak az adott iraton belüli sorszámára. A fájlnevek megadásakor kizárólag az angol ábécé betűit, valamint arab számokat használjunk, nem alkalmazhatunk informatikai környezetben használatos rendszerkaraktereket (például /, \, ? * stb.) vagy egyéb speciális jeleket, illetőleg magyar ékezetes betűket. A fájlnév elemeit vagy egybe kell írni, vagy szükség esetén egymástól alsó kötőjellel (_) kell elválasztani. ■ Indexelés Az eredeti, papíralapú iratanyag digitalizálásakor nyert képfájlok felhasználhatóságát nagymértékben csökkenti, hogy a számítógép önmagában nem tudja szövegként értelmezni azokat, így a szövegszerű felhasználás (keresés, szerkesztés, indexelés stb.) nem lehetséges, illetőleg az állományokat csak manuális indexelés révén lehet kereshetővé tenni. Ennek a problémának a kiküszöbölésére használnak egyre szélesebb körben ún. karakterfelismerő vagy OCR-programokat (OCR: Optical Caracter Recognition - optikai karakterfelismerés). Az OCR-program a digitális képen található betűket és számokat értelmezi és ASCII-szövegfájllá alakítja át. A karakterfelismerés a korszerűbb, tanítható, az eredeti dokumentum nyelvének megfelelő szótárral rendelkező professzionális programok használata mellett igazán hatékony. E programok előnyeit elsősorban jó minőségű, kellően kontrasztos, gépírásos szövegek esetében lehet kihasználni, rossz minőségű, elmosódott, gépelt szöveges dokumentumok esetében a hibajavításra fordított idő meghaladhatja az eredeti dokumentum újragépeltetésére fordítandó időt. Minőségi problémák esetén a digitális képen alkalmazott képjavítási eljárások növelhetik a későbbi optikai karak