IRATANYAG HASZNÁLATA - Kutatás, tájékoztatás, ügyfélszolgálat
Kutatási szabályok - Cseh Gergő Bendegúz: E-kutatás a titkosszolgálati levéltárban. Levéltári Szemle, 71. (2021) 4. 5-11.
E-kutatás a titkosszolgálati levéltárban (A korai digitalizálás következményeként ezen képfájlok egy része ma már nem feltétlenül éri el a kívánt technológiai szintet, hiszen a korabeli szkennerek és az akkori tárolókapacitás sokkal alacsonyabb felbontású és monokróm képek rögzítésére adtak csak lehetőséget.) Az iratanyag digitális feldolgozásának alapvető eszköze a Történeti Levéltár - több mint 20 éve folyamatosan fejlesztett - központi, integrált számítógépes rendszere. Az adatbázis egyszerre szolgál az iratanyag feldolgozásának, nyilvántartásának, illetve a digitalizált iratok kezelésének eszközéül, emellett ügyfél- és kutatószolgálati nyilvántartásként, anonimizáló szoftverként és a belső munkafolyamatokat támogató programként is funkcionál. A kutatási és informálódási lehetőségek minél szélesebb körű garantálása mellett az iratokban rögzített személyes adatok jogszerű védelme kiemelt feladatot jelent a titkosszolgálati levéltár számára. A megőrzött különleges személyes adatok többsége - az egészségi állapotra, kóros szenvedélyre vagy a szexuális életre vonatkozó adatok - az erre vonatkozó jogszabály értelmében fokozott védelmet élvez, ezt a védelmet pedig nem csupán a papír alapon kutatott, de az elektronikus formában előkészített anyagok esetében is érvényesíteni kell. Az intézmény belső számítógépes adatbázisa már évek óta lehetőséget nyújt arra, hogy a digitalizált iratanyagban szoftveres módszerrel legyen elvégezhető a kényszerű anonimizálás, amelynek eredményeként a szükséges kitakarásokkal előkészített PDF-formátumú fájlok formájában sok ezer kutatói példány készült már el. 2021 őszén az ebben a formában hozzáférhető dossziék száma valamivel meghaladta a 7600-at; ez, hozzávetőleges becslés szerint mintegy kétmillió oldalnyi digitálisan kutatható titkosszolgálati iratot jelent. Érdemes kiemelni, hogy optikai karakterfelismerés (OCR) révén a digitalizált oldalak kereshető szöveges formáját is automatikusan előállítja a központi adatbázis, ennek használata azonban számos további kérdést és problémát vet fel. A ‘40-es vagy az ‘50-es évek rendkívül rossz alapanyagú, gyenge minőségű, írógéppel készült, megfakult, töredezett iratai esetében például a karakterfelismerés hatékonysága igen alacsony fokú, a fel nem ismert karakterek, szavak aránya néha elrettentőén magas, a kézírásos szövegek esetében pedig az eljárás - remélhetőleg csak egyelőre - egyáltalán nem is működik. Az OCR-technológia alkalmazása mindemellett feltétlenül szükséges és hasznos is, mivel egyfelől tanítható a rendszer, másfelől a sok millió oldalnyi anyag gépi feldolgozása a hibák ellenére jelentős segítséget jelent, másként pedig csak aránytalan energiabefektetéssel érhető el az adatok kinyerése a kutatók és a levéltárosok számára. Azt azonban feltétlenül ki kell emelni, hogy a karakterfelismerés nagyfokú pontatlansága, valamint a szövegek megfogalmazásának egyedisége és értelmezésük bonyolultsága miatt a személyes adatok védelme nem bízható automatikus algoritmusokra, azt minden egyes esetben oldalról oldalra ellenőrizve lehet csak garantálni. Remélhető természetesen, hogy a közeljövőben egy kellően intelligens, specializált és hatalmas mintaanyag segítségével okított informatikai 2021/4.-5-II. 7