A Fővárosi Szabó Ervin Könyvtár évkönyve 2002-2003-2004
TANULMÁNYOK - Reisz László: A digitalizálás és a Magyar Társadalomtudományok Digitális Archívuma
évvel ezelőtt elhalt szerzők művei szerepelnek, de pusztán pragmatikus okokból is előnyben kell részesítenünk azokat a dokumentumokat, amelyek közzététele probléma- mentes. Az archívum történeti jellegéből következik, hogy egy adott mű több kiadása esetén lehetőleg az első kiadást dolgozzuk fel. Bár az érintett dokumentumok zöme nehezen hozzáférhető, állaguk, minőségük is gyakorta kívánnivalókat hagy maga után, szó sincs arról, hogy a feldolgozott dokumentumok egyedi példányok lennének. Az MTDA egyértelműen a formátum-orientált digitalizálást preferálja. Ez azt jelenti, hogy az eredeti dokumentumok tördelése, illusztrációi, oldalszámozása, lábjegyzetei a digitalizált változatban sem változnak, azaz a digitalizált dokumentum az eredeti elektronikus xeroxaként működik. Ez természetesen nem azt jelenti, hogy az anyag képként jelenik meg a felhasználónak: az MTDA keretében a beszkennelt dokumentumot optikai karakterfelismerést követően kereshető szövegként szolgáltatjuk. A feldolgozás menete a következő: 1. a kiválasztott dokumentum szkennelése 2. optikai karakterfelismerés 3. felismertetett szöveg korrektúrája Tapasztalataink szerint a legmegfelelőbb közlési formátum a pdf. Ez lehetőséget nyújt arra, hogy a felhasználó számára az internetről történő közvetlen elérésre (az ehhez szükséges olvasó egyike a leginkább elterjedt ingyenes programoknak), illetőleg a világhálóról való letöltésre, mely esetben az adott dokumentum élő internetkapcsolat nélkül is olvasható. A pdf formátum kiválóan megfelel az anyag CD-n, illetőleg DVD-n történő terjesztése esetében is. Bár nem célunk a felhasználás korlátozása, itt érdemel említést, hogy pdf- állományok esetében annak közreadója meglehetősen tág határok között tudja korlátozni a felhasználói hozzáférést. Az MTDA dokumentumaiban nem élünk ezzel a lehetőséggel, azaz a felhasználó a mentésen, másoláson kívül opcionálisan az egész dokumentumot kinyomtathatja. A formátum ellenzői gyakorta hivatkoznak arra, hogy a pdf „zárt”, s az ilyen formátumú anyagok más formába történő áttöltése nehézkes. Ez így tévedés. A pdf kiválasztására gondos előzetes mérlegelést követően került sor, azért, mert ez bizonyult az archívum céljaihoz képest a legmegfelelőbbnek. A konverziós problémák zöme nem az eredeti formátumra vezethető vissza, hanem az alapdokumentum olyan jellemzőire, aminek a megtartását más formátum nem, vagy csak igen nagy kompromisszumok árán képes. 2. Az MTDA tartalma Nehéz lenne pontos, még inkább végleges becslést adni az archívum méretéről. Állománya könyvek tekintetében jelenleg 429 könyv, mintegy 54 000 oldalára terjed, amelyek mindegyike beszkennelt, karakterfelismert állapotban van, jelentős részük pedig végleges, pdf-formátumban, gyakorlatilag készen. 183 könyv előkészületben, azaz még feldolgozás előtti állapotban. 219