Kóta Péter: Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143.
132 A keresési eredmények összefoglalva: kérdőjellel csonkolva ÁŰO VII./teljes adatbázis csillaggal csonkolva condempnatu? (1: 78. oldal/27) condempnatu* (1/32, abból 1 ~mque!) condempnat?? (1: 78. oldal/64) condempnat* (1/95) condempna??? (5/196) condempna* (8/305) condempn???? (5/211 condemp????? (5/213) condem?????? (7/550) conde??????? (12/1538) cond???????? (79/18137) Jól látható, hogy minél több joker-karaktert helyezünk el a keresőkifejezésben, annál nagyobb a találati halmaz. A cond???????? kifejezésre kapott 79 db VII. kötetbeli adatot még kiválogatni is komoly feladat a tízezernél jóval több adat tömegéből, ennél erősebb csonkolásnak pedig nyilvánvalóan nincs értelme, ez világosan látszik. Induljunk más irányba! Hagyjuk ki a „p” betűt, szúrjunk be próbaképpen gyakori elütéseket, erre a következő eredményeket kapjuk: condemn* (0/391); condemn* (0/3); condeinn* (0/3). Az egyik leggyakoribb tévesztési alkalom a ,d’ és a ,cl’ összetévesztése írott és nyomtatott szövegben egyaránt. Az eredmények: „conclemnatus” (0/0), Ámde! Concle*-ra van „conclemnauimus” (O/l;Fejér IV/3 p324), ami természetesen ugyanaz a szótő, amit mi keresünk, és „conclescensa” (0/1;12 . 230). A nyomtatásban mindkét helyen hibátlanul, ami azt is jelenti, hogy ha a helyes alakot keressük, azt nem kapjuk meg. Közben a „clemens” = ,kegyes’ vagy ,Kelemen’ - „demens” = ,esztelen’ összetévesztésének tömeges adatait szemlélve némi derűs nyugalomra lelhetünk. Ha már így belemelegedtünk a tesztelésbe, adjunk esélyt a szó elején előforduló hibák fölfedezésére is; keresőkifejezésünk ezúttal: *puatus és heuréka: „conTempuatus” álnéven megkaptuk a minket érdeklő példányt. A hiba itt sem a nyomtatásban van, hanem a digitalizálás során keletkezett. A keresőmotor rejtelmeibe behatolni akaró kíváncsi olvasók buzgalmát azonban le kell hűtenem: nem működik a con!empuatus, a üüempuatus, a con?empuatus, a ????empuatus! 12 C. Tóth Norbert: Szabolcs megye hatóságának oklevelei II. Bp.-Nyíregyháza, 2002. Jósa András Múzeum Kiadványai 53. 13 Anthony Grafton: Philologie und Bildung seit der Renaissance. In: Einleitung in die lateinische Philologie. (Szerk. Graf, Fritz) Stuttgart - Leipzig, 1997. 39. 14 Carolyn Strange: The Impact of OCR Quality on the Use of Digitized Historical Newspapers. Digital Humanities Quarterly 8 Number, 1 (2014) http://www.digitalhumanities.Org/dhq/vol/8/l/000168/000168.html. Strange és társai megállapítják, hogy „az OCR viszonylag jó (80% körüli) eredményt ad régi újságok digitalizálására, nagyobb pontosság (98%) eléréséhez azonban szükséges a kézi korrekció. A korpusz méretétől és a rendelkezésre álló (emberi) erőforrásoktól függően ez a két lépéses folyamat nem feltétlenül hatékonyabb, mint a direkt begépelés. ” Hozzátehetjük: a megmaradt 2%-nyi hiba gépelt oldalanként kb. 32 db-ot jelent! Ha nyomtatott szövegek retrodigitalizálásának automatizálása esetleg problematikus, akkor kéziratos (régi, idegen nyelvű, speciális) szövegeké egészen biztosan az. Ahhoz már a szóban forgó kéziratok olyan szintű szakmai ismerete szükséges, ami - úgy tűnik - tényleg megfizethetetlen. Mindazonáltal, az okmánytárakkal hivatásból, vagy legalább némi tapasztalat birtokában dolgozók számára ezek a hibák tipikusak, felderíthetők, és ha belegondolunk, hogy még egy ilyen, az átlagosnál talán kissé kukacoskodóbb vizsgálat lefolytatása is nagyságrendekkel rövidebb idő alatt elvégezhető, mint a sok-sok kötet átnézése, akkor tudjuk igazán értékelni - nem a digitalizálás, hanem - a neten történő publikálás előnyeit. Hozzá kell tennem, hogy effajta kukacoskodásnak mellékes eredménye lehet olyan szavak megtalálása is, amik a szótárban sem szerepelnek - még. Summa summarum: A nyomtatott kiadások hibái mellé a digitalizálás további - nem csekély mennyiségű - saját hibát helyez el. Az embert olyan érzés keríti hatalmába, mint a XV. század humanistáit, akik az új technológia - a nyomtatás - robbanásszerű terjedése, és az avval előállított töméntelen mennyiségű hibás, korrektúrázatlan, igénytelen, nívótlan könyv láttán felháborodtak, Niccolo Perotti egyenesen a pápát szerette volna valamiféle cenzori jogosítvánnyal felruházni, hogy csak szakértők által jóváhagyott szövegek kerülhessenek piacra...13 Ez a történet megismétlődött a „desktop publishing” köz elmúltban lezajlott (befejeződött?) forradalmával, amikor sokan úgy gondolták, hogy egy asztali számítógép és lézernyomtató elég a könyvkiadáshoz. A fentieket két szempont figyelembevételével lehet továbbgondolni. Először is, meg kell állapítanunk, hogy a digitálisan publikált kiadványokkal való munka bizony tartogat meglepetéseket, nehézségeket, buktatókat. Hovatovább olyan gondolkodásmód, olyan keresési trükkök elsajátítását követeli meg, amelyek inkább a műszaki, mint a történészi kompetencia részét képezik. Másodszor pedig, igen, muszáj elsajátítani ezt a fajta technikai kompetenciát. Hogy milyen mélységben és terjedelemben, az további vita tárgya lehet, mint ahogy a digitális forráskiadás fórumain éppen arról is élénk vita folyik, hogy mennyi munkát érdemes beleölni az optikai karakterfelismerés gyarlóságai révén bekerült hibák kigyomlálásába.14 Mindenesetre, a jelen ismertető is felfogható a digitális bölcsészeti (s annak részeként forráskiadási) kompetencia szükségessége melletti érvelésként. Az itt tollhegyre tűzött ártatlan hibák kiküszöbölhetők emberi munkabefektetéssel, ami elsősorban történészi tapasztalattal rendelkező munkatársakat igényelne. Tudjuk, hogy levéltárainkban folyik ilyen munka, a segédletek és adatbázisok javítása, aktualizálása folyamatos, de azt is látnunk kell, hogy a digitális forráskiadással foglalkozó, döntően műszaki oldalról származó publikációk alapvető kiindulási pontja és motivációja majdnem mindig az emberi munka rendkívüli drágaságának hangsúlyozása, ergo annak költséghatékony gépi erőforrásokkal történő helyettesítése. Nem éppen biztató perspektíva ez nekünk, bölcsészeknek, egy okkal több, hogy komolyan szembenézzünk a technikai fejlődés kihívásaival, még mielőtt a programozók szép csendben kiveszik kezünkből a saját anyagunkat és eszközeinket.