Kóta Péter: Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143.

132 A keresési eredmények összefoglalva: kérdőjellel csonkolva ÁŰO VII./teljes adatbázis csillaggal csonkolva condempnatu? (1: 78. oldal/27) condempnatu* (1/32, abból 1 ~mque!) condempnat?? (1: 78. oldal/64) condempnat* (1/95) condempna??? (5/196) condempna* (8/305) condempn???? (5/211 condemp????? (5/213) condem?????? (7/550) conde??????? (12/1538) cond???????? (79/18137) Jól látható, hogy minél több joker-karaktert helyezünk el a keresőkifejezésben, annál nagyobb a találati halmaz. A cond???????? kifejezésre kapott 79 db VII. kötetbeli ada­tot még kiválogatni is komoly feladat a tízezernél jóval több adat tömegéből, ennél erősebb csonkolásnak pedig nyilván­valóan nincs értelme, ez világosan látszik. Induljunk más irányba! Hagyjuk ki a „p” betűt, szúrjunk be próbakép­pen gyakori elütéseket, erre a következő eredményeket kap­juk: condemn* (0/391); condemn* (0/3); condeinn* (0/3). Az egyik leggyakoribb tévesztési alkalom a ,d’ és a ,cl’ össze­­tévesztése írott és nyomtatott szövegben egyaránt. Az ered­mények: „conclemnatus” (0/0), Ámde! Concle*-ra van „conclemnauimus” (O/l;Fejér IV/3 p324), ami természetesen ugyanaz a szótő, amit mi keresünk, és „conclescensa” (0/1;12 . 230). A nyomtatásban mindkét helyen hibátlanul, ami azt is jelenti, hogy ha a helyes alakot keressük, azt nem kapjuk meg. Közben a „clemens” = ,kegyes’ vagy ,Kelemen’ - „demens” = ,esztelen’ összetévesztésének tömeges adatait szemlélve némi derűs nyugalomra lelhetünk. Ha már így belemeleged­tünk a tesztelésbe, adjunk esélyt a szó elején előforduló hi­bák fölfedezésére is; keresőkifejezésünk ezúttal: *puatus és heuréka: „conTempuatus” álnéven megkaptuk a minket ér­deklő példányt. A hiba itt sem a nyomtatásban van, hanem a digitalizálás során keletkezett. A keresőmotor rejtelmei­be behatolni akaró kíváncsi olvasók buzgalmát azonban le kell hűtenem: nem működik a con!empuatus, a üüempuatus, a con?empuatus, a ????empuatus! 12 C. Tóth Norbert: Szabolcs megye hatóságának oklevelei II. Bp.-Nyíregy­háza, 2002. Jósa András Múzeum Kiadványai 53. 13 Anthony Grafton: Philologie und Bildung seit der Renaissance. In: Einleitung in die lateinische Philologie. (Szerk. Graf, Fritz) Stuttgart - Leipzig, 1997. 39. 14 Carolyn Strange: The Impact of OCR Quality on the Use of Digitized Historical Newspapers. Digital Humanities Quarterly 8 Number, 1 (2014) http://www.digitalhumanities.Org/dhq/vol/8/l/000168/000168.html. Strange és társai megállapítják, hogy „az OCR viszonylag jó (80% körüli) eredményt ad régi újságok digitalizálására, nagyobb pontosság (98%) eléré­séhez azonban szükséges a kézi korrekció. A korpusz méretétől és a rendel­kezésre álló (emberi) erőforrásoktól függően ez a két lépéses folyamat nem feltétlenül hatékonyabb, mint a direkt begépelés. ” Hozzátehetjük: a megma­radt 2%-nyi hiba gépelt oldalanként kb. 32 db-ot jelent! Ha nyomtatott szö­vegek retrodigitalizálásának automatizálása esetleg problematikus, akkor kéziratos (régi, idegen nyelvű, speciális) szövegeké egészen biztosan az. Ahhoz már a szóban forgó kéziratok olyan szintű szakmai ismerete szük­séges, ami - úgy tűnik - tényleg megfizethetetlen. Mindazonáltal, az okmánytárakkal hivatásból, vagy leg­alább némi tapasztalat birtokában dolgozók számára ezek a hibák tipikusak, felderíthetők, és ha belegondolunk, hogy még egy ilyen, az átlagosnál talán kissé kukacoskodóbb vizs­gálat lefolytatása is nagyságrendekkel rövidebb idő alatt elvé­gezhető, mint a sok-sok kötet átnézése, akkor tudjuk igazán értékelni - nem a digitalizálás, hanem - a neten történő pub­likálás előnyeit. Hozzá kell tennem, hogy effajta kukacoskodásnak mellé­kes eredménye lehet olyan szavak megtalálása is, amik a szó­tárban sem szerepelnek - még. Summa summarum: A nyomtatott kiadások hibái mellé a digitalizálás további - nem csekély mennyiségű - saját hibát helyez el. Az embert olyan érzés keríti hatalmába, mint a XV. század humanistáit, akik az új technológia - a nyomtatás - robbanásszerű terjedése, és az avval előállított töménte­len mennyiségű hibás, korrektúrázatlan, igénytelen, nívót­­lan könyv láttán felháborodtak, Niccolo Perotti egyenesen a pápát szerette volna valamiféle cenzori jogosítvánnyal felru­házni, hogy csak szakértők által jóváhagyott szövegek kerül­hessenek piacra...13 Ez a történet megismétlődött a „desktop publishing” köz ­elmúltban lezajlott (befejeződött?) forradalmával, amikor sokan úgy gondolták, hogy egy asztali számítógép és lézer­nyomtató elég a könyvkiadáshoz. A fentieket két szempont figyelembevételével lehet tovább­gondolni. Először is, meg kell állapítanunk, hogy a digitálisan publikált kiadványokkal való munka bizony tartogat megle­petéseket, nehézségeket, buktatókat. Hovatovább olyan gon­dolkodásmód, olyan keresési trükkök elsajátítását követeli meg, amelyek inkább a műszaki, mint a történészi kompe­tencia részét képezik. Másodszor pedig, igen, muszáj elsajá­títani ezt a fajta technikai kompetenciát. Hogy milyen mély­ségben és terjedelemben, az további vita tárgya lehet, mint ahogy a digitális forráskiadás fórumain éppen arról is élénk vita folyik, hogy mennyi munkát érdemes beleölni az optikai karakterfelismerés gyarlóságai révén bekerült hibák kigyom­lálásába.14 Mindenesetre, a jelen ismertető is felfogható a digitális bölcsészeti (s annak részeként forráskiadási) kompetencia szükségessége melletti érvelésként. Az itt tollhegyre tűzött ártatlan hibák kiküszöbölhetők emberi munkabefektetéssel, ami elsősorban történészi tapasztalattal rendelkező munka­társakat igényelne. Tudjuk, hogy levéltárainkban folyik ilyen munka, a segédletek és adatbázisok javítása, aktualizálása folyamatos, de azt is látnunk kell, hogy a digitális forráski­adással foglalkozó, döntően műszaki oldalról származó pub­likációk alapvető kiindulási pontja és motivációja majdnem mindig az emberi munka rendkívüli drágaságának hangsú­lyozása, ergo annak költséghatékony gépi erőforrásokkal tör­ténő helyettesítése. Nem éppen biztató perspektíva ez nekünk, bölcsészeknek, egy okkal több, hogy komolyan szembenéz­zünk a technikai fejlődés kihívásaival, még mielőtt a progra­mozók szép csendben kiveszik kezünkből a saját anyagun­kat és eszközeinket.

Next

/
Oldalképek
Tartalom