Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143. | Könyvtár

Kóta Péter: Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143.

139 2. Milestone (mérföldkő) elemek alkalmazása, aminek lényege, hogy üres, magában álló XML-kapcsokat használunk minden olyan helyen a szövegben, ahol valamilyen határ tagolja azt. Például egy sorozat milestone a verssorok, egy másik az oldalszámok jelzésére. (<sor>a vers egy sora</sor> helyett <sor/> vagy <oldal>...</oldal> helyett <oldal/>) 3. Tördelés és újraegyesítés. Megtehetjük azt is, hogy minden egyes határon elvágjuk a szöveget, a darabokat külön jelöljük, és a töredékeket majd a feldolgozáskor egyesítjük virtuálisan. Ezekkel a megoldásokkal - amiket maga a TEI is inkább csak megenged, mint ajánl - elveszítjük az XML-feldolgozás leghatékonyabb keresési lehetőségeit. Még kevésbé ajánl a TEI, de a rend kedvéért felsorol néhány olyan módosítást, amik a párhuzamos, átfedő hierarchiák kezelésére születtek: 1. A ,színes XML’ javaslat, amely egymást átfedő XML- fákkal reprezentálja a dokumentum szerkezetét. így megszűnik a többszörös adattárolás, könnyen karbantartható a dokumentum és elemei különböző útvonalakon is elérhetők. 2. Több fa-struktúra egyidejű használata, amelyek részben azonosak. Ekkor a dokumentum egy-egy nézete más és más faszerkezet szerint alakul. 3. A MultiX javaslat, amely nem fa-, hanem irányított gráf szerkezetet használ az XML leképezésére. Ez legalábbis elvben lehetőséget ad szabványos XML eszközök használatára. Arra is lehetőség van, hogy a jelölést a szövegtől elkülönítve végezzük (stand-off markup), és a szöveg adott pontjaira mutató pointerekkel hozzunk létre kapcsolatot a jelölőfájl és a tárgyszöveg között. Ez elvégezhető akkor is, ha a szöveg csak olvasható (nem én rendelkezem fölötte), és nincs benne semmiféle jelölés - sőt akkor igazán. Nem-XML konform megoldási javaslatok: 1. Több párhuzamos jelölés alkalmazása XML adatstruktúrákra. Valójában visszalépés a régebbi, az SGML-ben megtalálható CONCUR tulajdonság használatához, ami az XML- ben már nem érvényes. 2. A Just-in-Time-Trees faszerkezet XML dokumentumot reprezentál, de annak tartalmát nem szabványos módon dolgozza fel, és nem-XML típusokra képezi le. Nem-SGML konform javaslatok: 1. A Layered Markup and Annotation Language (LMNL), magyarul, réteges jelölő és -annotáló nyelv’ nem SGML-alapú, sem adatszerkezet, sem feldolgozás szempontjából, matematikai alapját a Core Range Algebra szolgáltatja. 2. A Markup Languages for Complex Documents (MLCD), vagyis , komplex dokumentumok jelölőnyelve’ az XML-től eltérő jelölésmóddal (Trivially Extended Model Ensemble Control System = TExMECS) és adatszerkezettel (Generalized Ordered-Descendant Directed Acyclic Graph = GODDAG) dolgozik, hogy a nem-hierarchikus struktúrákat kezelhesse.40 40 Lásd még: Extremely Annotational RDF Markup (EARMARK). A legújabb törekvések a szemantikus web lehetőségeire, az ún. ontológiák használatára helyezik a hangsúlyt. 41 Maurizio Marek-- Renzo Orsini: Manuzio: A Model for Digital Annotated Text and Its Query/Programming Language. In: Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science Volume 6273,2010. 478-481. 42 Texis http://www.thunderstone.com/texis/site/pages/Texis.html és Yin Liu- Jeff Smith: A Relational Database Model for Text Encoding. Digital Studies I Le champ numérique No 0.12 (2008). 43 Szövegbányászat. (Szerk.: Tikk Domokos) Bp. 2007. Ezek a megközelítések vagy nem szabványos XML, vagy egyáltalán nem XML alapokra épülnek. Mivel azonban a TEI adatmodell alapját az XML képezi, mindegyik esetben szükséges valamilyen módosítás vagy kiterjesztés; a legtöbb esetben ezek az alternatív módszerek XML-érvénytelen dokumentumokat eredményeznek. Csak a teljesség kedvéért említem meg, hogy léteznek még a fenti típusok közé be nem sorolható kezdeményezések is mint például az objektum-orientált programozási modellre épülő MANUZIO41 , továbbá a relációs adatmodell szerint szerveződő szöveg-adatbázisok is.42 . Szövegbányászat A szövegek - bármilyen módon való - jelölésének a legteljesebb alternatívája a mesterséges intelligencia alkalmazása, amely mindenfajta segédeszköz nélkül, a beépített algoritmusokkal dolgoz fel olyan adatmennyiséget, ami nagyságrendi, sőt mondhatni minőségi ugrást jelent a hagyományos szövegkereséshez képest. A legmodernebb technika az adat, azon belül a szövegbányászat névre hallgat. „A szövegbányászat célja, hogy a szöveges formában... tárolt, azaz jellemzően strukturálatlan elektronikus adatokból a rejtett, nem triviális információkat felderítse, illetve a hozzáadott információkat kinyerje.”43 Vagy, ahogyan a Wikipédia fogalmaz: „A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerésének tudománya; olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt.” Kis túlzással: a gépi intelligencia azt is megtalálja nekünk, amit nem kerestünk. Az elméleti alapok után lássuk, hogyan néz ki a gyakorlat. Egy digitális kiadvány készítésekor elvégzendő munkafázisok szerint csoportosítottam a könnyen elérhető eszközök és példák tömegét. Először is elő kell állítani a dokumentum képét; a modern felszerelések világában a fotózás, szkennelés nem jelenthet problémát. A kép (gyűjtemény) kezelése azonban nem maradhat el. A szoftveres képfeldolgozás, adott esetben akár -manipulálás is indokolt lehet, jelentősen növelheti a dokumentum használhatóságát. Három projektre utalok, a középlatin paleográfia köréből, amelyeknek sikerei és nehézségei egyaránt tanulságosak lehetnek: DigiPal: A középkori, pontosabban 11. századi angolszász kézírások tanulmányozására kifejlesztett új kutatási eszköz, amely lehetővé teszi a korból származó írásminták gyors

Oldalképek

Tartalom