Kóta Péter: Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143.

139 2. Milestone (mérföldkő) elemek alkalmazása, aminek lényege, hogy üres, magában álló XML-kapcsokat haszná­lunk minden olyan helyen a szövegben, ahol valamilyen határ tagolja azt. Például egy sorozat milestone a verssorok, egy másik az oldalszámok jelzésére. (<sor>a vers egy sora</sor> helyett <sor/> vagy <oldal>...</oldal> helyett <oldal/>) 3. Tördelés és újraegyesítés. Megtehetjük azt is, hogy min­den egyes határon elvágjuk a szöveget, a darabokat külön jelöljük, és a töredékeket majd a feldolgozáskor egyesítjük virtuálisan. Ezekkel a megoldásokkal - amiket maga a TEI is inkább csak megenged, mint ajánl - elveszítjük az XML-feldolgo­­zás leghatékonyabb keresési lehetőségeit. Még kevésbé ajánl a TEI, de a rend kedvéért felsorol néhány olyan módosítást, amik a párhuzamos, átfedő hierarchiák kezelésére születtek: 1. A ,színes XML’ javaslat, amely egymást átfedő XML- fákkal reprezentálja a dokumentum szerkezetét. így megszű­nik a többszörös adattárolás, könnyen karbantartható a doku­mentum és elemei különböző útvonalakon is elérhetők. 2. Több fa-struktúra egyidejű használata, amelyek rész­ben azonosak. Ekkor a dokumentum egy-egy nézete más és más faszerkezet szerint alakul. 3. A MultiX javaslat, amely nem fa-, hanem irányított gráf szerkezetet használ az XML leképezésére. Ez legalábbis elv­ben lehetőséget ad szabványos XML eszközök használatára. Arra is lehetőség van, hogy a jelölést a szövegtől elkülö­nítve végezzük (stand-off markup), és a szöveg adott pontja­ira mutató pointerekkel hozzunk létre kapcsolatot a jelölőfájl és a tárgyszöveg között. Ez elvégezhető akkor is, ha a szöveg csak olvasható (nem én rendelkezem fölötte), és nincs benne semmiféle jelölés - sőt akkor igazán. Nem-XML konform megoldási javaslatok: 1. Több párhuzamos jelölés alkalmazása XML adatstruk­túrákra. Valójában visszalépés a régebbi, az SGML-ben meg­található CONCUR tulajdonság használatához, ami az XML- ben már nem érvényes. 2. A Just-in-Time-Trees faszerkezet XML dokumentumot reprezentál, de annak tartalmát nem szabványos módon dol­gozza fel, és nem-XML típusokra képezi le. Nem-SGML konform javaslatok: 1. A Layered Markup and Annotation Language (LMNL), magyarul, réteges jelölő és -annotáló nyelv’ nem SGML-alapú, sem adatszerkezet, sem feldolgozás szempontjából, matema­tikai alapját a Core Range Algebra szolgáltatja. 2. A Markup Languages for Complex Documents (MLCD), vagyis , komplex dokumentumok jelölőnyelve’ az XML-től eltérő jelölésmóddal (Trivially Extended Model Ensemble Control System = TExMECS) és adatszerkezettel (Generalized Ordered-Descendant Directed Acyclic Graph = GODDAG) dolgozik, hogy a nem-hierarchikus struktúrá­kat kezelhesse.40 40 Lásd még: Extremely Annotational RDF Markup (EARMARK). A leg­újabb törekvések a szemantikus web lehetőségeire, az ún. ontológiák hasz­nálatára helyezik a hangsúlyt. 41 Maurizio Marek-- Renzo Orsini: Manuzio: A Model for Digital Annotated Text and Its Query/Programming Language. In: Research and Advan­ced Technology for Digital Libraries. Lecture Notes in Computer Science Volume 6273,2010. 478-481. 42 Texis http://www.thunderstone.com/texis/site/pages/Texis.html és Yin Liu- Jeff Smith: A Relational Database Model for Text Encoding. Digital Studies I Le champ numérique No 0.12 (2008). 43 Szövegbányászat. (Szerk.: Tikk Domokos) Bp. 2007. Ezek a megközelítések vagy nem szabványos XML, vagy egy­általán nem XML alapokra épülnek. Mivel azonban a TEI adatmodell alapját az XML képezi, mindegyik esetben szük­séges valamilyen módosítás vagy kiterjesztés; a legtöbb eset­ben ezek az alternatív módszerek XML-érvénytelen doku­mentumokat eredményeznek. Csak a teljesség kedvéért említem meg, hogy léteznek még a fenti típusok közé be nem sorolható kezdeményezések is mint például az objektum-orientált programozási modellre épülő MANUZIO41 , továbbá a relációs adatmodell szerint szerveződő szöveg-adatbázisok is.42 . Szövegbányászat A szövegek - bármilyen módon való - jelölésének a legtelje­sebb alternatívája a mesterséges intelligencia alkalmazása, amely mindenfajta segédeszköz nélkül, a beépített algorit­musokkal dolgoz fel olyan adatmennyiséget, ami nagyság­rendi, sőt mondhatni minőségi ugrást jelent a hagyományos szövegkereséshez képest. A legmodernebb technika az adat­­, azon belül a szövegbányászat névre hallgat. „A szövegbá­nyászat célja, hogy a szöveges formában... tárolt, azaz jellem­zően strukturálatlan elektronikus adatokból a rejtett, nem triviális információkat felderítse, illetve a hozzáadott infor­mációkat kinyerje.”43 Vagy, ahogyan a Wikipédia fogalmaz: „A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyeré­sének tudománya; olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligen­ciával történő kigyűjtése és reprezentációja, amely a feldol­gozás előtt rejtve és feltáratlanul maradt az elemző előtt.” Kis túlzással: a gépi intelligencia azt is megtalálja nekünk, amit nem kerestünk. Az elméleti alapok után lássuk, hogyan néz ki a gyakor­lat. Egy digitális kiadvány készítésekor elvégzendő munkafá­zisok szerint csoportosítottam a könnyen elérhető eszközök és példák tömegét. Először is elő kell állítani a dokumentum képét; a modern felszerelések világában a fotózás, szkennelés nem jelenthet problémát. A kép (gyűjtemény) kezelése azon­ban nem maradhat el. A szoftveres képfeldolgozás, adott eset­ben akár -manipulálás is indokolt lehet, jelentősen növelheti a dokumentum használhatóságát. Három projektre utalok, a középlatin paleográfia köréből, amelyeknek sikerei és nehéz­ségei egyaránt tanulságosak lehetnek: DigiPal: A középkori, pontosabban 11. századi angolszász kézírások tanulmányozására kifejlesztett új kutatási eszköz, amely lehetővé teszi a korból származó írásminták gyors

Next

/
Oldalképek
Tartalom