Takáts Béla (szerk.): Helyismereti könyvtárosok XI. országos tanácskozása : Helyismereti - digitalizálás - Európai Unió : Szolnok, 2004. július 14-16. (2005)

2. NAP. - Bíró Szabolcs: A szövegfeldolgozás technológiai praktikumai európai kitekintéssel.

2. nap Bíró Szabolcs: A szövegfeldolgozás technológiai praktikumai európai kitekintéssel Gondoljunk csak arra, hogy egy olyan környezetben, ahol bárki elérhet bármilyen adatot - web -, jó, ha azokat egy mindenki által használható formátumban ábrázolják. Minimális követelmény tehát, hogy az internetes formátumok megkapják a megfelelő nyilvánosságot - ideális esetben pedig nyílt forráskódúak is lehessenek. Alapvetően kijelenthetjük, hogy a web két ilyen általánosan használt adatformátuma a HTML (Hypertext Markup Language) és a PDF (Portable Document Format). Az előbbi specifikációja nyílt, bárki szabadon elolvashatja, letöltheti - az ajánlást kidolgozó W3C-n (World Wide Web Konzorcium) kívül nincs olyan szervezet, amely további fejlődését kizárólagosan befolyásolhatná. Ezzel szemben a PDF az Adobe cég tulajdona, s bár a formátum specifikációját a cég közreadta, annak fejlesztése meglehetősen nagy szaktudást igényel. Mi, digitális könyvtárosok alapvetően szövegfeldolgozással, adat-, és információtárolással foglalkozunk. A tárolt információkat pedig legtöbbször a már említett interneten keresztül tesszük elérhetővé felhasználóink számára. Nincs is ezzel semmi baj, hiszen úgy a HTML, mint a PDF egyaránt adatábrázolási formátumok; azt írják le, hogy az adatoknak miként kell festeniük a képernyőn és nyomtatásban. Tudjuk, hogy a PDF kifejlesztésével az Adobe célja az volt, hogy létrejöjjön egy olyan formanyelv, amellyel úgy lehet dokumentumokat formázni, hogy azok mindenhol ugyanolyan méretarányokkal, betűformákkal és tördeléssel jelenjenek meg. Tehát alapvetően megjelenítési, „nyomtatáskész" formátum. A HTML pedig kifejezetten webes megjelenítésre készült. Mi az oka mégis, hogy időtálló, platformfüggetlen tárolási formátumokként mégsem ezeket szokták emlegetni? A válasz egyszerű: a szóban forgó formátumok nem választják szét a tartalmat a formától - noha nem került említésre, ugyanez természetesen igaz a Word RTF állományaira is! Mindez azzal jár, hogy a megjelenítési formátumban tárolt szövegek esetében a metajelek, vezérlőjelek stb. semmit sem mondanak a szöveg tartalmáról, szemantikájáról. A szöveg értelmezésének ugyanis három szintje, megközelítési módja lehetséges: formai (layout), logikai (szintaktikai) és tartalmi (szemantikai). Ez pedig bőven elegendő indok, hogy lehetőleg ne használjuk őket tárolási formátumokként, ugyanis az ilyen fájlok hosszú távon a technika/technológia fejlődésével veszíteni fognak értékükből, nem lesznek kompatibilisek a mindenkori értelmező és feldolgozó programokkal, felhasználási lehetőségeik gyakorlatilag „nullára redukálódnak". 39

Next

/
Thumbnails
Contents