Takáts Béla (szerk.): Helyismereti könyvtárosok XI. országos tanácskozása : Helyismereti - digitalizálás - Európai Unió : Szolnok, 2004. július 14-16. (2005)

2. NAP. - Bíró Szabolcs: A szövegfeldolgozás technológiai praktikumai európai kitekintéssel.

2. nap Bíró Szabolcs: A szövegfeldolgozás technológiai praktikumai európai kitekintéssel Ha így van, akkor csak elő kell vennünk azt a három állományt ­SGML/XML, DTD, XSLT - amelyek a legegyszerűbb szövegszerkesztővel is szerkeszthetőek. A stíluslapra nincs is igazán szükségünk, hiszen nem tudhatjuk, milyen megjelenítési formátumok lesznek a jövőben. Amit viszont tudunk, az a következő: készítenünk kell egy konverziós alkalmazást, ami a DTD „segítségével" kiolvassa az adatokat SGML/XML fájljainkból, majd a kimeneti oldalon olyan formátumra hozza, ami az adott kor technológiájának, szellemének megfelel. Ha így teszünk, bátran kijelenthetjük: sikeresen átörökítettük az információkat a jövő nemzedék számára. A „kekecek" persze mondhatják, hogy konverziót más formátumokkal is végezhetünk, s ebben részint igazuk is van. Ám egy hiányosan definiált, a nyilvánosság számára nem kellően dokumentált, zárt, emberi szem számára szinte értelmezhetetlen fájlból sokkal nehezebb kinyerni az adatokat, információkat. Ne felejtsünk ilyesmikre mindig gondolni, már a könyv elektronikus verziójának megszületésekor. Magyarul, ha írásos anyagot digitalizálunk, dolgozunk fel, akkor előbb mindig el kell döntenünk, hogy azt milyen formátumban tesszük. Tanácsok a kezdeti lépésekhez Digitalizálásról itt és most nem szólok, hiszen az külön megérne egy „misét", viszont induló tanácsként érdemes megfogadni, hogy a „nyers" digitalizált, korrektúrázott szöveget először lehetőleg formázási utasítások nélkül, kötetlen formában tároljuk. Ezzel sok időt és energiát megspórolhatunk magunknak. Nagy - több tízezer rekordot tartalmazó - gyűjtemények kialakítása esetén a nemzetközi egységesség biztosítása végett, lehetőleg angol nyelvű, előre kidolgozott dokumentum-típus definíciókat vagy sémákat alkalmazzunk. A DTD­k, illetve XML Schemák elemneveit ne feleltessük meg a magyar nyelvnek! SGML/XML állományok készítésekor nagyon ügyeljünk az ékezetek és a „különleges" karakterek helyes kódolására, s már a nyers szövegnél törekedjünk a helyes kódkiosztás meghatározására. Tudjuk, ez nem könnyű, de a különböző kód­és entitástáblázatok mellett már egyre fényesebben tündököl a Unicode 7 csillaga, a 7 Az Unicode karakterkódolási szabvány. Óriási előnye a többi létező kódtáblával szemben, hogy a világ csaknem összes írással rendelkező nyelvének karaktereit tartalmazza. A Unicode karaktereknek többféle megjelenítési formátumuk van, ilyenek az UTF-8, az UTF-16 es az UTF-32. A legtöbb Windows illesztőfelület például az UTF-16 formátumot használja. 45

Next

/
Thumbnails
Contents