Kóta Péter: Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143.

133 A humán tudományok elsődleges forrásanyaga a szöveg volt, és az maradt multimédiás korszakunkban is. A szöve­gek lejegyzésének formái közül csak a számunkra legfonto­sabb betűírás, azon belül a latin betűk digitális kódolásával és megjelenítésével kapcsolatos problémákra térek ki. Mint minden emberi alkotás, a kód­táblázatok is magukon viselik a tör­téneti fejlődés nyomait. A régebbi hardverekbe beépített karaktergene­rátorok korában a O-tól 127-ig terje­dő tartomány (7 bites bináris szám­mal megszámlálható) elegendőnek tűnt, ezt rögzítette az elterjedt ASCII szabvány. Az első 31 jel közt szerepel a nyomtató (valójában akkor még in­kább elektromos írógép) vezérléséhez szükséges néhány kód, majd a leg­gyakoribb központozási jeleket és az arab számjegyeket követi a latin írás 26 nagy-, és kisbetűje. Az angolon kí­vül azonban nincs olyan nyelv, amely ne szorulna rá kiegészítő jelekre. Mi­kor bebizonyosodott, hogy a rendszerek elég biztonságosak, és a tartalékolt nyolcadik bitet karakterek kódolásában is fel lehet használni, annak rendszerbe állításával megduplázódott a táblázat mérete. A 128-tól 255-ig terjedő tartomány azonban még mindig nem elég ahhoz, hogy bármely latin betűs euró­pai írást ellásson karakterekkel, ezért ún. kódlapokba, azaz nyelvi-földrajzi közelségben levő betűkészletekbe csoportosí­tották a betűket. A 8 bites kód nemzetközi (ISO) szabványso­rozata a „8859” elnevezést kapta, ezeknek a kódtábláknak első fele azonos az ASCII-val, a második részben vannak a nem­zeti írásjegyek. A 8859-1 már tartalmaz egyes magyar ékeze­tes betűket, de az Ü, Ű, ő, ű helyén keretrajzoló alapidomok és egyebek éktelenkednek. Nekünk magyaroknak a 8859-2 „slavic” hozta meg az összes ékezetes betűt. A nehézség, hogy sorrendjük nem felel meg az alfabetikus rendezésnek, még ke­zelhető memóriában maradó segédprogramokkal, és legalább a saját nyelvünkön lehetett helyesen írni. De bajban voltak azok, akik cirill (ISO-8859-5), görög (ISO-8859-7) vagy hé­ber (ISO-8859-8), stb. nyelvű idézeteket szerettek volna érte­kezésükbe beilleszteni, hiszen az operatív tárban egyidejűleg csak egy kódtáblázat tartózkodhat. A számítógép-használat nemzetközi elterjedése és sok­nyelvűvé válása tette szükségessé az eltérő írásrendszerek gépi kezelésének megoldását. Erre a feladatra alakult a 80-as évek vége felé a Unicode konzorcium, egy non-profit testü ­let, a szoftverek nemzetközi használatát segítő szabványok létrehozása és fejlesztése céljából. Szorosan együttműködik a W3C-vel, amely a világhálóval kapcsolatos szabványokat felügyeli, és a Nemzetközi Szabványügyi Szervezettel (ISO) - aminek eredményeként létrejött a Unicode szabvány, és megfelelője az ISO-10646. A Unicode lényeges módosításokat hozott a korábbi megoldásokkal szemben: 1) A hardverben tárolt betűk helyett kódpontoknak felelteti meg a bemenetről jövő impulzusokat. A kódpont egy ideális betű - pontosabban jel, vagyis graféma - rendszáma,15 amelyhez szorosan kapcso­lódik a leírása, ahhoz pedig a képe. Ennek lehetnek eltérő sti­­láris, tipográfiai variánsai, de az adott betű fogalmilag azonos marad. 2) Nemcsak terminológiai és grafikai, hanem hasz­nálati információkat is közöl: például vannak olyan jelek, amelyek bár „ránézésre” azonosak egy másikkal, a kontex­tustól függően mégsem cserélhetők fel! Pl. az ékezet (0301, „Combining acute accent”) a latin betűs magyarban a hang hosszúságát jelöli, a görögben az éles ékezet (0384, „Greek tonos”) a (zenei) hangsúlyt mutatja. Az ékezetek pedig jel­lemzően nem önálló helyen állnak, hanem egy másik jelhez kapcsolódnak. 3) Nem egy bittel, hanem több bájttal, növel­ték a táblázat méretét (maximum 6, de ajánlottan 4 bájtig), amivel az azonosítható kódpontok száma akár 1 114 112-ig emelkedhet. 15 Rendszáma természetesen a bitképes betűnek is van: az ASCII, vagy ISO által meghatározott sorszám. 16 A témában tovább tájékozódni kívánónak egy kitűnő bevezető: http:// www.cs.bme.hu/~egmont/utf8/. 17 Prószéky Gábor: Számítógépes nyelvészet. Bp., 1989. 529. A napjainkra kiforrottnak és világszerte elfogadottnak tekinthető, rendkívül átgondolt Unicode rendszer UTF-8 vál­tozatában minden karaktert különböző - lehetőleg minimális - számú bájton tárolnak. Az egybájtos kódpont jelentése azo­nos az ASCII kódtáblával. Az eddigiekből következően tehát egy amerikai felhasználónak fel sem tűnik, hogy milyen szel­lemi-technikai erőfeszítés rejlik egy olyan pofonegyszerű(nek látszó) dolog mögött, mint a klaviatúráról a képernyőre vagy a nyomtatóra betűket küldés; dolgozhat akár ASCII, akár ISO, akár Unicode beállítású gépen - és még a billentyűzet elrendezése is ehhez van igazítva. A nemzeti kódlapokon előforduló karakterek két bájton helyezkednek el, ami annyit jelent, hogy például magyar szövegekben levő ékezet nélküli betűk 127 alatti rendszámmal, egy bájton, az ékezetesek 2 bájton tárolódnak: változó kódszélesség. Arra is gondoltak a rendszer megalkotói, hogy formailag megkülönböztethető legyen az egybájtos kód bájtja a több-bájtosok kezdő, illetve követő bájtjaitól, tehát elvileg nem fordulhat elő az a tévedés, hogy a rendszer véletlenül egymás mellé került több bájtnyi kódsorozatot helytelenül egy karakternek „vél”.16 Az előregyártott, egyedi kódponton elhelyezkedő karak­terek valójában a régimódi megoldást jelentik számos külön­leges karakter esetében. A Unicode-ba főleg azért kerültek be, hogy segítsék a nem teljesen Unicode-kompatibilis rendsze­reket, amelyekben a többelemű karakterek helytelenül jelen­nének meg. Prószéky Gábor már a 80-as évek elején javaslatot tett egy hasonló szemléletű, hatékony és áttekinthető kódo­lási sémára, melynek lényege:17 a latin ABC magánhangzó­inak ékezetesítése egy univerzális táblázattal. A diakritikus jeleket tartalmazó oszlopokat sorszámok, a sorokat a betűk határozzák meg (példa):

Next

/
Oldalképek
Tartalom