Kóta Péter: Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143.

134 i 2 3 49 ° a á ä á á e é é é i í i í 0 ó ö ő ö u ú ü ű ü y y y y y ISO-8859-2 vagy Unicode Prószéky Árvíztűrő tükörfúrógép Alrvilztu3ro3 t2ko2rflrolgelp A táblázat elvileg mindkét irányban bővíthető, akár mással­hangzókkal, akár új mellékjelekkel, (ilyenből összesen 49 db van, ami egyúttal azt jelenti, hogy a tizediktől kezdve kétje­gyű számmal, azaz összesen 3 bájton ábrázolható).18 Ez a lo­gika nagyfokú szabadságot ad a szerkesztőknek. 18 http://nyelvor.c3.hu/special/prokod.pdf . 19 A méltán népszerű PHP nyelv korábbi verziói tudomást sem vettek erről a problémáról, a nyelv Unicode-támogatása jelenleg is korlátozott, http:// ca3.php.net/manual/en/language.types.string.php. 20 http://folk.uib.no/hnooh/mufi/ . A Unicode is támogatja a repülő (combining) ékezetek alkalmazását, ezeket a U0300-U036F kódszegmensbe gyűj­tötték össze. Az „előregyártott” ű = „Latin Small Letter U With Double Acute” előállításához a „Latin Small Letter U” + „Combining Double Acute Accent”, betáplálására van szük ­ség, vagyis: Latin_Kis_U_Dupla_Éles_Ékezettel = Latin_ Kis_U_Betű + Dupla_Éles_Ékezet. U0171 = U0075+U0307! Karakter-kódjaink evvel a módszerrel - minthogy a diakri­tikus jelek eleve a kétbájtos régióban tartózkodnak - az alap­betűvel együtt immár 3 bájt szélességűre híznak... Azt is megfigyelhetjük, hogy bármennyire is szépen rakja fel rendszerünk akár Prószéky, akár a Unicode alapján az alapbetűre az ékezeteket, az így létrejött í betűvel mégsem lehetünk elégedettek, hiszen az alapbetűn levő pont összeüt­közik az ékezettel. Emiatt azonban nem fogjuk a török vagy a litván helyesírásban szereplő pont nélküli i betűt: (U0069=i) alkalmazni... A változó kódszélesség a keresési funkció újratervezését is megköveteli, ugyanis a kereső algoritmusnak nem adhat­juk meg a keresendő adatokat direkte karakterenként, hanem inkább bájt-csoportokként, hacsak nem akarunk drasztikus teljesítménycsökkenéssel számolni. Ez a szoftverfejlesztők számára jelent komoly feladatot.19 2001-ben alakult meg a Medieval Unicode Font Initiative (MUFI) egy történészekből és tipográfusokból álló non-pro ­fit munkacsoport, amely a középkori kutatók igényeinek - az eredeti forrásokban előforduló sajátos grafémák kiadvá­nyokban történő ábrázolása - próbál megfelelni.20 A MUFI nincs semmilyen függő viszonyban a Unicode-dal, ajánlásai magánjellegűek, még ha számos közreműködő és felhasználó támogatását tudhatja is maga mögött. Az ajánlások két fő célja, hogy 1) a hivatalos Unicode szabvány elfogadott karak­tereiből egy célszerű válogatást adjon, és hogy 2) a Private Use Area (PUA, Saját Használatú Terület21) felhasználását - szakmabeliek közt - összehangolja. A válogatás középkori források különböző részletességű átírására szolgál, továbbá hasznos olyan művek kiadási, kommentálási, nyelvi és szó­tári munkálataihoz, amelyek elsődleges középkori forrásokra hivatkoznak. Ennek érdekében számos betűváltozatot és kri­tikai kiadási jelet tartalmaz. A PUA-n elhelyezkedő karakterek hivatalosan nem érvé­nyesek; ki-ki a maga feje után népesítheti be, mint ahogy jó néhány különlegesség, mint például a Tolkien által kreált tengwar nyelv írására szolgáló karakterek, a Star Trek film ­sorozatban megismert klingon ABC, a phaisztoszi korong vagy a székely rovásírás jelkészlete esetében történt. Ezekben a szegmensekben a felhasználónak kell gondoskodnia arról, hogy az adott kódponthoz a megfelelő glyph, vagyis betűkép elérhető legyen. Az ISO szabvány ehhez semmiféle támoga­tást nem ad. A PUA területén kalandozó betűk - a Unicode konzor­cium jóváhagyása esetén - áttelepülhetnek a végleges lakó­helyet jelentő fix kódterületekre. Ez a MUFI által javasolt karakterek közül 152-nek sikerült, a Unicode bölcs józan­sággal egyáltalán nem (hagyja magát) siet(tetni), a fix terü­letek lefoglalásával. A MUFI karakterei elszórva a Diakriti­kus jelek (Combining Diacritical Marks Supplement - 26 db), a További latin kiegészítés (Latin Extended Additional - 10 db), a Pótlólagos központozás (Supplemental Punctuation - 15 db), Régi szimbólumok (Ancient Symbols - 12 db) és főleg a Latin kiegészítés D (Latin Extended-D - 89 db) névre hall­gató kódpont-területekre helyeződtek el.22 A nagy kiterjedésű Unicode dzsungelben való tájékozó­dást számos segédprogram teszi könnyűvé. Kikereshetünk egy karakterképet, ha ismerjük a kódpontját, akkor annak alapján, de név szerint is, ha azt tudjuk, tulajdonképpen a netes keresőgépek alkalmazhatók erre a feladatra. Tallózhatjuk a kódtáblákat elnevezésük vagy földrajzi­nyelvi csoportok szerinti rendben a DecodeUnicode23 portá­lon. Némileg zavaró, hogy nem éppen aktuális (2008 előtti) állapotot képes csak megmutatni. A Shape Catcher,24 Benjamin Milde webszolgáltatása látványos módszerrel próbál segíteni a karakter megtalálá­sában: a felhasználó által lerajzolt formához hasonlót keres. Néhány példa a tesztelés során betáplált - és a program által helyesen fölismert - firkálmányokból: bemenet: eredmény: 21 Ez három kódkontingensből, ún. sík (plane)-ből: U+E000 - U+F8FF, továbbá a U+F0000 - FFFFF és U+100000 - U+10FFFF, mindösszesen 137 ezer kódponttal. 22 Unicode 5.1 verziója, 2008. 23 http://www.decodeunicode.org/ . 24 http://shapecatcher.com .

Next

/
Oldalképek
Tartalom