Kóta Péter: Digitális forráskiadás. Gondolatok alapvető kérdésekről. Turul, 88. (2015) 4. 130–143.
134 i 2 3 49 ° a á ä á á e é é é i í i í 0 ó ö ő ö u ú ü ű ü y y y y y ISO-8859-2 vagy Unicode Prószéky Árvíztűrő tükörfúrógép Alrvilztu3ro3 t2ko2rflrolgelp A táblázat elvileg mindkét irányban bővíthető, akár mássalhangzókkal, akár új mellékjelekkel, (ilyenből összesen 49 db van, ami egyúttal azt jelenti, hogy a tizediktől kezdve kétjegyű számmal, azaz összesen 3 bájton ábrázolható).18 Ez a logika nagyfokú szabadságot ad a szerkesztőknek. 18 http://nyelvor.c3.hu/special/prokod.pdf . 19 A méltán népszerű PHP nyelv korábbi verziói tudomást sem vettek erről a problémáról, a nyelv Unicode-támogatása jelenleg is korlátozott, http:// ca3.php.net/manual/en/language.types.string.php. 20 http://folk.uib.no/hnooh/mufi/ . A Unicode is támogatja a repülő (combining) ékezetek alkalmazását, ezeket a U0300-U036F kódszegmensbe gyűjtötték össze. Az „előregyártott” ű = „Latin Small Letter U With Double Acute” előállításához a „Latin Small Letter U” + „Combining Double Acute Accent”, betáplálására van szük ség, vagyis: Latin_Kis_U_Dupla_Éles_Ékezettel = Latin_ Kis_U_Betű + Dupla_Éles_Ékezet. U0171 = U0075+U0307! Karakter-kódjaink evvel a módszerrel - minthogy a diakritikus jelek eleve a kétbájtos régióban tartózkodnak - az alapbetűvel együtt immár 3 bájt szélességűre híznak... Azt is megfigyelhetjük, hogy bármennyire is szépen rakja fel rendszerünk akár Prószéky, akár a Unicode alapján az alapbetűre az ékezeteket, az így létrejött í betűvel mégsem lehetünk elégedettek, hiszen az alapbetűn levő pont összeütközik az ékezettel. Emiatt azonban nem fogjuk a török vagy a litván helyesírásban szereplő pont nélküli i betűt: (U0069=i) alkalmazni... A változó kódszélesség a keresési funkció újratervezését is megköveteli, ugyanis a kereső algoritmusnak nem adhatjuk meg a keresendő adatokat direkte karakterenként, hanem inkább bájt-csoportokként, hacsak nem akarunk drasztikus teljesítménycsökkenéssel számolni. Ez a szoftverfejlesztők számára jelent komoly feladatot.19 2001-ben alakult meg a Medieval Unicode Font Initiative (MUFI) egy történészekből és tipográfusokból álló non-pro fit munkacsoport, amely a középkori kutatók igényeinek - az eredeti forrásokban előforduló sajátos grafémák kiadványokban történő ábrázolása - próbál megfelelni.20 A MUFI nincs semmilyen függő viszonyban a Unicode-dal, ajánlásai magánjellegűek, még ha számos közreműködő és felhasználó támogatását tudhatja is maga mögött. Az ajánlások két fő célja, hogy 1) a hivatalos Unicode szabvány elfogadott karaktereiből egy célszerű válogatást adjon, és hogy 2) a Private Use Area (PUA, Saját Használatú Terület21) felhasználását - szakmabeliek közt - összehangolja. A válogatás középkori források különböző részletességű átírására szolgál, továbbá hasznos olyan művek kiadási, kommentálási, nyelvi és szótári munkálataihoz, amelyek elsődleges középkori forrásokra hivatkoznak. Ennek érdekében számos betűváltozatot és kritikai kiadási jelet tartalmaz. A PUA-n elhelyezkedő karakterek hivatalosan nem érvényesek; ki-ki a maga feje után népesítheti be, mint ahogy jó néhány különlegesség, mint például a Tolkien által kreált tengwar nyelv írására szolgáló karakterek, a Star Trek film sorozatban megismert klingon ABC, a phaisztoszi korong vagy a székely rovásírás jelkészlete esetében történt. Ezekben a szegmensekben a felhasználónak kell gondoskodnia arról, hogy az adott kódponthoz a megfelelő glyph, vagyis betűkép elérhető legyen. Az ISO szabvány ehhez semmiféle támogatást nem ad. A PUA területén kalandozó betűk - a Unicode konzorcium jóváhagyása esetén - áttelepülhetnek a végleges lakóhelyet jelentő fix kódterületekre. Ez a MUFI által javasolt karakterek közül 152-nek sikerült, a Unicode bölcs józansággal egyáltalán nem (hagyja magát) siet(tetni), a fix területek lefoglalásával. A MUFI karakterei elszórva a Diakritikus jelek (Combining Diacritical Marks Supplement - 26 db), a További latin kiegészítés (Latin Extended Additional - 10 db), a Pótlólagos központozás (Supplemental Punctuation - 15 db), Régi szimbólumok (Ancient Symbols - 12 db) és főleg a Latin kiegészítés D (Latin Extended-D - 89 db) névre hallgató kódpont-területekre helyeződtek el.22 A nagy kiterjedésű Unicode dzsungelben való tájékozódást számos segédprogram teszi könnyűvé. Kikereshetünk egy karakterképet, ha ismerjük a kódpontját, akkor annak alapján, de név szerint is, ha azt tudjuk, tulajdonképpen a netes keresőgépek alkalmazhatók erre a feladatra. Tallózhatjuk a kódtáblákat elnevezésük vagy földrajzinyelvi csoportok szerinti rendben a DecodeUnicode23 portálon. Némileg zavaró, hogy nem éppen aktuális (2008 előtti) állapotot képes csak megmutatni. A Shape Catcher,24 Benjamin Milde webszolgáltatása látványos módszerrel próbál segíteni a karakter megtalálásában: a felhasználó által lerajzolt formához hasonlót keres. Néhány példa a tesztelés során betáplált - és a program által helyesen fölismert - firkálmányokból: bemenet: eredmény: 21 Ez három kódkontingensből, ún. sík (plane)-ből: U+E000 - U+F8FF, továbbá a U+F0000 - FFFFF és U+100000 - U+10FFFF, mindösszesen 137 ezer kódponttal. 22 Unicode 5.1 verziója, 2008. 23 http://www.decodeunicode.org/ . 24 http://shapecatcher.com .