LEVÉLTÁRI ANYAG NYILVÁNTARTÁSAI
Általános - Boross István – Dr. Juhász Zoltán: A raktári jegyzék elektronikus megjelenítése és kezelése. Veszprém, 2014. - 4 Digitális adatok tárolása - 4.3 Részlegesen strukturált adatok tárolása
27 4.3 RÉSZLEGESEN STRUKTUR ÁLT ADATOK TÁROLÁSA Míg az adatbázis rendszerek jól szolgálják a strukturált adatok tárolását, adataink nagy része olyan, részlegesen strukturált formátumú, ami nehezen illeszthető be az adatbázisok szigorú szerkezetébe. A legtöbb írott szöveg, dokumentum ebbe a részlegesen strukturált adatcsoportba tartozik. Ezeket az adatokat az jellemzi, hogy szöveges és számszerű adatok egyaránt megtalálhatók bennük, gyakran hierarchikus szerkezetű részekből állnak. A részeknek és az adatoknak jelentése van, amit valamilyen rugalmas módon jelezni-tárolni szükséges. Az Internet térhódítása ugrásszerűen megnövelte az ilyen dokumentumok jelentőségét, hiszen a kereső rendszerek (mint pl. a Google) ezekből a dokumentumokból szerzett információk alapján adnak keresési találatokat, illetve állítják azokat sorrendbe. Emiatt a 2000-es évek elejétől kezdve megnőtt az érdeklődés a részlegesen strukturált adatok tárolása iránt, mint a weboldalakon elérhető szöveges információk, az újságok, könyvek írott tartalma. Emiatt új szakterületek, tárolási elvek jelentek meg a hagyományos adatbázisrendszerek mellett. A részlegesen strukturált dokumentumok két fontos tulajdonsága, hogy i) nem tárolhatók egy nagy adatbázis rendszerben, mivel a dokumentumok önálló életet élnek, másrészt ii) a dokumentumnak a keresést segítő kiegészítő leírást kell tartalmaznia a dokumentum szerkezetéről, jelentéséről. Annak érdekében, hogy ezek a leírások szabványosak és a számítógépek számára is érthetőek legyenek, több ún. leíró nyelvet fejlesztettek ki. A leíró nyelvek közös jellemzője, hogy a dokumentum tartalmának tetszőleges részéhez címkéket (angolul tag) tud rendelni, melyek fontos szemantikai információt rendelhetnek a tartalomhoz. A címkék és a leíró nyelvek használatát egy egyszerű példán mutatjuk be: „Esterházy IV. Dániel 1755-ben Oszlop és Csetény lakosainak robotkötelezettségeit megállapítván ötven öl fa megvágására kötelezte jobbágyait, a fát Győrbe voltak kötelesek szállítani és ott eladni, minden öl után 1 tallért tartoztak fizetni a roboton kívül, robotjukba pedig mindezért 5 gyalogos napszám került beszámításra.” A fenti szövegrészletben szerepelnek nevek, időpont, helységek illetve további tevékenységre utaló információk. A humán olvasó számára ezek az információk egyértelmű jelentéssel bírnak, azonban egy számítógép nem tudja mi 1755, vagy Oszlop. Ezek a gép számára csak karakterek értelmetlen sorozatai. Ha azt szeretnénk, hogy ezek a gép számára is érthetőek legyenek, a különböző fogalmakat, szavakat meg kell jelölnünk. Ezt gyakran megtesszük mi is írott szövegek elemzése során. Ismételjük meg ezt a példát, de különböző színekkel emeljük ki a neveket, helységeket és időpontokat: „Esterházy IV. Dániel 1755 -ben Oszlop és Csetény lakosainak robotkötelezettségeit megállapítván ötven öl fa megvágására kötelezte jobbágyait, a fát Győr be voltak kötelesek szállítani és ott eladni, minden öl után 1 tallért tartoztak fizetni a roboton kívül, robotjukba pedig mindezért 5 gyalogos napszám került beszámításra.” A számítógép nyelvére lefordítva a sárga, zöld és kék kiemelést, a névhez, dátumhoz és a helységekhez hozzá kell rendelnünk jelentést leíró címkéket. Ezt az ún. leíró (markup) nyelvekkel tehetjük meg. Az első szabványos számítógépek számára kifejlesztett leíró nyelv az SGML 44 (Standard Generalized Markup Language) volt. Az SGML szigorú dokumentum szerkezetet, betartandó szabályokat és szintaxist ír elő az SGML dokumentumok létrehozására. A legfontosabb tulajdonsága azonban a címke (angolul tag) bevezetése, ami a következő szintaxis szerint jelenik meg a dokumentumokban: <TAG>szöveg </TAG> . 44 http://en.wikipedia.org/wiki/Standard_Generalized_Markup_Language