Levéltári Szemle, 72. (2022)
Levéltári Szemle, 72. (2022) 2. szám - MÉRLEG - Szerényi Ildikó: Az 1828. évi országos összeírás feldolgozása mesterséges intelligencia támogatásával és önkéntesek segítségével
75 2022/2. ▪ 73 – 86. a kutatók körében igen népszerűek. Ezekben az adatbázisokban a neveket levéltárosok gyűjtötték ki és rendezték adatbázisba, hagyományos módon, többévi munkával. Ahogy az említett 18. századi összeírások esetében, úgy az 1828. évi összeírást is a lakosság adóképességének felmérése céljából készítették. Az összeírás neveket és gazdasági adatokat tartalmaz a történelmi Magyarország teljes területére vonatkozóan, amely 53 közigazgatási egységet (jellemzően a vármegyéket) és a külön egységbe rendezett szabad királyi városokat öleli fel. Az összeírást egy adott időpontban állították össze, így szerkezetileg egységes képet mutat. Terjedelme és országos kiterjedése folytán összesen mintegy száz különböző összeíró kézírásával készült ívek találhatók az iratanyagban. A dokumentum olyan történelmi korszakban készült, amikor még nem léteztek a mai egységesen kidolgozott helyesírási szabályok és irányelvek. Az összeírást végző hivatalnokok ugyanakkor egy bizonyos kézírási módszert sajátítottak el, és munkájuk során többnyire törekedtek a jól olvasható, helyenként kalligrafikusnak is nevezhető íráskép használatára. Adatbázis-szerkesztés önkéntesekkel – crowdsourcing A közösségi jellegű adatbázis-szerkesztési projekt elsődleges célja a potenciális adóalanyok neveinek kigyűjtése, az összeírás személynévre kereshető digitális forráskiadás formájában történő közzététele volt. Családtörténet-kutatási szempontból ugyanis az adót fizető alattvalók személynevei a legfontosabb adatok, az egyes nevekhez és személyekhez tartozó vagyoni, gazdasági és egyéb adatokat a munka jelen fázisában másodlagos fontosságúnak ítéltük, ezeket későbbi levéltári digitalizációs projektek keretében lehet feldolgozni. Mivel az adatbázis publikálásakor nem csupán a megtalált és közzétett névadatokat, de az iratok digitalizált képeit is publikálja majd a levéltár, az adatbázis által kiadott találatok ellenőrizhetők lesznek, az adóalanyok neve mellett megjelenő gazdasági és egyéb adatokat a kutatók az iratokból elolvashatják, ily módon pedig ezek a kiegészítő információk is hozzáférhetővé és értelmezhetővé válnak. A kézírás egyéni vonalvezetést, egyedi stílusjegyeket tartalmazó betűkép, ennek megfelelően az emberi szem számára is körülményesebben olvasható a nyomtatott vagy írógéppel írt szövegnél. Ez a nehezebben olvasható jelleg a mesterséges intelligencia segítségével felismertetett szövegek esetében is érvényesül. A kézírás-felismerő szoftver tanulás útján sajátítja el a kézzel írott szöveg felismerését. Mivel minden irategyüttes eltérő írásképpel rendelkezik, ezért a különböző levéltári iratokhoz különböző tanító modellt kellett létrehozni az algoritmus számára. A Magyar Nemzeti Levéltár a projektben az új technológiát innovatív módon a crowdsourcing megoldással kombinálta, amellyel egyidejűleg szolgált több társadalmi célt. A crowdsourcing során a hagyományos esetben saját munkatársak által elvégzett feladatokat a szervezettől független személyek nagy csoportja végzi, önkéntes alapon, többnyire online formában. Az ilyen típusú munkavégzés során általában a crowd4 minden tagja csupán egy kis részlettel járul hozzá a teljes feladat elvégzéséhez. A crowdsourcing 4 angolul: tömeg Az 1828. évi országos összeírás feldolgozása