Hegedűs István: Hogyan segít újragondolni a levéltárak szerepét a mesterséges intelligencia és a gépi tanulás? Levéltári Közlemények, 90. (2019) 89–98.

Levéltártan Gépi tanulás a gyakorlatban 2019-ben az Egyesült Királyságbeli Művészeti és Bölcsészettudományi Kutatási Tanács 21 Big Data kutatási programot finanszírozott összesen 4,6 millió font értékben.14 A támogatott programok alapvető célja annak biztosítása volt, hogy a művészeti és bölcsészettudományi kutatások élen járjanak a digitális kor olyan kulcsfontosságú kérdéseinek előremutató kezelésében, mint a szellemi tulajdon, a kulturális emlékezet és nemzeti identitás, valamint a kommunikáció és a kreativi­tás. Mérnökök, számítógépes tudósok és fejlesztők képesek ugyan infrastruktúrát és informatikai támogatást nyújtani mindehhez, de a művészeti és a humán tudo­mányokon belüli innováció alapvető fontosságú lesz az új tudásban rejlő potenciál kiaknázásához, valamint megszervezésének, értelmezésének és felhasználásának kialakításában. 14 The Challenges of Big Data. Arts & Humanities Research Council, https://ahrc.ukri.org/research/ fundedthemesandprogrammes/themes/digitaltransformations/ (Utolsó letöltés ideje: 2020. szeptember 23.) 15 Digital projects at The National Arcfizves.https://www.nationalarchives.gov.uk/documents/digi­­tal-projects-at-the-national-archives.pdf (Utolsó letöltés ideje: 2020. szeptember 23.) 16 Az Egyesült Királyság Nemzeti Levéltárának katalógusa. Bővebb információ: https://www.natio­­nalarchives.gov.uk/help-with-your-research/discovery-help/what-is-discovery/ 17 Az OCR (Optical Character Recognition, magyarul optikai karakterfelismerés) mellett napjaink legizgalmasabb területe a HTR, tehát a kézírást is felismerni tudó alkalmazások fejlesztése. (Lásd: transkribus.net.) Világos, hogy az OCR újradefiniálta és megváltoztatta a szöveges adatokról való gondolkodásunkat. Forradalmi hatással van a történelmi, néprajzi kutatásokra. A következő lépés azonban a kézzel írt szövegek felismerése (lásd HTR). A kézzel írott szövegek felismerésének kétségtelenül nagy jövője van, de itt talán még nagyobb a felelőssége az algoritmusok tanítását végző emberi csapatnak, amely megtaníthatja a gépeket bizonyos típusú írott dokumentumok felismerésére. Lásd Richard Dunley: Machines reading the archive: handwritten text recognition software. 2018. https://blog.nationalarchives.gov.uk/machines-reading-the-archive-handwritten­­text-recognition-software/ (Utolsó letöltés ideje: 2020. szeptember 23.) 18 A crowdsourcing során egy szervezet a hagyományosan belsőleg, saját dolgozók vagy alvál­lalkozók által elvégzett feladatokat a szervezettől független személyek nagy csoportjának szervezi ki, jellemzően online formában. Jellemzője, hogy a crowd (angolul: tömeg) minden tagja csak egy kis részlettel járul hozzá a teljes feladat elvégzéséhez. Számos altípusa alakult ki. https://www.mer­­riam-webster.com/dictionary/crowdsourcing (Utolsó letöltés ideje: 2020. szeptember 23.) Az Egyesült Királyság Nemzeti Levéltárában számos párhuzamos projekt zaj­lott a közelmúltban, vagy zajlik jelenleg is, amelyek szorosan kapcsolódnak a Big Data és az MI / GT tudományokhoz. A gépi tanulási technológiában rejlő lehető­ségek feltárására indított számos kezdeményezések között olyanokat is találha­tunk,15 mint például az ún. eDiscovery 16 eszközök az értékeléshez és a kiválasztás­hoz; az Innsbrucki Egyetem által fejlesztett Transkribus kézírásfelismerő17 alkalmazásának tesztelése; PhD-projektek a webes adatok nagy sebességű megér­tésére és felülvizsgálatára, vagy az ún. „crowdsourced ”18 adatok tisztításának nehézségei. 2017-ben a Nemzeti Levéltár még egy hackatlont19 is szervezett, 94

Next

/
Oldalképek
Tartalom