Hegedűs István: Hogyan segít újragondolni a levéltárak szerepét a mesterséges intelligencia és a gépi tanulás? Levéltári Közlemények, 90. (2019) 89–98.
Levéltártan Gépi tanulás a gyakorlatban 2019-ben az Egyesült Királyságbeli Művészeti és Bölcsészettudományi Kutatási Tanács 21 Big Data kutatási programot finanszírozott összesen 4,6 millió font értékben.14 A támogatott programok alapvető célja annak biztosítása volt, hogy a művészeti és bölcsészettudományi kutatások élen járjanak a digitális kor olyan kulcsfontosságú kérdéseinek előremutató kezelésében, mint a szellemi tulajdon, a kulturális emlékezet és nemzeti identitás, valamint a kommunikáció és a kreativitás. Mérnökök, számítógépes tudósok és fejlesztők képesek ugyan infrastruktúrát és informatikai támogatást nyújtani mindehhez, de a művészeti és a humán tudományokon belüli innováció alapvető fontosságú lesz az új tudásban rejlő potenciál kiaknázásához, valamint megszervezésének, értelmezésének és felhasználásának kialakításában. 14 The Challenges of Big Data. Arts & Humanities Research Council, https://ahrc.ukri.org/research/ fundedthemesandprogrammes/themes/digitaltransformations/ (Utolsó letöltés ideje: 2020. szeptember 23.) 15 Digital projects at The National Arcfizves.https://www.nationalarchives.gov.uk/documents/digital-projects-at-the-national-archives.pdf (Utolsó letöltés ideje: 2020. szeptember 23.) 16 Az Egyesült Királyság Nemzeti Levéltárának katalógusa. Bővebb információ: https://www.nationalarchives.gov.uk/help-with-your-research/discovery-help/what-is-discovery/ 17 Az OCR (Optical Character Recognition, magyarul optikai karakterfelismerés) mellett napjaink legizgalmasabb területe a HTR, tehát a kézírást is felismerni tudó alkalmazások fejlesztése. (Lásd: transkribus.net.) Világos, hogy az OCR újradefiniálta és megváltoztatta a szöveges adatokról való gondolkodásunkat. Forradalmi hatással van a történelmi, néprajzi kutatásokra. A következő lépés azonban a kézzel írt szövegek felismerése (lásd HTR). A kézzel írott szövegek felismerésének kétségtelenül nagy jövője van, de itt talán még nagyobb a felelőssége az algoritmusok tanítását végző emberi csapatnak, amely megtaníthatja a gépeket bizonyos típusú írott dokumentumok felismerésére. Lásd Richard Dunley: Machines reading the archive: handwritten text recognition software. 2018. https://blog.nationalarchives.gov.uk/machines-reading-the-archive-handwrittentext-recognition-software/ (Utolsó letöltés ideje: 2020. szeptember 23.) 18 A crowdsourcing során egy szervezet a hagyományosan belsőleg, saját dolgozók vagy alvállalkozók által elvégzett feladatokat a szervezettől független személyek nagy csoportjának szervezi ki, jellemzően online formában. Jellemzője, hogy a crowd (angolul: tömeg) minden tagja csak egy kis részlettel járul hozzá a teljes feladat elvégzéséhez. Számos altípusa alakult ki. https://www.merriam-webster.com/dictionary/crowdsourcing (Utolsó letöltés ideje: 2020. szeptember 23.) Az Egyesült Királyság Nemzeti Levéltárában számos párhuzamos projekt zajlott a közelmúltban, vagy zajlik jelenleg is, amelyek szorosan kapcsolódnak a Big Data és az MI / GT tudományokhoz. A gépi tanulási technológiában rejlő lehetőségek feltárására indított számos kezdeményezések között olyanokat is találhatunk,15 mint például az ún. eDiscovery 16 eszközök az értékeléshez és a kiválasztáshoz; az Innsbrucki Egyetem által fejlesztett Transkribus kézírásfelismerő17 alkalmazásának tesztelése; PhD-projektek a webes adatok nagy sebességű megértésére és felülvizsgálatára, vagy az ún. „crowdsourced ”18 adatok tisztításának nehézségei. 2017-ben a Nemzeti Levéltár még egy hackatlont19 is szervezett, 94