Levéltári Közlemények, 90. (2019)

Levéltártan Hegedűs István: Hogyan segít újragondolni a levéltárak szerepét a mesterséges intelligencia és a gépi tanulás?

Gépi tanulás a gyakorlatban 2019-ben az Egyesült Királyságbeli Művészeti és Bölcsészettudományi Kutatási Tanács 21 Big Data kutatási programot finanszírozott összesen 4,6 millió font értékben.14 A támogatott programok alapvető célja annak biztosítása volt, hogy a művészeti és bölcsészettudományi kutatások élen járjanak a digitális kor olyan kulcsfontosságú kérdéseinek előremutató kezelésében, mint a szellemi tulajdon, a kulturális emlékezet és nemzeti identitás, valamint a kommunikáció és a kreativi­tás. Mérnökök, számítógépes tudósok és fejlesztők képesek ugyan infrastruktúrát és informatikai támogatást nyújtani mindehhez, de a művészeti és a humán tudo­mányokon belüli innováció alapvető fontosságú lesz az új tudásban rejlő potenciál kiaknázásához, valamint megszervezésének, értelmezésének és felhasználásának kialakításában. Az Egyesült Királyság Nemzeti Levéltárában számos párhuzamos projekt zaj­lott a közelmúltban, vagy zajlik jelenleg is, amelyek szorosan kapcsolódnak a Big Data és az MI / GT tudományokhoz. A gépi tanulási technológiában rejlő lehető­ségek feltárására indított számos kezdeményezések között olyanokat is találha­tunk,15 mint például az ún. eDiscovery 16 eszközök az értékeléshez és a kiválasztás ­hoz; az Innsbrucki Egyetem által fejlesztett Transkribus kézírásfelismerő17 alkalmazásának tesztelése; PhD-projektek a webes adatok nagy sebességű megér­tésére és felülvizsgálatára, vagy az ún. „crowdsourced”18 adatok tisztításának nehézségei. 2017-ben a Nemzeti Levéltár még egy hackatlont19 is szervezett, 14The Challenges of Big Data . Arts & Humanities Research Council. https://ahrc.ukri.org/research/ fundedthemesandprogrammes/themes/digitaltransformations/ (Utolsó letöltés ideje: 2020. szeptember 23.) 15Digital projects at The National Archives .https://www.nationalarchives.gov.uk/documents/digi ­tal-projects-at-the-national-archives.pdf ( Utolsó letöltés ideje: 2020. szeptember 23.) 16Az Egyesült Királyság Nemzeti Levéltárának katalógusa. Bővebb információ: https://www.natio ­nalarchives.gov.uk/help-with-your-research/discovery-help/what-is-discovery/ 17Az OCR (Optical Character Recognition, magyarul optikai karakterfelismerés) mellett napjaink legizgalmasabb területe a HTR, tehát a kézírást is felismerni tudó alkalmazások fejlesztése. (Lásd: transkribus.net.) Világos, hogy az OCR újradefiniálta és meg változtatta a szöveges adatokról való gondolkodásunkat. Forradalmi hatással van a történelmi, néprajzi kutatásokra. A következő lépés azonban a kézzel írt szövegek felismerése (lásd HTR). A kézzel írott szövegek felismerésének kétségtelenül nagy jövője van, de itt talán még nagyobb a felelőssége az algoritmusok tanítását végző emberi csapatnak, amely megtaníthatja a gépeket bizonyos típusú írott dokumentumok felismerésére. Lásd Richard Dunley: Machines reading the archive: handwritten text recognition software. 2018. https://blog.nationalarchives.gov.uk/machines-reading-the-archive-handwritten­text-recognition-software/ (Utolsó letöltés ideje: 2020. szeptember 23. ) 18A crowdsourcing során egy szervezet a hagyományosan belsőleg, saját dolgozók vagy alvál ­lalkozók által elvégzett feladatokat a szervezettől független személyek nagy csoportjának szervezi ki, jellemzően online formában. Jellemzője, hogy a crowd (angolul: tömeg) minden tagja csak egy kis részlettel járul hozzá a teljes feladat elvégzéséhez. Számos altípusa alakult ki. https://www.mer ­riam-webster.com/dictionary/crowdsourcing ( Utolsó letöltés ideje: 2020. szeptember 23. ) Levéltártan 94

Next

/
Thumbnails
Contents