Získávání metadat ze skenovaných dokumentů NATO pomocí LLM

Historické archivy obsahují cenné informace, ale ve skenovaných dokumentech se obtížně hledá, pokud jsou metadata neúplná nebo nekonzistentní. Na C4DHI Anniversary Workshop jsem představil pracovní postup, který využívá velké jazykové modely k získávání strukturovaných metadat ze skenovaných archivních dokumentů NATO. Přednáška se zaměřila na zašuměné OCR, vícejazyčné záznamy a zachování podkladů pro lidskou kontrolu.

Archivní dokument je pro digitální výzkum užitečný teprve tehdy, když jej lze vyhledávat, porovnávat a propojit s dalšími prameny. Skeny dokumentů NATO však obsahují chyby OCR, více jazyků a různorodé rozvržení.

Na výročním workshopu C4DHI jsem představil postup, ve kterém velké jazykové modely získávají z dokumentů názvy, data, instituce, archivní kódy a tematické štítky. Praktická část se věnovala také tomu, jak z experimentu vytvořit opakovatelný a kontrolovatelný výzkumný nástroj.

První strana programu výročního workshopu C4DHI — Program workshopu v Praze.

Abstrakt

Příspěvek se zaměřuje na převod skenovaných archivních dokumentů NATO do strukturovaných dat použitelných pro výzkum. Ukazuje získávání názvů, dat, institucí, archivních kódů, údajů o korespondenci a tematických štítků pomocí velkých jazykových modelů. Zabývá se také chybami OCR, vícejazyčnými materiály a návrhem opakovatelného softwarového postupu.

Odkazy

Stránka akce: Oficiální představení výročního workshopu C4DHI.
Program v PDF: Program workshopu včetně příspěvku a časového rozvrhu.

Abstrakt

Odkazy

Číst dále