Automatické rozpoznávání řeči je nejpraktičtější ve chvíli, kdy uživatel dostane také odhad, nakolik může výslednému přepisu věřit. U dlouhých pamětnických svědectví, včetně svědectví pamětníků Holocaustu, na tom záleží, protože badatelé často pracují s citlivým historicky cenným materiálem. Agentic AI nám pomohla převést proof of concept do nasaditelné produkční funkce zhruba za dva týdny.
U mnoha úloh rozpoznávání řeči je samotný přepis jen polovina praktické odpovědi. Badatel s ním může číst, vyhledávat a citovat, dříve nebo později se ale objeví stejná otázka: jak spolehlivý je zrovna tento přepis?
U dlouhých pamětnických nahrávek je to obzvlášť důležité. Ve sbírkách postavených na svědectvích, včetně výpovědí pamětníků Holocaustu a dat USC Shoah Foundation zveřejněných na YouTube, chyby rozpoznávání ovlivňují vyhledávání, interpretaci, množství ruční kontroly i míru opatrnosti při práci s přepisem jako výzkumným podkladem.
Už několik let provozujeme UWebASR jako webovou platformu pro automatické rozpoznávání řeči. Pro vědecké a nekomerční účely je služba volně k použití a novější modely Zipformer dnes obsahují také varianty adaptované na tento typ dat. Další užitečný krok byl dát uživatelům něco navíc k samotným slovům na obrazovce: odhad, s jakou přesností vybraný model pravděpodobně rozpoznal jejich materiál.
Od signálů systému k odhadu přesnosti
Technická myšlenka se dá říct jednoduše, robustní provedení už je o něco méně jednoduché. UWebASR při rozpoznávání vytváří také interní signály o jistotě modelu. Kalibrační workflow používá označená evaluační data k tomu, aby se naučilo predikovat očekávanou slovní přesnost rozpoznávání z těchto signálů.
Veřejný repozitář uwebasr-calibrate obsahuje kód i popis metody. Důležitý návrhový detail je ohleduplnost k soukromí: uživatel může odhad kalibrovat na vlastních označených datech a referenční přepisy zůstanou u něj. Na zvolený UWebASR endpoint se kvůli rozpoznávání posílá pouze audio.
Pro digital humanities je to podstatné, protože sbírky bývají citlivé, různorodé a těžko hodnotitelné jedním univerzálním benchmarkem. Kalibrovaný odhad samozřejmě nenahrazuje ruční kontrolu. Může ale pomoci rozhodnout, zda je přepis dost dobrý pro vyhledávání, zda potřebuje pečlivou korekturu, nebo zda je konkrétní nahrávku vhodné brát se zvýšenou opatrností.
Agentic AI v procesu
Celá práce se zároveň stala malým, ale užitečným experimentem s agentic AI při vývoji výzkumného softwaru. V Codexu jsem nejprve navrhl proof-of-concept experiment a vyladil základ metody. Poté jsem celou metodu popsal do CALIBRATION.md a dal ji do repozitáře.
Potom jiný agentic AI workflow vzal popis metody a naimplementoval podle něj celý proces od začátku do konce. Tedy rozpoznávání, extrakci příznaků, dělení na train/test, trénování modelu, metriky i reporty. Následně jsem připravil kód potřebný pro produkční nasazení a do článku jsem mohl zahrnout výsledky přímo z produkčního prostředí UWebASR.
Z praktického hlediska je nejvýraznější změna v tempu práce. Bez agentic AI by taková smyčka výzkumného softwaru běžně znamenala práci na několik měsíců: navrhnout metodu, naimplementovat ji, odladit okrajové případy, spustit experimenty, připravit kód pro nasazení a teprve potom sepsat produkční výsledky. S agentic workflow se hlavní cesta vešla zhruba do dvou týdnů.
Co bude dál
Téma připravujeme pro full-paper výstup navázaný na Digital Heritage of European Conflicts Conference (DHECC 2026) v Odense. Rámec digitálního dědictví evropských konfliktů k tomu sedí velmi dobře: cílem je dát lidem pracujícím se svědeckými nahrávkami přepis doplněný o modelově specifický odhad, jak dobře si systém s jejich daty poradil.
Výsledek už je vidět v současném ekosystému UWebASR: specializované modely Zipformer umí přidat odhad vlastní přesnosti rozpoznávání. Koho by zajímalo, jak se z takové myšlenky stane produkční funkce a nakonec článek, může se podívat na repozitář a popis kalibrace. Více po prázdninách.
Odkazy
- UWebASR: Webová služba pro rozpoznávání řeči s modely Zipformer, modely pro orální historii a HTTP API.
- uwebasr-calibrate: Veřejný GitHub repozitář se skripty a dokumentací pro tvorbu kalibrovaných odhadů přesnosti UWebASR.
- CALIBRATION.md: Popis metody pro trénování a vyhodnocení prediktoru přesnosti odvozeného z confidence informací modelů UWebASR.
- MALACH: Vyhledávání nad daty USC Shoah Foundation zveřejněnými na YouTube.
- Digital Heritage of European Conflicts Conference (DHECC 2026): Konference o digitálním dědictví evropských konfliktů napojená na projekt MEMORISE.
- DHECC 2026 full-paper special issue: Springer Nature kolekce pro full papers z DHECC 2026 v časopisu International Journal for Digital Humanities.