Dlouhé orálněhistorické nahrávky jsou bohaté historické prameny, jejich délka a struktura však ztěžují vyhledávání i další využití. CLARIN 13. července 2023 publikoval impact story State-of-the-Art Speech Recognition for Understanding Oral Histories, která představuje framework Semantic Search / Asking Questions postavený na rozpoznávání řeči, generovaných otázkách a sémantickém vyhledávání. Praktický cíl je pomoct výzkumníkům i návštěvníkům položit otázku, najít relevantní pasáž a pustit si odpověď přímo z původního svědectví.
Dlouhé rozhovory jsou cenné právě tím, že uchovávají detail, váhání i kontext. Ze stejných důvodů se v nich špatně vyhledává, cituje a znovu pracuje s jejich obsahem. CLARIN impact story State-of-the-Art Speech Recognition for Understanding Oral Histories představuje jeden ze způsobů, jak se tomuto problému věnuji: rozpoznávání řeči propojené s generovanými otázkami a sémantickým vyhledáváním.
CLARIN text publikoval 13. července 2023. Popisuje Semantic Search / Asking Questions jako framework pro procházení dlouhých orálněhistorických nahrávek pomocí předem generovaných otázek s časovými značkami. Uživatel nemusí odhadovat přesné slovo, které má v archivu hledat; rozhraní mu pomáhá pohybovat se ve svědectví podle významu, kontextu a struktury rozhovoru.
Na aplikaci jsme pracovali na Katedře kybernetiky Západočeské univerzity v Plzni: já, Martin Bulín, Pavel Ircing, Adam Frémund a Filip Polák. Využívali jsme nahrávky dostupné přes Centrum vizuální historie Malach na Univerzitě Karlově a řešili jsme velmi praktickou otázku: jak se v dlouhém svědectví dostat k pasáži, kterou člověk opravdu hledá.
Pro mě bylo hlavním návrhovým omezením zachovat respekt k nahrávkám. Svědectví jsou citlivý materiál a každá technická vrstva kolem nich má lidem pomoci procházet původní řeč, aniž by zplošťovala její význam. Generované otázky jsou v tom užitečné jako orientační body: dovedou uživatele k pasáži, zatímco odpověď zůstává ukotvená v původním audiu a videu.
Pro tento materiál dával smysl doménově zaměřený rozpoznávač řeči. Svědectví pamětníků holokaustu obsahují starší mluvčí, nepůvodní výslovnost, emoce, historickou slovní zásobu a jazykový rejstřík odlišný od obecných webových dat. V takových podmínkách je důležité měřit systém přímo na cílovém materiálu a mít zpracování pod kontrolou.
Pozdější rozhraní se sémantickým vyhledáváním přidalo další užitečný krok: uživatel položí otázku a dostane pasáže významově blízké dotazu. Stránka CLARIN odkazuje veřejné demo i ukázky kódu, takže zároveň vede k materiálům, které lze prohlédnout a vyzkoušet.
Praktický cíl zůstává jednoduchý: položit otázku, dostat se ke správnému místu v dlouhé nahrávce a pustit si odpověď přímo z původního svědectví.
Odkazy
- State-of-the-Art Speech Recognition for Understanding Oral Histories: CLARIN impact story publikovaná 13. července 2023 o rozpoznávání řeči, Semantic Search a frameworku Asking Questions pro orálněhistorické archivy.
- Demo Semantic Search / Asking Questions: Veřejné demo rozhraní pro procházení nahrávek orálněhistorických svědectví pomocí generovaných otázek a sémantického vyhledávání.
- Ukázky kódu Semantic Search: Repozitář s ukázkami kódu navázanými na aplikaci Semantic Search / Asking Questions.
- Video představující framework Asking Questions: Úvodní video odkazované z CLARIN impact story a ukazující hlavní funkce aplikace.
- Innovative Tool Transforms the Use of Voice Technology: Související článek na tomto webu o UWebASR a praktické infrastruktuře pro hlasové technologie.