Dlouhé orálněhistorické nahrávky jsou bohaté historické prameny, jejich délka a struktura však ztěžují vyhledávání i další využití. CLARIN 13. července 2023 publikoval impact story State-of-the-Art Speech Recognition for Understanding Oral Histories, která představuje framework Semantic Search / Asking Questions postavený na rozpoznávání řeči, generovaných otázkách a sémantickém vyhledávání. Praktický cíl je pomoct výzkumníkům i návštěvníkům položit otázku, najít relevantní pasáž a pustit si odpověď přímo z původního svědectví.

Dlouhé rozhovory jsou cenné právě tím, že uchovávají detail, váhání i kontext. Ze stejných důvodů se v nich špatně vyhledává, cituje a znovu pracuje s jejich obsahem. CLARIN impact story State-of-the-Art Speech Recognition for Understanding Oral Histories představuje jeden ze způsobů, jak se tomuto problému věnuji: rozpoznávání řeči propojené s generovanými otázkami a sémantickým vyhledáváním.

CLARIN text publikoval 13. července 2023. Popisuje Semantic Search / Asking Questions jako framework pro procházení dlouhých orálněhistorických nahrávek pomocí předem generovaných otázek s časovými značkami. Uživatel nemusí odhadovat přesné slovo, které má v archivu hledat; rozhraní mu pomáhá pohybovat se ve svědectví podle významu, kontextu a struktury rozhovoru.

Na aplikaci jsme pracovali na Katedře kybernetiky Západočeské univerzity v Plzni: já, Martin Bulín, Pavel Ircing, Adam Frémund a Filip Polák. Využívali jsme nahrávky dostupné přes Centrum vizuální historie Malach na Univerzitě Karlově a řešili jsme velmi praktickou otázku: jak se v dlouhém svědectví dostat k pasáži, kterou člověk opravdu hledá.

Pro mě bylo hlavním návrhovým omezením zachovat respekt k nahrávkám. Svědectví jsou citlivý materiál a každá technická vrstva kolem nich má lidem pomoci procházet původní řeč, aniž by zplošťovala její význam. Generované otázky jsou v tom užitečné jako orientační body: dovedou uživatele k pasáži, zatímco odpověď zůstává ukotvená v původním audiu a videu.

Pro tento materiál dával smysl doménově zaměřený rozpoznávač řeči. Svědectví pamětníků holokaustu obsahují starší mluvčí, nepůvodní výslovnost, emoce, historickou slovní zásobu a jazykový rejstřík odlišný od obecných webových dat. V takových podmínkách je důležité měřit systém přímo na cílovém materiálu a mít zpracování pod kontrolou.

Pozdější rozhraní se sémantickým vyhledáváním přidalo další užitečný krok: uživatel položí otázku a dostane pasáže významově blízké dotazu. Stránka CLARIN odkazuje veřejné demo i ukázky kódu, takže zároveň vede k materiálům, které lze prohlédnout a vyzkoušet.

Praktický cíl zůstává jednoduchý: položit otázku, dostat se ke správnému místu v dlouhé nahrávce a pustit si odpověď přímo z původního svědectví.

Screenshot rozhraní Semantic Search / Asking Questions s videem svědectví, metadaty a generovanými otázkami s časovými značkami
CLARIN impact story použila tento screenshot k ukázce rozhraní Semantic Search / Asking Questions pro procházení orálněhistorických nahrávek.

Odkazy

Číst dále