
Technologie vyvinuté na Západočeské univerzitě v Plzni umožňují automatický přepis a vyhledávání obsahů ve zvukových archivech, včetně svědectví o holocaustu. Výzkumníci díky tomu snižují chybovost a usnadňují přístup k historickým nahrávkám.
Technologie vědců ze Západočeské univerzity v Plzni (ZČU) na Fakultě aplikovaných věd vyvíjejí systémy pro automatický přepis a vyhledávání obsahu v rozsáhlých zvukových archivech. Tyto nástroje usnadňují práci historikům i široké veřejnosti a umožňují zpřístupnit tisíce nahrávek orální historie, včetně svědectví o holocaustu.
Systémy rozpoznávání řeči z Katedry kybernetiky a výzkumného centra NTIS postupně zlepšily chybovost z původních zhruba 40 % na kolem 10 %. Kromě přepisu vyvinuli odborníci i vyhledávání, které umí najít slovo v různých tvarech, foneticky podobné výrazy i obsahově související pasáže.
V nejnovější verzi funguje takzvané sémantické vyhledávání, které dokáže najít úseky relevantní k dotazu, i když se v nahrávce konkrétní slovo vůbec nevysloví.Jan Švec
Práce vědců má široké uplatnění nejen při zpřístupňování historických archivů, ale i v oblastech, jako jsou podcasty, zpravodajství či práce s naskenovanými dokumenty.
Rozvoj těchto technologií odstartovala účast plzeňských odborníků v projektu MALACH (Multilingual Access to Large Spoken Archives) v roce 2005. Cílem bylo vyvinout nástroje pro rozpoznávání řeči a vyhledávání informací pro ohromné množství nahrávek, které shromáždili terénní pracovníci nadace založené Stevenem Spielbergem po dokončení jeho slavného filmu Schindlerův seznam.
Odborníci z FAV tehdy pracovali na systémech pro automatický přepis nahrávek ve slovanských jazycích a maďarštině. Výzkum pokračoval, i když na konci projektu nebylo dosaženo všech uspokojivých výsledků vzhledem k výzvám spojeným s různou výslovností a přízvuky v 115 tisících hodinách nahrávek v 32 jazycích.
Na výroční konference evropské infrastruktury CLARIN v Vídni pak Pavel Ircing a Jan Švec převzali ocenění Steven Krauwer Award za jejich dlouhodobou práci na vývoji pokročilých technologií zpracování řeči.
Vysokoškolské zázemí ZČU a spolupráce mezi katedrou kybernetiky a NTIS tak potvrzují význam výzkumu, který umožňuje zpřístupnit historická svědectví široké veřejnosti a zároveň nachází uplatnění v moderním zpravodajství, podcastové tvorbě a digitalizaci dokumentů.
Zdroj: REGIONPLZEN.CZ