V Brně skupina zpracování řeči
Speech@FIT na Ústavu počítačové
grafiky a multimédií Fakulty informačních
technologií VUT potvrdila
nedávno své špičkové postavení v analýze
a rozpoznávání mluvené řeči.
V prestižních evaluacích pořádaných
americkým Národním úřadem pro
standardizaci a technologie (National
Institute of Standards and Technology
- NIST) se brněnská skupina po dvou
letech znovu umístila mezi předními
světovými pracovišti (pravidla zakazují
zveřejnit přesné pořadí účastníků). Na
workshopu pořádaném v Orlandu na
Floridě byla navíc oceněna nejen za své
opakované úspěchy, ale i za příspěvek
k mezinárodní spolupráci v oboru.
Programy vyvinuté brněnskými odborníky
pro rozpoznávání jazyka a mluvčího
využívají bezpečnostní a zpravodajské
služby i armáda. Podle vedoucího
skupiny Jana Černockého může jejich
software vytřídit z obrovského množství
nahrávek v různých jazycích právě ty,
které zpravodajce zajímají. Toho je možné
dobře využít v boji s mezinárodním
terorismem. Nahrávky lze třídit podle
klíčových slov - když se např. mluví
o teroristických akcích, nebo také podle
toho, kdo a jakým jazykem mluví – ve
zpravodajských databázích jsou již dnes
zaznamenány hlasy stovek osob činných
v teroristických organizacích.
NIST, který je agenturou vlády USA,
pořádá každoročně evaluace různých
technologií zpracování řeči, jako je rozpoznávání,
identifikace mluvčího, strojový
překlad atd.
Před evaluací je známa pouze metodologie
vyhodnocení výsledků, a je k dispozici
tzv. development data-set, na kterém
mají participující laboratoře možnost ověřit
si své algoritmy. Vlastní evaluace probíhá
v přesně daném čase (obvykle dva
týdny), na jehož začátku obdrží všichni
neznámá data – krátké sekvence nahrávek
cizí řeči; do konce soutěžního období
pak musí odeslat výsledky, které NIST
pak vyhodnotí a následuje workshop
konaný v USA, kde jsou vyhlášeny
výsledky a probírány technologie použité
v jednotlivých systémech.
Skupina Speech@FIT se věnuje analýze
a rozpoznávání mluvené řeči již
několik let – na VUT vznikla v roce
1997. „Vytváříme například programy,
které umí převést mluvené slovo do psané
podoby. Nebo ve skupině nahrávek
najít úseky, v nichž se vyskytuje určité
klíčové slovo,” říká vedoucí skupiny
docent Jan Černocký.
Co všechno se dá v řeči podle něj
rozpoznávat?
l „Co bylo řečeno“ – toto je úkolem
rozpoznávání řeči. U celkového přepisu
hovoříme většinou o rozpoznávání
plynulé řeči s velkým slovníkem (large
vocabulary continuous speech recognition
- LVCSR). Je možné se ale zaměřit
jen na určitá klíčová slova nebo klíčové
fráze.
l „Jakou řečí se mluví“ - je řešeno rozpoznáváním
jazyka.
l „Kdo to řekl“ - je úkolem rozpoznávání
mluvčího. Výběr jednoho mluvčího
z množiny se nazývá identifikací mluvčího,
ověření předpokládané identity pak
verifikací..
„Všechny uvedené řečové aplikace
jsou vysoce zajímavé pro složky zajišťující
bezpečnost a obranu. Speech@FIT
již dlouhodobě spolupracuje s Ministerstvem
obrany ČR, ale zájem o její algoritmy
a software je i ze zahraničí. Není překvapující,
že NIST evaluace i workshop
sponzoruje americké Ministerstvo
obrany a zpravodajské služby,“ dodává
Černocký. Identifikace mluvčího na
základě vzorku výšky jeho hlasu či intonace
může sloužit ovšem také v civilním
sektoru – např. k bezpečnějším výběrům
z bankomatu nebo třeba usnadní operátorům
v telefonních centrech již po několika
sekundách rozpoznat notorického
stěžovatele.
V evaluační soutěži NIST měli brněnští
specialisté rozlišit celkem 12 cizích
řečí, a to včetně čínštiny, tamilštiny,
arabštiny, korejštiny, bengálštiny nebo
japonštiny. „Náš program správně určil
97 procent nahrávek,” pochlubil se
vědecký ředitel skupiny Lukáš Burget.
Počet nahrávek, u nichž měli jednotlivé
skupiny specialistů určit jazyk, v němž
jsou namluvené, přitom přesáhl 10 000.
Některé sekvence trvaly půl minuty,
jiné jen několik sekund. Odborníkům
navíc komplikovaly práci záznamy, na
kterých mluvčí nemluvili svou rodnou
řečí, ale jazykem, který jim byl cizí.
„Náš program se například nedokázal
vyrovnat s ukázkou, na níž hovořil anglicky
Ind se silným přízvukem – určil
ji chybně za hindštinu,” poznamenal
Ondřej Glembek.
Samotný počítačový program jazykům
nerozumí. Na základě testovacích dat ve
formě několika set krátkých nahrávek
v jednom jazyce je ale schopen vytvořit
soubor jeho typických parametrů. „Zkoumá
například artikulační trakt – postavení
mluvidel a hlasivek nebo intonaci typickou
pro daný jazyk. Druhým způsobem
je rozložení projevu na jednotlivé hlásky
a statistické sledování jejich pravidelných
posloupností ve dvojicích či ve trojicích,“
vysvětlil Lukáš Burget. Aby se program
naučil rozeznávat určitý jazyk, musí
mít k dispozici dostatek odpovídajících
nahrávek. Ty vědci získávají z mezinárodních
databází nebo si je vyměňují
s jinými výzkumníky.
V samotném rozpoznávání jazyka
podle Burgeta příliš velké rozdíly nejsou,
špičky v oboru ale dokážou lépe eliminovat
komunikační šumy.
Na workshopu v Orlandu byla skupina
Speech@FIT jako jeden z nejlepších
účastníků vyzvána nejen k detailní prezentaci
svého systému, ale také několikrát
zmiňována jako skupina, která přispěla
k mezinárodní spolupráci v rozpoznávání
jazyka. Několik výzkumných skupin
z různých kontinentů použilo s úspěchem
fonémový rozpoznávač, vyvinutý
výzkumníkem Speech@FIT Petrem
Schwarzem.
Aktivity skupiny Speech@FIT (nejen
v rozpoznávání jazyka) jsou integrovány
ve výzkumném záměru MŠMT
ČR „Výzkum informačních technologií
z hlediska bezpečnosti“, řešeném na FIT.
Společně s dalšími českými laboratořemi
zabývajícími se zpracováním řeči se Speech@
FIT účastní projektu „Překlenutí
jazykové bariéry, komplikující vyšetřování
financování terorismu a závažné
finanční kriminality“, který je sponzorován
Ministerstvem vnitra ČR. Speech@
FIT je rovněž podporována několika
evropskými výzkumnými projekty
(6. a 7. rámcový program). Roční rozpočet
20členné výzkumné skupiny složené
z pedagogů, doktorandů i studentů FIT
činí téměř 10 mil. Kč. l Igor Maukš