Speech Processing

B242 - Letní 24/25

Toto je tzv. shluknutý kurz. Skládá se z několika samostatných předmětů, které sdílejí výukové materiály, úkoly, testy apod. Níže si můžete zobrazit informace o jednotlivých předmětech tvořících tento shluk.

B2M31ZRE BE2M31ZRE

Zpracování řeči - B2M31ZRE

Hlavní kurz

Kredity	6
Semestry	letní
Zakončení	Zápočet a zkouška
Jazyk výuky	čeština
Rozsah výuky	2P+2C

Anotace

Předmět je zaměřen na problematiku zpracování řečových signálů. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví, kde nejvýznamnější aplikace jsou informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, automatický hlasový výstup. V rámci předmětu studenti se studenti seznámí se základními algoritmy analýzy řeči (spektrální analýza, LPC, kepstrální reprezentace, základní tón, formanty, apod.), principy rozpoznávání řeči (GMM-HMM, ANN-HMM systémy, rozpoznávače s malým i velkým slovníkem), s rozpoznáváním řečníka (na bázi GMM či VQ), se syntézou řeči či zvýrazňováním řeči snímané v hlučném prostředí. Další informace lze nalézt na http://noel.feld.cvut.cz/vyu/a2m31zre. Pro zapsané studenty jsou detailní informace na výukovém portálu Moodle FEL.

Cíle studia

Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro analýzu řečového signálu.

Osnovy přednášek

1. Úvod - model vzniku a vnímání řeči, základní charakteristiky (fonetické a artikulační aspekty)
2. Spektrální charakteristiky řečového signálu (DFT a LPC spektrum).
3. Kepstrální reprezentace řeči. Příznaky pro rozpoznávání. Detekce řečové aktivity.
4. Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy.
5. Základní rozpoznávací úlohy a používané techniky (GMM, HMM, VQ, ANN, DNN)
6. Verifikace a identifikace mluvčího. Rozpoznávání jazyka.
7. Rozpoznávání řeči s malým a velkým slovníkem (DTW, GMM-HMM, LVCSR, nástroje HTK a KALDI).
8. Moderní systémy LVCSR (DNN-HMM). Adaptační techniky v rozpoznávání řeči. Speciální parametrizace.
9. Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA).
10. Audio-visuální rozpoznávání řeči.
11. Kódování řeči
12. Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči.
13. Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků).
14. Databáze pro hlasové technologie. Rezerva.

Osnovy cvičení

1. Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů
2. Základní časové a spektrální charakteristiky řeči
3. Odhad základního tónu řeči
4. LPC spektrum a odhad formantů
5. Kepstrum a kepstrální vzdálenost: detekci řečových úseků
6. Základní klasifikační metody (GMM, VQ, HMM): klasifikace samohlásek
7. Verifikace mluvčího na bázi VQ
8. Identifikace mluvčího na bázi GMM
9. Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov
10. Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem
11. Potlačování aditivního šumu v řečovém signálu
12. Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace
13. Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů
14. Rezerva. Zápočty

Literatura

[1] Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007.
[2] Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006.
[3] Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001.

Požadavky

Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.

Speech Processing - BE2M31ZRE

Kredity	6
Semestry	letní
Zakončení	Zápočet a zkouška
Jazyk výuky	angličtina
Rozsah výuky	2P+2C

Anotace

The subject is devoted to basis of speech processing addressed to students of master program. Discussed speech technology is currently applied in many systems in different fields (e.g. information dialogue systems, voice controlled devices, dictation systems or transcription of audio-video recordings, support for language teaching, etc.). Students will learn basic algorithms for speech analysis (spectral analysis, LPC, cepstral analysis, pitch, formants, etc.), principles of speech recognition (GMM-HMM, ANN-HMM systems, small and large vocabulary recognizers), speaker recognition (based on VQ and GMM), speech synthesis or speech enhancement. Further information can be found at http://noel.feld.cvut.cz/vyu/be2m31zre. Pro zapsané studenty jsou detailní informace na výukovém portálu Moodle FEL.

Cíle studia

The goals of the subject is to introduce used speech technology in the most important multimedia applications. Students should manage the knowledge as basic characteristics of speech signal, speech enhancement, speech recognition, speech synthesis, audio-visual speech processing, etc. Students will practice basic tasks of speech processing in MATLAB environment and also other publicly available tools for speech analysis will be used.

Osnovy přednášek

1. Introduction - speech production and perception model, basic characteristics (phonetic and articulatory)
2. Spectral characteristics of speech signal (DFT and LPC spectrum)
3. Cepstral reprezentation of speech. Recognition features. Voice Activity Detection.
4. Speech enahncement (additive and convolution noise, one-channel and multi-channel systems)
5. Basic classification approaches and techniques (GMM, HMM, VQ, ANN, DNN)
6. Speaker verification and identification. Language recognition.
7. Small and large vocabulary speech recognition (DTW, GMM-HMM, LVCSR, HTK and KALDI tools).
8. Modern LVCSR systems (DNN-HMM). Adaptation techniques. Advanced speech features.
9. Speech synthesis - basic principles (concatenative and formant synthesis, PSOLA)
10. Audio-visual speech recognition
11. Hearing aids and cochlear implants (anatomy and hearing model, speech processing)
12. Speech coding.
13. Multimedia systems with voice input (dialog systems, logopaedy, language teaching)
14. Databases for speech technology systems. Reserve.

Osnovy cvičení

1. Introduction: speech signal, tools for analysis, sources of speech signals
2. Basic time-domain and spectral characteristics
3. Fundamental frequency (pitch) estimaton
4. LPC spectrum and formant estimation
5. Cepstrum and cepstral distance: voice activity detection.
6. Basic classification techniques (GMM, VQ, HMM): vowel classification
7. Speaker verification based on VQ
8. Speaker identification based on GMM
9. DTW based recognition: simple recognizer of particular words
10. HMM based recognition: basic tasks and demonstration of HMM modelling
11. Suppression of additive noise in speech signal
12. Convolutory noise suppression
13. Speech synthesis: implementation of formant synthesis, demonstration of available tools
14. Reserve. Credits

Literatura

[1] Rabiner, L., Schafer, R. W.: Introduction to Digital Speech Processing Foundations and Trends in Signal Processing). Now Publishers Inc, 2007.
[2] Huang, X., Acero, A., Hon, H.-W.: Spoken Language Processing. Prentice Hall, 2001.
[3] Deller Jr., J. R., Hansen, J. H. L., Proakis, J. G.: Discrete-time Processing of Speech Signals. Wiley, 2000.
[4] McLoughlin, I.: Applied Speech and audio Processing: With Matlab Examples. Cambridge University Press, 2009.
[5] Jelinek, F.: Statistical Methods for Speech Recognition (Language, Speech, and Communication). The MIT Press, 1998.
[6] ITU-T Recommendations - http://www.itu.int/ITU-T

Požadavky

Bases of digital signal processing are supposed as preliminary knowledge.