Toto je tzv. shluknutý kurz. Skládá se z několika samostatných předmětů, které sdílejí výukové materiály, úkoly, testy apod. Níže si můžete zobrazit informace o jednotlivých předmětech tvořících tento shluk.

Zpracování řeči - B2M31ZRE

Hlavní kurz
Kredity 6
Semestry letní
Zakončení zápočet a zkouška
Jazyk výuky čeština
Rozsah výuky 2P+2C
Anotace
Předmět je zaměřen na problematiku zpracování řečových signálů. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví, kde nejvýznamnější aplikace jsou informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, automatický hlasový výstup. V rámci předmětu studenti se studenti seznámí se základními algoritmy analýzy řeči (spektrální analýza, LPC, kepstrální reprezentace, základní tón, formanty, apod.), principy rozpoznávání řeči (GMM-HMM, ANN-HMM systémy, rozpoznávače s malým i velkým slovníkem), s rozpoznáváním řečníka (na bázi GMM či VQ), se syntézou řeči či zvýrazňováním řeči snímané v hlučném prostředí. Další informace lze nalézt na http://noel.feld.cvut.cz/vyu/a2m31zre. Pro zapsané studenty jsou detailní informace na výukovém portálu Moodle FEL.
Cíle studia
Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro analýzu řečového signálu.  
Osnovy přednášek
1. Úvod - model vzniku a vnímání řeči, základní charakteristiky (fonetické a artikulační aspekty)
2. Spektrální charakteristiky řečového signálu (DFT a LPC spektrum).
3. Kepstrální reprezentace řeči. Příznaky pro rozpoznávání. Detekce řečové aktivity.
4. Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy.
5. Základní rozpoznávací úlohy a používané techniky (GMM, HMM, VQ, ANN, DNN)
6. Verifikace a identifikace mluvčího. Rozpoznávání jazyka.
7. Rozpoznávání řeči s malým a velkým slovníkem (DTW, GMM-HMM, LVCSR, nástroje HTK a KALDI).
8. Moderní systémy LVCSR (DNN-HMM). Adaptační techniky v rozpoznávání řeči. Speciální parametrizace.
9. Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA).
10. Audio-visuální rozpoznávání řeči.
11. Kódování řeči
12. Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči.
13. Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků).
14. Databáze pro hlasové technologie. Rezerva.
Osnovy cvičení
1. Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů
2. Základní časové a spektrální charakteristiky řeči
3. Odhad základního tónu řeči
4. LPC spektrum a odhad formantů
5. Kepstrum a kepstrální vzdálenost: detekci řečových úseků
6. Základní klasifikační metody (GMM, VQ, HMM): klasifikace samohlásek
7. Verifikace mluvčího na bázi VQ
8. Identifikace mluvčího na bázi GMM
9. Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov
10. Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem
11. Potlačování aditivního šumu v řečovém signálu
12. Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace
13. Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů
14. Rezerva. Zápočty
Literatura
[1] Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007.
[2] Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006.
[3] Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001.
Požadavky
Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.

Zpracování řeči - A2M31ZRE

Kredity 6
Semestry zimní
Zakončení zápočet a zkouška
Jazyk výuky čeština
Rozsah výuky 2P+2C
Anotace
Předmět je zaměřen na seznámení studentů magisterského studia s problematikou zpracování řečových signálů se zaměřením na použití v multimediálních aplikacích. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví (informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, apod.). Další informace lze nalézt na http://noel.feld.cvut.cz/vyu/a2m31zre . Pro zapsané studenty jsou detailní informace na výukovém portálu http://moodle.kme.feld.cvut.cz . \\Výsledek studentské ankety předmětu je zde: http://www.fel.cvut.cz/anketa/aktualni/courses/A2M31ZRE
Cíle studia
Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro různé analýzy řečového signálu. V rámci domácí přípravy studenti zpracují semestrální práci, kterou budou prezentovat na cvičení podle plánovaného harmonogramu.
Osnovy přednášek
1. Úvod - řečový signál (digitální reprezentace), model vzniku řeči
2. Základní charakteristiky řečového signálu včetně fonetických a artikulačních aspektů
3. Spektrální charakteristiky řečového signálu (DFT a LPC spektrum)
4. Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy
5. Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči
6. Principy rozpoznávání řeči, základní úlohy a jejich aplikace
7. Extrakce příznaků pro účely rozpoznávání řeči
8. Rozpoznávání řeči na bázi DTW a HMM s malým slovníkem (HTK)
9. Diktovací a transkripční systémy (rozpoznávání spojité řeči s velkým slovníkem)
10. Rozpoznávání mluvčího: verifikace a identifikace.
11. Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA)
12. Audio-visuální rozpoznávání řeči
13. Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků)
14. Rozpoznávání jazyka. Rezerva
Osnovy cvičení
1. Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů
2. Základní časové charakteristiky: energie, intenzita, průchody nulou, základní tón
3. Spektrální charakteristiky: krátkodobé DFT a LPC spektrum, spektrogram
4. Potlačování aditivního šumu v řečovém signálu
5. Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace
6. Zpracování řeči pro sluchové pomůcky a náhrady
7. Kepstrum a kepstrální vzdálenost: detekci řečových úseků, příznaky pro rozpoznávání
8. Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov
9. Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem
10. Verifikace mluvčího na bázi GMM
11. Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů
12. Prezentace semestrálních prací
13. Prezentace semestrálních prací
14. Rezerva. Zápočty
Literatura
[1] Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007.
[2] Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006.
[3] Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001.
Požadavky
Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.

Zpracování řeči - AD2M31ZRE

Kredity 6
Semestry zimní
Zakončení zápočet a zkouška
Jazyk výuky čeština
Rozsah výuky 14KP+6KC
Anotace
Předmět je zaměřen na seznámení studentů magisterského studia s problematikou zpracování řečových signálů se zaměřením na použití v multimediálních aplikacích. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví (informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, apod.). Další informace lze nalézt na http://noel.feld.cvut.cz/vyu/ad2m31zre . Pro zapsané studenty jsou detailní informace na výukovém portálu http://moodle.kme.feld.cvut.cz . \\Výsledek studentské ankety předmětu je zde: http://www.fel.cvut.cz/anketa/aktualni/courses/AD2M31ZRE
Cíle studia
Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro různé analýzy řečového signálu. V rámci domácí přípravy studenti zpracují semestrální práci, kterou budou prezentovat na cvičení podle plánovaného harmonogramu.
Osnovy přednášek
1. Úvod - řečový signál (digitální reprezentace), model vzniku řeči
2. Základní charakteristiky řečového signálu včetně fonetických a artikulačních aspektů
3. Spektrální charakteristiky řečového signálu (DFT a LPC spektrum)
4. Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy
5. Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči
6. Principy rozpoznávání řeči, základní úlohy a jejich aplikace
7. Extrakce příznaků pro účely rozpoznávání řeči
8. Rozpoznávání řeči na bázi DTW a HMM s malým slovníkem (HTK)
9. Diktovací a transkripční systémy (rozpoznávání spojité řeči s velkým slovníkem)
10. Rozpoznávání mluvčího: verifikace a identifikace.
11. Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA)
12. Audio-visuální rozpoznávání řeči
13. Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků)
14. Rozpoznávání jazyka. Rezerva
Osnovy cvičení
1. Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů
2. Základní časové charakteristiky: energie, intenzita, průchody nulou, základní tón
3. Spektrální charakteristiky: krátkodobé DFT a LPC spektrum, spektrogram
4. Potlačování aditivního šumu v řečovém signálu
5. Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace
6. Zpracování řeči pro sluchové pomůcky a náhrady
7. Kepstrum a kepstrální vzdálenost: detekci řečových úseků, příznaky pro rozpoznávání
8. Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov
9. Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem
10. Verifikace mluvčího na bázi GMM
11. Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů
12. Prezentace semestrálních prací
13. Prezentace semestrálních prací
14. Rezerva. Zápočty
Literatura
[1] Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007.
[2] Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006.
[3] Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001.
Požadavky
Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.