BME VIK - Hang- és beszédfelismerési technológiák

vissza a tantárgylistához nyomtatható verzió

Hang- és beszédfelismerési technológiák

A tantárgy angol neve: Sound and Speech Recognition Technologies

Adatlap utolsó módosítása: 2016. március 28.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki szak
Mérnökinformatikus szak
Gazdaságinformatikus szak
Egészségügyi mérnöki szak

Tantárgykód	Szemeszter	Követelmények	Kredit	Tantárgyfélév
VITMAV46		2/2/0/v	4

3. A tantárgyfelelős személy és tanszék Dr. Mihajlik Péter,

4. A tantárgy előadója

Név:	Beosztás:	Tanszék, Int.:
Dr. Mihajlik Péter	Egyetemi adjunktus	BME-TMIT
Dr. Szaszák György	Tudományos munkatárs	BME-TMIT
Tarján Balázs	Tanszéki mérnök	BME-TMIT

7. A tantárgy célkitűzése A hang- és beszédfelismerés a 21. század megkerülhetetlen technológiái, melyek kialakulásához számos tudományág járult hozzá. A tárgy alapelvei a mérnöki gyakorlatban egyre nagyobb súllyal, egyre sokrétűbb hasznosítási lehetőségekkel jelennek meg. A kurzus célja, hogy a szükséges elméletet mérnöki, problémamegoldási szemlélettel tárgyalva olyan, nemzetközi szinten ill. a gyakorlatban is használható tudást adjon, amivel akár konkrét, pl. hangazonosító vagy zenefelismerő alkalmazások valósíthatók meg. A legnagyobb súllyal a gépi beszéd-szöveg átalakítás szerepel; a kurzus elvégzésével a hallgató képessé válik a komplex beszédfelismerő rendszerek alkalmazására, adott feladatra és nyelvre történő adaptálására. A megszerzett tudás ezen felül számos egyéb területen kamatoztatható, mint például általános mintázatfelismerés, nyelvtechnológia és szövegfeldolgozás, vagy tudásforrás-integráció. A kurzus során lehetőség van a saját laptop használatára, nyílt forráskódú nyelv- és beszédtechnológiai eszközök megismerésére. Az ismeretek elmélyítését célzott feladatokkal segítjük.

8. A tantárgy részletes tematikája Az előadásokon túl a tananyagot esettanulmányokkal és laptopos interaktív feladatmegoldással színesítve tárgyaljuk, mely gyakorlati alkalmak időzítése az elmélethez illeszkedik. Alább külön kigyűjtöttük az esettanulmányok és feladatmegoldások témaköreit (rövidítésjegyzék a végén).

Esettanulmányok:

Hogyan működik a Shazam? Miben más a SoundHound?

A Google, Microsoft beszédfelismerő technológiái (illetve ezekből amit tudni lehet), a crowd-sourcing alkalmazása a beszédfelismerésnél.

Hangvezérlés és virtuális személyi asszisztensek. Nagy vagy kis “testvér”?

A televíziós műsorok élő, gépi feliratozásának kihívásai, MTVA-s tapasztalatok.

A diktálórendszerek jelene és jövője - Nuance és alternatívái.

Beszédfelismerés és adat- (szöveg)bányászat konkrét call center monitorozási példán keresztül.

Laptopos feladatmegoldások:

Különböző hangforrások spektrogramjának (frekvencia-idő-intenzitás képének) jellegzetességei, összehasonlítása

Zene és szignálfelismerés nyílt forráskódú eszközökkel

Izolált szavas beszédfelismerés dinamikus idővetemítéssel

GMM-alapú hangmodellek (akusztikus modellek) tanítása nyílt forráskódú eszközökkel (Cambridge Hidden Markov-Modell Toolkit)

Hangmodellezés mély neurális hálózatok (DNN) segítségével (Kaldi)

Tudásforrások integrációja OpenFST segítésével

Count- és RNN-alapú nyelvi modellezés nyílt forráskódú eszközökkel (Stanford Research Institute Language Modeling Toolkit, RWTH Language Modeling Toolkit)

Törzsanyag:

1. hét: Bevezetés

A hang, mint hangnyomás-idő függvény leírása, kezelése, osztályozása (pl. tranziens, stacionárius, kvázi-periodikus) és jellemzői (érzeti, fizikai). A felismerési feladatok (pl. szignál, reklám, zene, zaj, beszéd felismerése). A hangnyomás-idő függvény reprezentációja: az STFT szükségessége, ablakozás szerepe, spektrogramm.

2-3. hét: Szignál és zeneszámfelismerés

Szignálfelismerés, lineáris időillesztés, spektrális távolság számítása, keresés adatfolyamban (stream-ben), első- és másodfajú hiba. A valós idejű mintaillesztés kihívásai, additív zaj, lineáris és nemlineáris torzítás hatásai, interferencia-jellegű zavarás és ezek kezelésének lehetőségei. Zeneszám/reklám felismerés. Akusztikai ujjlenyomat (Acoustic Fingerprint) fogalma és módszerei.

4-5. hét: Időbeli vagy hangszínbeli változatosság kezelése

Dinamikus idővetemítés szükségessége és alapelve. Akusztikai lényegkiemelések, érzeti frekvenciaskálák (Mel, Bark, Gammatone), érzeti hangerősség skálák. Matematikai lényegkiemelések alkalmazói szinten: PCA, DCT, LDA. Statisztikai modellezés és a mintaillesztés alapmódszerei és szükségessége (spektrális variabilitás kezelése). Folytonos valószínűségsűrűség-függvény alkalmazása hasonlósági mérték számítására.

6-7. hét: A beszédfelismerés alapjai

Időbeliség és spektrális változékonyság együttes kezelése HMM-GMM rendszerrel. Modellparaméterek ML becslése, felismerés Viterbi algoritmussal. A beszédfelismerés MAP alapegyenlete. Akusztikus, lexikális és nyelvi modellek, beszédfelismerési modellhierarchia. A valós idejű beszédfelismerés kihívásai, részleges és optimalizált Viterbi-dekódolás. A felismerési eredmények kiértékelése, mértékei. Beszéd- és hangfelismerési konfidencia elve és gyakorlati számítása.

8-9. hét: A beszéd-szöveg átalakítás speciális technikái

Felismerési hálózatépítés és optimalizálás (tudásforrás-integráció) WFST alapon. A beszédhangok egymásra hatása, a koartikuláció kezelése és szintjei. Fonéma és graféma alapú környezetfüggő modellezés bináris ML döntési-fákkal. Graféma-fonéma átalakítás. A nyelvmodellezés kihívásai. Magasabb fokszámú n-gram modellek, simítási módszerek, implementációs kérdések. Morféma-szerű nyelvi egységek alkalmazása. OOV modellezés, osztály n-gramok.

10-11. hét: Hibacsökkentés adaptációval és diszkriminatív tanítással

Az adaptáció szerepe és típusai a beszédfelismerésben. Regressziós (MLLR) és részleges újratanításon (MAP) alapuló technikák. Modell- és jellemzőtérbeli (feature-space) adaptáció. Beszélőnormalizálási technikák. SAT (beszélőadaptív tanítás). Diszkriminatívan tanított akusztikus modellek. MMI és MPE hibaminimalizálás.

12-13. hét: A “Deep learning” beszédfelismerési alkalmazásai

GMM vs. MLP modellek. Mitől javultak meg a mesterséges neuronháló alapú modellek? Tandem, bottleneck és hibrid architektúrák. Mély tanulás a beszédfelismerésre alkalmazva, DNN és válfajai, tanításuk. Diszkriminatív nyelvi modellek, LSTM, RNN alkalmazása. End-to-end speech recognition: a gépi (mély) tanulás mindent visz? Félig felügyelt és felügyelet nélküli tanítás a beszédfelismerésben.

14. hét: A beszéd egyéb modalitásainak felismerése, alkalmazások

Beszélő felismerése. Verifikáció és az UBM alkalmazása, felügyelet nélküli beszélőszegmentálás, diarizáció. Visszacsatolás a beszédfelismerésbe. A hanglejtés és ritmika felismerése és használata a beszédfelismerésnél. Nyelvek közötti hordozhatóság. Nyelvfelismerés hangból. A hang- és beszédfelismerés alkalmazásai, médiamonitorozás, diktáló rendszerek.

Rövidítésjegyzék:

DCT: Discrete Cosine Transform

DNN: Deep Neural Network

FST: Finite State Transducer

GMM: Gaussian Mixture Model

HMM: Hidden Markov Model

LDA: Linear Discriminant Analysis

LSTM: Long-Short Term Memory

MAP: Maximum A Posteriory

ML: Maximum Likelihood

MLP: Multi Layer Perceptron

MLLR: Maximum Likelihood Linear Regression

MMI: Maximum Mutual Information

MPE: Minimum Phone Error

MTVA: Médiaszolgáltatás-támogató és Vagyonkezelő Alap

OOV: Out of Vocabulary

PCA: Principal Component Analysis

RNN: Recurrent Neural Network

RWTH: Rhein-Westfalische Technishe Hochshule

SAT: Speaker Adaptive Training

STFT: Short Time Fourier Transform

UBM: Universal Bakground Model

WFST: Weighted Finite State Transducers

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Tantermi előadás és gyakorlat.

10. Követelmények

a.) A szorgalmi időszakban: aláírás. Feltétele egy kijelölt, illetve személyre szabott házi feladat megfelelő szintű kidolgozása, amely lehet többek között egy hang- ill. beszédfelismerési probléma megoldása vagy szakirodalom feldolgozása.

b.) A vizsgaidőszakban: szóbeli vizsga választott tétel alapján.

c.) Elővizsga: van, feltétele az időben megszerzett aláírás.

11. Pótlási lehetőségek A házi feladat a pótlási héten, különeljárási díj ellenében pótolható.

12. Konzultációs lehetőségek Az előadókkal egyeztetve.

13. Jegyzet, tankönyv, felhasználható irodalom Dong Yu and Li Deng (2015) Automatic Speech Recognition - A Deep Learning Approach. Springer, London

Mark Gales and Steve Young (2008), The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in Signal Processing: Vol. 1: No. 3, pp 195-304

Rabiner, L., Juang, B-H., (1993) Fundamentals of Speech Recognition. Prentice Hall, New Jersey

Németh G, Olaszy G. (szerk.) (2010) A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek. Akadémiai Kiadó, Budapest

Duda, R. O., Hart, P. E., Stork, D. G.. (2001) Pattern Classification. John Wiley & Sons, New York

(A fenti jegyzeteken túl a tárgy weboldalán további elektronikus segédanyagok érhetőek el.)

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

Kontakt óra	56
Félévközi készülés órákra
Felkészülés zárthelyire
Házi feladat elkészítése	24
Kijelölt írásos tananyag elsajátítása
Vizsgafelkészülés	40
Összesen	120

15. A tantárgy tematikáját kidolgozta

Név:	Beosztás:	Tanszék, Int.:
Dr. Mihajlik Péter	Egyetemi adjunktus	BME-TMIT
Dr. Szaszák György	Tudományos munkatárs	BME-TMIT
Tarján Balázs	Tanszéki mérnök	BME-TMIT
Fegyó Tibor	Tudományos segédmunkatárs	BME-TMIT

Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

Hang- és beszédfelismerési technológiák