Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Beszédbányászat

    A tantárgy angol neve: Speech Mining

    Adatlap utolsó módosítása: 2012. április 16.

    Tantárgy lejárati dátuma: 2015. június 30.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki szak
    Mérnök informatikus szak
    Szabadon választható tárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAV11   2/0/0/v 2  
    3. A tantárgyfelelős személy és tanszék Dr. Mihajlik Péter,
    A tantárgy tanszéki weboldala http://alpha.tmit.bme.hu/~mihajlik/vitmav11
    4. A tantárgy előadója
    Név:
     Beosztás:
    Tanszék:
    Mihajlik Péter, PhD
    egyetemi adjunktus
    BME-TMIT
    Fegyó Tibor
    tud. s. munkatárs
    BME-TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít Egyetemi matematikai alapképzés, programozási alapismeretek.
    6. Előtanulmányi rend
    Ajánlott:
    Nincs. Tematikaütközés más tárgyakkal: nincs ilyen.
    7. A tantárgy célkitűzése A tárgy célja áttekintést nyújtani a beszédbányászati módszerekről, bevezetni az érdeklődőket egy olyan technológiába, mellyel különféle hang-, ill. audiovizuális adatbázisokból értékes tartalmi információk nyerhetők ki. Az alapelveket szemléletes, mérnöki, alkalmazásorientált szempontból szándékozzuk bemutatni, hogy a kurzust elvégzők hatékonyan tudják használni, integrálni és adaptálni a beszédfelismerési , ill. -bányászati motorokat, alkalmazásokat.
    8. A tantárgy részletes tematikája 1. hét: Bevezetés, alapfogalmak. A beszédjel idő és frekvencia-tartománybeli leírása. A beszéd és a nyelv kapcsolata, egységei – a beszédhangok szerkezete, fonémák, koartikuláció, morfémák, szavak, mondatok. A beszédfelismerés feladata(i). Beszédfelismerés = lényegkiemelés + mintaillesztés. Házi feladat-lehetőségek kiosztása.

    2. hét: Lényegkiemelés: akusztikai információ kinyerése a hangnyomás-időfüggvényből. Gördülőspektrum, ablakozás, „zero-padding”. A rövid idejű amplitúdóspektrum érzeti transzformációi (hangosság- és hangmagasság-érzet). Házi feladatok rögzítése.

    3. hét: A lényegkiemelés továbbfejlesztése. A beszéddinamika figyelembevétele. Beszélőnormalizációs technikák. A beszédátviteli csatorna lineáris torzításának kompenzálása.

    4. hét: Mintaillesztés dinamikus idővetemítéssel (DTW): nyelvfüggetlen, beszélőfüggő, élőszóval tanítható „izolált” szavas beszédfelismerés.

    5. hét: Beszélőfüggetlen beszédfelismerés. Izolált szavas HMM (Hidden Markov-model) szemléletes származtatása. Kiejtési modellek.

    6. hét: Mintaillesztés rejtett Markov-modellekkel. Definíció és szemléltetés. A rejtett Markov-modellek alkalmazása a beszédfelismerésben. Viterbi-approximáció.

    7. hét: Folyamatos beszéd felismerése. Nyelvi modell és a beszédfelismerés alapegyenlete. Az N-gram közelítés. Nyelvi modell-paraméterek becslése szövegadatbázis alapján.

    8. hét: A koartikuláció modellezésének szükségessége. Szóbelsőben és szóhatárokon átívelő koartikuláció-modellezés. Fonetikus döntési fa és alkalmazása és variánsai.

    9. hét: A nagyszótáras folyamatos beszédfelismerés. A beszédmodellek áttekintése, nyelvi szinteknek megfeleltetés. Integrációs és optimalizációs kérdések. A WFST (Weighted Finite State Transducer) keretrendszer és gépi beszédfelismerési alkalmazása.

    10. hét: Dekódolás: az optimális felismerési útvonal hatékony közelítő számítása. Dekódolási megközelítések. Optimalizációs stratégiák, implementálási kérdések.

    11. hét: Bányászat a beszédfelismerési kimenetben. Információ-kivonatolás és -visszakeresés módszerei. "Spoken term detection".

    12. hét: A beszédfelismerő és beszédbányász rendszerek tesztelése, kiértékelése. Nyelvfüggő és nyelvfüggetlen modellezési és kiértékelés kérdések.

    13. hét: Esettanulmányok: konkrét beszédfelismerési, beszédbányászati alkalmazások. A beszédfelismerési konfidenciaszámítás szükségessége és módszerei.

    14. hét: Gyors alkalmazásfejlesztési technikák. Publikus és nyílt forráskódú fejlesztési eszközök. Kutatási és ipari (pl. Google, Nuance, Microsoft) trendek a gépi beszédfelismerésben, beszédbányászatban.
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2/2 óra előadás tanteremben. Az előadások interaktív stílusban mérnöki megközelítésre törekszenek, rendszeres élő demonstrációkkal színesítve.
    10. Követelmények a./ A szorgalmi időszakban:
    Aláírás megszerzésének feltétele: otthoni feladat, választható vagy szakirodalom-tanulmányozásból vagy önálló beszédfelismerési feladat megoldásából tanulmány saját kezű elkészítése. Terjedelem: 5-10 oldal legyen a tartalmi rész (Arial betűtípus, max 12-es fontméret, normál sortáv, hasznos saját ábra lehet benne, átvett ábra nem számít, saját kód kommenttel számít).

    Az otthoni feladat kiváló, szorgalmi időszakban történő teljesítése, valamint az előadások rendszeres aktív látogatása esetén (max. 2 hiányzás) megajánlott jegy kapható.

    b./ A vizsgaidőszakban: szóbeli vagy írásbeli vizsga
    11. Pótlási lehetőségek Az otthoni feladat különeljárási díj megfizetése mellett a pótlási időszak végéig adható le késedelmesen. Pót ill. javító vizsga a TVSZ szerint.
    12. Konzultációs lehetőségek Igény szerint, előzetes megbeszélés vagy e-mailen történő egyeztetés alapján.
    13. Jegyzet, tankönyv, felhasználható irodalom

    Rabiner, L., Juang, B-H., (1993) Fundamentals of Speech Recognition. Prentice Hall, New Jersey

    Huang, X., Acero, A., Hon, H-W. (2001) Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall, Upper Saddle River

    Duda, R. O., Hart, P. E., Stork, D. G.. (2001) Pattern Classification. John Wiley & Sons, New York

    Németh G, Olaszy G. (szerk.) (2010) A magyar beszéd: Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek. Akadémiai Kiadó, Budapest

    Gordos G., Takács Gy. (1983) Digitális beszédfeldolgozás. Műszaki Tankönyvkiadó, Budapest

    (A fenti jegyzeteken túl a tárgy weboldalán számos elektronikus segédanyag lesz elérhető.)

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra28
    Félévközi készülés órákra10
    Felkészülés zárthelyire-
    Házi feladat elkészítése12
    Kijelölt írásos tananyag elsajátítása-
    Vizsgafelkészülés10
    Összesen60
    15. A tantárgy tematikáját kidolgozta
    Név:
    Beosztás:
    Tanszék:
    Mihajlik Péter, PhD
    egyetemi adjunktus
    BME-TMIT