Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Beszédinformációs rendszerek

    A tantárgy angol neve: Speech Information Systems

    Adatlap utolsó módosítása: 2023. április 27.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    BSc, Mérnökinformatikus, kötelezően választható
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAD02   2/0/2/f 5  
    3. A tantárgyfelelős személy és tanszék Dr. Németh Géza,
    A tantárgy tanszéki weboldala http://smartlab.tmit.bme.hu/oktatas-beszedinformacios-rendszerek
    4. A tantárgy előadója Dr. Németh Géza habil. egy. doc. TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít Valószínűségszámítás alapjai
    6. Előtanulmányi rend
    Ajánlott:
    Kötelező
    Ajánlott

    7. A tantárgy célkitűzése

    Az emberi információ-kezelés és kommunikáció alapja a természetes beszédlánc (beszélő ember - levegő - hallgató ember) működése. A beszédinformációs rendszerek a természetes beszédlánc egy vagy több elemének mesterséges informatikai megvalósítását (pl. beszédfelismerés, beszédszintézis stb.) integrálják az információ gyűjtésével, tárolásával, feldolgozásával és/vagy az ahhoz való hozzáféréssel kapcsolatos folyamatokba.

    Napjainkban számos gyakorlati alkalmazásban megjelentek a nagyméretű, egyre jobban integrált és automatizált beszédinformációs rendszerek (pl. okostelefonok, TV-k, tabletek automatizált beszédfunkciói, hívásközpontok, tele-banking, mint Apple Siri asszisztens, Google Voice Search, diktáló rendszerek, beszéd- és szöveg analitika, gépi tolmácsolás).

    A tárgy célja a beszédlánc elemei mesterséges megvalósításának megismertetése és a beszéddel vezérelt és/vagy beszéddel válaszoló információs rendszerek azon eljárásainak taglalása, amelyek beszédspecifikusak. A tárgy gyakorlati példák felhasználásával mutatja be a beszédinformációs rendszerek kialakításához szükséges elméleti és gyakorlati ismereteket, az automatizáláshoz alkalmazható beszédtechnológiai eszközrendszer főbb elemeit, azok alapvető működési elveit, specifikációs jellemzőit.

    A tantárgyat sikeresen teljesítő hallgató képes lesz:

    (K1) áttekinteni, hogy milyen alapvető rendszerelemek szükségesek beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához,

    (K2) specifikációkat kidolgozni beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához,

    (K3) teszt eljárásokat tervezni és megvalósítani beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához,

    (K4) rendszerintegrációs feladatokat megoldani beszédinformációs rendszerek vagy beszédtechnológiát is alkalmazó informatikai rendszerek kialakításához.

    8. A tantárgy részletes tematikája

    1. Bevezetés


    Miért fontos a beszédtechnológia? Milyen főbb elemekből épül fel egy beszédinformációs rendszer (pl. intelligens személyi asszisztens)?


    A nyelv, a beszéd és a szöveg az emberi kommunikációban. A természetes beszédlánc elemei és működésük. Az emberi beszédkeltés, a beszédészlelés és a beszédmegértés alapfogalmai. A beszéd akusztikai szerkezetének legfontosabb jellemzői. A beszéd szintjei, redundanciája, a hordozott kiegészítő információk.


    2., 3, Elemi jelfeldolgozás, beszédkódolás és tömörítés


    A beszédkódolás szerepe a digitális beszédtárolás, valamint az infokommunikációs hálózatok rendszereiben. A beszéd továbbításához, tárolásához és elemzéséhez szükséges elemi jelfeldolgozási lépések megismerése, figyelembe véve a beszéd speciális tulajdonságait. Beszéd/csend és más akusztikus jelek megkülönböztetése. A beszédkódolás alapvető módszerei, az aktuálisan elterjedt formátumok megismerése. A kódolás hatása más beszédtechnológiai eszközökre. A kódolt beszéd minősítése (érthetőség, természetesség).


    4, Beszédválaszú rendszerek alapok


    A gépi beszédkeltés alapfogalmai (kötött, kötetlen és vegyes szókészlet). A kötött szókészletű akusztikai adatbázis tervezési szempontjai és megvalósításnak lépései. Vegyes rendszerek kialakításának indokai, megoldási lehetőségei. Nagy hanghűségű prozódia módosítási algoritmusok. Kötetlen szókészletű (text-to-speech és concept-to-speech) rendszerek felépítése, alapvető osztályai.


    5, 6 A beszéd- és szövegadatbázisok jelentősége, Szövegfeldolgozási technikák


    Adatbázisok leírása, tervezése, feldolgozási módszereik. Az akusztikus környezet szerepe. Felismerő létrehozásának fázisai megismerése. Adatbázisok Szótárkészlet Adatbázisok automatikus bővítése, adaptivitás. A prozódia szerepe. Többnyelvű rendszerek kialakítása. Fejlesztői környezetek és eszközök. Gépi tanításhoz optimalizált adatbázisok előállítása. Központozások kezelése, szöveg elő- és utófeldolgozás.


    7, 8, Fejlett beszédválaszú rendszerek


    Egységes szövegábrázolási, szövegelemzési és átalakítási feladatok és kapcsolódó adatbázisok. Kötetlen szókészletű akusztikus adatbázisok tervezési szempontjai és elkészítésük módszerei. Beszédválasz szövegkorpuszának kialakítása. Az adatbázis elkészítése, módosítása, és ezek algoritmusai. A prozódia (hangmagasság, hangerő, ritmusváltozás) jelentősége és megvalósítása. Többhangú rendszerek és automatikus hangkonverzió. Többnyelvű rendszerek. Nyelvdetekció, ékezetesítés. Egységes hangjelölési rendszerek. Fejlesztői környezetek. A rendszerek automatizált megvalósításának algoritmusai, gépi tanulás alapú megoldások.


    9, Beszéd alapú osztályozás


    A beszéd osztályozás fogalma, felhasználási területei. Hangalapú beszélőazonosítás alapfogalmai, beszélő azonosítás és igazolás, UBM, likelihood-ratio framework. Voice activity detection. Az alkalmazott eljárások matematikai alapjainak bemutatása. Az alkalmazott gépi tanulás alapú eljárások. A beszélőazonosítás felhasználása a gyakorlatban.


    10, 11 Beszédfelismerés


    A beszédfelismerés alapfogalmai és alapvető architektúrái.
    Referencia-bázisú mintaillesztés. A beszédfelismerés MAP alapegyenlete. Rejtett Markov-modellek (HMM) alkalmazása a beszéd-szöveg átalakításban. Akusztikus, kiejtési és nyelvi modellezés, tudásforrás-integráció a WFST (Weighted Finite State Transducer) keretrendszerben. Hibrid HMM-neurális és end-to-end neurális megközelítések beszédfelismerésre. CTC (Connectionist Temporal Classification) tanítás. Korszerű neurális architektúrák beszédfelismerésre. Önfelügyelt és felügyelet nélküli beszéd-szöveg átalakítási technikák. Modellek alkalmazásra szabása, finomhangolás. Szöveg írott formájának visszaállítása. Offline és online beszédfelismerés, a diktálás folyamata.


    12, Beszédinformációs rendszerek tervezésének és megvalósításának lépései.


    Tipikus alkalmazási környezetek, meghatározó alkalmazói rendszerek (pl ügyfélszolgálat automatizálás, egészségügy, rehabilitáció). A vállalati akusztikai arculat fogalma és színvonalas biztosításának módszerei.


    13, 14 Beszédfunkciók alkalmazása információs rendszerekben


    Beszéddel informáló dialógus rendszerek alapfogalmai. Rendszer vezérelt, felhasználó vezérelt és vegyes kezdeményezésű rendszerek. DTMF és beszédfelismerő alapú vezérlés beszédválaszú rendszerekben. Uni- és multimodális rendszerek. Modalitás konverzió és szerepe a globális személyes kommunikációs rendszerekben.  

    A laborok tematikája:


    1. labor: Alapvető beszédakusztika, Energia mérés, módosítás, spektrum előállítás, elemzés, F0 mérés
    2. labor: Kvantálás, mintavételezés, beszédtömörítés, beszédszerkesztés
    3. labor: Beszédszintézis
    4. labor: Beszélőazonosítás
    5. labor: Beszédfelismerés
    6. Labor: Dialógus rendszerek összeállítása (pl. chatbot)

     

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Minden héten előadás, minden második héten 4 órás labor foglalkozás.
    10. Követelmények Szorgalmi időszakban Minden labor elején kiszárthelyi. Sikertelen kiszárthelyi esetén a labor nem végezhető el. A labor végén a jegyzőkönyvet be kell adni. Ennek elfogadása bináris döntés. Sikertelen labor esetén a laborral együtt a kiszárthelyit is meg kell ismételni. A tantárgy kreditjét az a hallgató szerzi meg, aki az alábbi feltételek mindegyikét teljesíti: • Legalább öt labort sikeresen teljesített • A laborok lefutása után megtartott nagyzárthelyin legalább 40%-ot ér el. Amennyiben a laboratóriumi feltétel teljesül, a tantárgy osztályzatát a nagyzárthelyin elért pontszám határozza meg: <40%: elégtelen 40%-49%: elégséges 50%-69%: közepes 70%-84%: jó 85% és felette: jeles Vizsgaidőszakban
    11. Pótlási lehetőségek 1 labor pótolható. A nagyzárthelyi egy alkalommal pótolható.
    12. Konzultációs lehetőségek A hallgatók kérdéseikkel kereshetik az oktatókat e-levélben és az előadásokon. Ezen felül a nagyzárthelyi dolgozat és a pótlási alkalom előtt megegyezés szerint konzultációt tartunk.
    13. Jegyzet, tankönyv, felhasználható irodalom Ajánlott irodalom:
    • Németh G., Olaszy G.: A magyar beszéd, Akadémiai Kiadó, 2010,
    Letölthető: http://smartlab.tmit.bme.hu/kf-letoltheto-konyvek#magyarbeszed
    • Speech Recognition A Complete Guide - 2020 Edition, 5STARCooks, 2021, ISBN-13 ‏ : ‎ 978-1867335153
    • D. Gardner-Bonneau: Human Factors and Voice Interactive Systems, Kluwer, 1999
    • NVIDIA Nemo: https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra14
    Felkészülés zárthelyire38
    Félévközi készülés laborokra
    42
    Kijelölt írásos tananyag elsajátítása 
    Vizsgafelkészülés 
    Összesen150
    15. A tantárgy tematikáját kidolgozta Dr. Németh Géza, habilitált egyetemi docens, TMIT
    Dr. Csapó Tamás Gábor, tud. munkatárs, TMIT
    Dr. Gyires-Tóth Bálint Pál, egyetemi docens, TMIT
    Dr. Mihajlik Péter , egyetemi adjunktus, TMIT
    Dr. Sztahó Dávid, tudományos munkatárs, TMIT
    Dr. Zainkó Csaba, egyetemi adjunktus, TMIT

    IMSc tematika és módszer A kiszárthelyik és a nagyzárthelyi kiemelkedő szintű megoldását kívánjuk IMSc ponttal jutalmazni. Ezenkívül az érdeklődő hallgatók számára egyéni feladatot adunk ki, mellyel szintén szerezhetők IMSc pontok.
    IMSc pontozás Amennyiben a legjobb öt kiszárthelyi összesített átlaga eléri a 85%-ot, a hallgató 10 IMSc pontot kap. A nagyzárthelyin ahány %-al jobb az eredmény a jeleshez rendelt 85%-nál, annyi IMSc pontot ér. A tárgyhoz kapcsolódóan kiadott egyéni feladat megoldása legfeljebb 10 IMSc ponttal jutalmazható. Az összes IMSc pont egy hallgató számára nem haladhatja meg a 25-öt.