Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Beszéd-információs rendszerek

    A tantárgy angol neve: Speech Information Systems

    Adatlap utolsó módosítása: 2006. július 1.

    Tantárgy lejárati dátuma: 2015. január 31.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki Szak

    Műszaki Informatika Szak

    Választható tárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITT3247 6 4/0/0/v 5 1/1
    3. A tantárgyfelelős személy és tanszék Dr. Gordos Géza,
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Gordos Géza

    egy. tanár

    TTT

    Dr. Németh Géza

    egy. docens

    TTT

    5. A tantárgy az alábbi témakörök ismeretére épít

    A tantárgy elsősorban a Jelek és rendszerek témakör ismeretére épít,

    6. Előtanulmányi rend
    Kötelező:
    TárgyEredmény( "BMEVIEV2217" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény( "BMEVIEV2239" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény( "BMEVIEV2214" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény( "BMEVIEV2501" , "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény( "BMEVIEVF508" , "jegy" , _ ) >= 2
    VAGY
    Szakirány2R( "KIEG", "2004/05/1" ) >0
    VAGY
    Szakirány2R( "KIEG", "2005/06/1" ) >0
    VAGY
    TárgyEredmény( "BMEVIHVA214" , "jegy" , _ ) >= 2
    VAGY
    Szakirány( ahol a SzakirányKód = "KIEGI", ahol a Ciklus = "2006/07/1")
    VAGY
    KépzésLétezik( ahol a KépzésKód = "5N-08S")

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

    Ajánlott:

    nincs

    7. A tantárgy célkitűzése

    Az emberi információ-kezelés és kommunikáció alapja a természetes beszédlánc (beszélő ember - levegő - hallgató ember) működése. A beszédinformációs rendszerek a természetes beszédlánc egy vagy több elemének mesterséges informatikai megvalósítását (pl. beszédfelismerés, beszédszintézis, stb.) integrálják az információ gyűjtésével, tárolásával, feldolgozásával és/vagy az ahhoz való hozzáféréssel kapcsolatos folyamatokba. Napjainkban erősödött fel a nagyméretű, egyre jobban integrált és automatizált beszédinformációs rendszerek (pl. hívásközpontok, távfelvilágosítás, tele-banking) alkalmazási köre. A tárgy célja a beszédlánc elemei mesterséges megvalósításának megismertetése és a beszéddel vezérelt és/vagy beszéddel válaszoló információs rendszerek azon informatikai eljárásainak taglalása, amelyek beszédspecifikusak. A tárgy gyakorlati példák felhasználásával mutatja be a beszédinformációs rendszerek kialakításához szükséges elméleti és gyakorlati ismereteket, az automatizáláshoz alkalmazható beszédtechnológiai eszközrendszer főbb elemeit, azok alapvető működési elveit, specifikációs jellemzőit.

    8. A tantárgy részletes tematikája

    Bevezetés

    A nyelv és a beszéd az emberi kommunikációban. Alapvető modalitások és az emberi érzékelés alapfogalmai, természetes kommunikációs láncok: auditív kommunikáció, vizuális kommunikáció, egyéb (tapintás, szaglás). A természetes beszédlánc elemei és működésük. Az emberi beszédkeltés, a beszédészlelés és a beszédmegértés alapfogalmai. A beszéd akusztikai szerkezetének legfontosabb jellemzői. A beszéd szintjei, redundanciája, a hordozott kiegészítő információk. A lényegkiemelés elmélete.

    Beszédkódolás és tömörítés

    A beszédkódolás szerepe a digitális beszédtárolás, valamint az üzleti, a katonai, a mobil, a műholdas és az Internet telefónia rendszereiben. Beszéd/csend és más akusztikus jelek megkülönböztetése. A beszédkódolás alapvető módszerei (PCM, formáns, LPC, SBC és továbbfejlesztéseik). Vektorkvantálás. A kódolás hatása más beszédtechnológiai eszközökre. A kódolt beszéd minősítése (érthetőség, természetesség).

    Beszédválaszú rendszerek

    A gépi beszédkeltés alapfogalmai (kötött, kötetlen és vegyes szókészlet).

    Kötött szókészletű rendszerek tervezési szempontjai. A bemondandó szöveg informatikai tervezése. A szótárméret-minimalizálás és a minőség kompromisszumai. Bemondó kiválasztása, hangfelvétel elkészítése. A kötött szókészletű akusztikai adatbázis tervezési szempontjai. Vegyes rendszerek kialakításának indokai, megoldási lehetőségei. Nagy hanghűségű prozódia módosítási algoritmusok.

    Kötetlen szókészletű (text-to-speech és concept-to-speech) rendszerek felépítése, alapvető osztályai. Fonéma, diád, triád és nagyobb méretű elemi egységeken (corpus based processing) alapuló rendszerek. Egységes szövegábrázolási, szövegelemzési és átalakítási feladatok és kapcsolódó adatbázisok. Prozódiai előrejelzés és függvénykészlet. Vezérelhető rendszerfunkciók.

    Kötetlen szókészletű akusztikus adatbázisok tervezési szempontjai és elkészítésük módszerei. Beszédválasz szövegkorpuszának kialakítása. Az adatbázis elkészítése, módosítása, és ezek algoritmusai. A prozódia (hangmagasság, hangerő, ritmusváltozás) jelentősége és megvalósítása. Valós idejű automatikus prozódia generálás algoritmusai. Többhangú rendszerek és automatikus hangkonverzió. Többnyelvű rendszerek. Nyelvdetekció, ékezetesítés. Egységes hangjelölési rendszerek (IPA, SAMPA). Fejlesztői környezetek.

    Beszédfelismerés

    A beszédfelismerés alapfogalmai és alapvető architektúrái. A működés fő fázisai: betanítás, felismerés (lényegkiemelés, osztályozás). Kis, közepes, nagy, kötetlen szótár. A szótárméret korlátozása (nyelvtanok) és nyelvfüggése. Személyfüggő, személyfüggetlen, dialektus függő és adaptív rendszerek. Izolált szavas, kapcsolt szavas és folyamatos beszédfelismerés. Az akusztikus környezet szerepe. Irodai, PSTN, mobil és gépkocsiban működő rendszerek.

    A felismerés elemi egységeinek kiválasztása és azok tömörített reprezentációja. Idővetemítés. Osztályozási módszerek: HMM (rejtett Markov modell), neurális hálózati és vegyes architektúrák. Valós idejű keresési problémák. Adatbázisok és szerepük a betanításban. Szótárkészlet automatikus bővítése, adaptivitás. A prozódia szerepe. Többnyelvű rendszerek kialakítása. Fejlesztői környezetek és eszközök.

    Beszélőfelismeréssel és beszélőazonosítással növelt biztonságú hozzáférési rendszerek

    Beszélőfelismerés és azonosítás kötött és kötetlen szöveggel. Inter- és intraindividuális jellemzők, azok függése az akusztikus környezettől és az időponttól. Kulcsszó felismerés. A beszéd további biometriai lehetőségei.

    Beszédfunkciók alkalmazása információs rendszerekben

    Beszéddel informáló dialógus rendszerek alapfogalmai. Rendszer vezérelt, felhasználó vezérelt és vegyes kezdeményezésű rendszerek. DTMF és beszédfelismerő alapú vezérlés beszédválaszú rendszerekben. Uni- és multimodális rendszerek. Modalitás konverzió és szerepe a globális személyes kommunikációs rendszerekben.

    Beszédinformációs rendszerek tervezésének és megvalósításának lépései. Széleskörű használatra (pl. idősek) való tervezés (design-for-all). Platform, termékválasztás és tesztelés. Az összehasonlítás és a teljesítmény mérés módszerei. Alapvető beszéd API-k összehasonlítása.

    Tipikus alkalmazási környezetek, meghatározó alkalmazói rendszerek: számítógépes diktafon; egyfelhasználós parancsinterfész és navigáció, intelligens ügynökök; diktáló rendszerek; hagyományos távközlési funkciók megvalósítása IP környezetben; egységes üzenetkezelés; üzenet konverzió (pl. e-levél felolvasó); integrált technológiák (pl. beszéd és GPS autónavigációs és mobiltelefon rendszerekben)

    Esettanulmány: alkalmazási mintarendszer tervezése

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    3*2 óra előadás és 1*2 óra kiscsoportos foglalkozás kéthetes ciklusokban.

    10. Követelmények

    a. A szorgalmi időszakban:

    A félév végén az aláírás feltétele egy nagyzárthelyi legalább elégséges szintű megírása. A zárthelyi megírására a félév közepén kerül sor. A pótlásra a szorgalmi időszak során egy alkalom áll rendelkezésre, a vizsgaidőszakban csak iv. jelleggel lehetséges.

    b. A vizsgaidőszakban: írásbeli vizsga, eredménytől függő szóbeli javítási lehetőséggel

    c. Elővizsga: nincs

    13. Jegyzet, tankönyv, felhasználható irodalom

    Gordos G., Takács Gy.: Digitális beszédfeldolgozás, Műszaki Könyvkiadó, 1983

    Olaszy G.: Elektronikus beszédelőállítás, Műszaki Könyvkiadó, 1986

    B. Gold, N. Morgan: Speech and Audio Signal Processing, John Wiley, 2000

    L. Rabiner, B. Juang: Fundamentals of Speech Recognition, Prentice Hall, 1993

    F. A. Westall, R. D. Johnston, A. V. Lewis, D. Johnston: Speech Technology for Telecommunications, Chapman & Hall, 1997

    D. Gardner-Bonneau: Human Factors and Voice Interactive Systems, Kluwer, 1999

    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Gordos Géza

    egy. tan.

    TTT

    Dr. Németh Géza

    egy. doc.

    TTT

    Dr. Illényi András

    tfmts.

    TTT

    Marosi Gyula

    egy. ts.

    TTT

    Dr. Olaszy Gábor

    egy. docens

    TTT

    Dr. Osváth László

    egy. adj.

    TTT

    Tatai Péter

    tmts.

    TTT

    Dr. Vicsi Klára

    tfmts.

    TTT