Beszédtechnológia

A tantárgy angol neve: Speech Technology

Adatlap utolsó módosítása: 2006. július 1.

Tantárgy lejárati dátuma: 2009. november 24.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki Szak

Műszaki Informatika Szak

választható tárgy

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMAV30 őszi 3/1/0/v 5 1/1
4. A tantárgy előadója

Név:

Beosztás:

Tanszék, Int.:

Dr. Németh Géza

egyetemi docens

TMIT

Dr. Olaszy Gábor

egyetemi tanár

TMIT

Dr. Vicsi Klára

tudományos főmunkatárs

TMIT

5. A tantárgy az alábbi témakörök ismeretére épít

A tantárgy elsősorban a Jelek/hálózatok és rendszerek témakör ismeretére épít.

6. Előtanulmányi rend
Ajánlott:

Tematikaütközés miatt a tárgyat csak azok vehetik fel, akik korábban nem hallgatták a következő tárgyakat:

vitt 3247 Beszédinformációs rendszerek

7. A tantárgy célkitűzése

Az emberi információ-kezelés és kommunikáció alapja a természetes beszédlánc (beszélő ember - levegő - hallgató ember) működése. A beszédtechnológia a természetes beszédlánc egy vagy több elemének mesterséges megvalósítását (pl. beszédfelismerés, beszédszintézis, stb.) tárgyalja. Napjainkban számos gyakorlati alkalmazásban megjelentek a beszédtechnológián alapuló, egyre jobban integrált és automatizált infokommunikációs szolgáltatások (pl. SMS-felolvasás, hívásközpontok). A tárgy célja a beszédtechnológia komponens és rendszerszintű megismertetése.

8. A tantárgy részletes tematikája

Bevezetés

A nyelv és a beszéd az emberi kommunikációban. A természetes beszédlánc elemei és működésük. A beszéd akusztikai szerkezetének legfontosabb jellemzői, szintjei, redundanciája, a hordozott kiegészítő információk. A lényegkiemelés elmélete.

Beszédkódolás és tömörítés

A beszédkódolás szerepe a digitális beszédtárolás, valamint az infokommunikációs hálózatok rendszereiben. Beszéd/csend és más akusztikus jelek megkülönböztetése. A beszédkódolás alapvető módszerei. A kódolt beszéd minősítése.

Beszédválaszú rendszerek

A gépi beszédkeltés alapfogalmai (kötött, kötetlen és vegyes szókészlet). Kötött szókészletű rendszerek és kötetlen szókészletű (text-to-speech és concept-to-speech) rendszerek. Fejlesztői környezetek. A rendszerek automatizált megvalósításának algoritmusai (pl. gépi tanulás).

Beszédfelismerés

A beszédfelismerés alapfogalmai és alapvető architektúrái. A működés fő fázisai: lényegkiemelési, vetemítési, osztályozási eljárások. A beszéd- és szövegadatbázisok jelentősége a felismerésben. Az akusztikus környezet szerepe. Felismerő létrehozásának fázisai. Szótárkészlet automatikus bővítése, adaptivitás. Többnyelvű rendszerek kialakítása. Fejlesztői környezetek és eszközök.

Beszélőfelismerés és beszélőazonosítás

Beszélőfelismerés és azonosítás kötött és kötetlen szöveggel. Inter- és intraindividuális jellemzők. A beszéd további biometriai lehetőségei.

Beszédtechnológia alkalmazása információs rendszerekben

Beszéddel informáló dialógus rendszerek alapfogalmai. Rendszer vezérelt, felhasználó vezérelt és vegyes kezdeményezésű rendszerek. Uni- és multimodális rendszerek. Platform, termékválasztás és tesztelés. A vállalati akusztikai arculat fogalma és színvonalas biztosításának módszerei. Esettanulmány: alkalmazási mintarendszer tervezése

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

(előadás, gyakorlat, laboratórium):

3*2 óra előadás és 1*2 óra kiscsoportos foglalkozás kéthetes ciklusokban.

10. Követelmények

a. A szorgalmi időszakban:

A félév végén az aláírás feltétele egy nagyzárthelyi legalább elégséges szintű megírása. A zárthelyi megírására a félév közepén kerül sor.

b. A vizsgaidőszakban:

Írásbeli vizsga, eredménytől függő szóbeli javítási lehetőséggel

  1. Elővizsga:

Nincs

11. Pótlási lehetőségek

A pótlásra a szorgalmi időszak során egy alkalom áll rendelkezésre, a vizsgaidőszakban csak IV jelleggel lehetséges.

12. Konzultációs lehetőségek

A félév, illetve vizsgaidőszak során a hallgatóknak lehetőségük van az előadóval előre egyeztetett időpontban konzultálni.

13. Jegyzet, tankönyv, felhasználható irodalom

Magyar nyelvű irodalom:

Magyar nyelvi beszédtechnológiai alapismeretek, Nikol KKt, 2002

Gordos G., Takács Gy.: Digitális beszédfeldolgozás, Műszaki Könyvkiadó, 1983

Angol nyelvű irodalom:

X. Huang, A. Acero, H. Hon: Spoken Language Processing, Prentice Hall, 2001

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

(a tantárgyhoz tartozó tanulmányi idő körülbelüli felosztása a tanórák, továbbá a házi feladatok és a zárthelyik között (a felkészülésre, ill. a kidolgozásra átlagosan fordítandó/elvárható idők félévi munkaórában, kredit x 30 óra, pl. 5 kredit esetén 150 óra)):

Kontakt óra

60

Félévközi készülés órákra

10

Felkészülés zárthelyire

20

Házi feladat elkészítése

Kijelölt írásos tananyag elsajátítása

20

..

Vizsgafelkészülés

40

Összesen

150

15. A tantárgy tematikáját kidolgozta

Név:

Beosztás:

Tanszék, Int.:

Dr. Gordos Géza

egyetemi tanár

TMIT

Dr. Németh Géza

egyetemi docens

TMIT

Mihajlik Péter

tmts

TMIT

Dr. Vicsi Klára

tfmts

TMIT