Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    MI alapú ember-gép interakció

    A tantárgy angol neve: AI-based Man-machine Interaction

    Adatlap utolsó módosítása: 2023. január 13.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    mérnökinformatikus, MSc specializáció
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMMA23   2/1/0/v 5  
    3. A tantárgyfelelős személy és tanszék Dr. Mihajlik Péter,
    A tantárgy tanszéki weboldala http://smartlab.tmit.bme.hu/UX
    4. A tantárgy előadója

     

    Dr. Zainkó Csaba, egyetemi adjunktus,TMIT
    Dr. Mihajlik Péter, egyetemi adjunktus, TMIT
    Dr. Gyires-Tóth Bálint Pál, egyetemi docens,TMIT
    Dr. Csapó Tamás Gábor, tudományos munkatárs,TMIT
    Dr. Németh Géza, egyetemi docens,TMIT
    Dr. Sztahó Dávid, tudományos munkatárs, TMIT

    6. Előtanulmányi rend
    Kötelező:
    NEM
    (TárgyEredmény( "BMEVITMMA11", "jegy" , _ ) >= 2
    VAGY
    TárgyEredmény("BMEVITMMA11", "FELVETEL", AktualisFelev()) > 0)

    A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

    A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

    7. A tantárgy célkitűzése

    A tárgy olyan adatvezérelt, mesterséges intelligencia alapú rendszerekbe nyújt betekintést, ahol a felhasználó közvetlenül szolgáltat, illetve fogyaszt pl. képi, hang- és/vagy szenzoradatokat. A felhasználóközpontú rendszerekben a felhasználói élmény és elégedettség kulcsfontosságú a rendszer sikeressége, használhatósága szempontjából, így ebből a szempontból is tárgyaljuk az különféle megközelítéseket. Bemutatjuk az egyes felhasználói felület modalitások tekintetében, melyek a korszerű mesterséges intelligencia-modellek, azok hogyan járulnak hozzá a felhasználói élményhez, hogyan tesztelhetők, üzemeltethetők és mely kihívásoknak kell megfelelniük. Gyakorlati példákon keresztül megmutatjuk, miként lehet az egyes részproblémára kidolgozott modelleket egy olyan rendszerbe integrálni, amely közvetlenül a felhasználókkal kerül interakcióba. A felhasználókkal is kapcsolatban álló rendszereknél a használat alapján a modellek finomíthatók, a működéshez adaptálhatók. A tárgy gyakorlati részében többek között bemutatjuk, hogyan lehet ezt a folyamatot megvalósítani.

     A tárgy specifikus célkitűzései továbbá:

    ● MI modellek alkalmazása felhasználó felületekben
    ● Gépi tanulás mérőszámai és a szubjektív felhasználói ítéletek kapcsolata
    ● MI alapmodellek tovább-tanítása, finomítása felhasználói használat alapján
    ● Interaktív felhasználói felületeken (UI) alkalmazott modellek alkalmazási kérdései
    ● MI modellek gyorsítási lehetőségei a megfelelő UI válaszidő érdekében

    Konkrét esettanulmányok mentén mutatjuk be többek között az emberi interakciók felismerését (hang és kép alapokon), a rendszerek illesztését pl. fogyatékkal élő felhasználókhoz, illetve akár az agyi interfészeket (Brain-Computer Interface)

    8. A tantárgy részletes tematikája

    A tárgy egymásra épülő és összefüggő blokkokból épül fel, mely blokkok két egymást követő előadásból ill. egy gyakorlatból állnak.

    Bevezetés, intelligens ember-gép interakciók, mélytanulási alapok

     ● Mitől intelligens egy ember-gép interakció. Mesterséges intelligencia és gépi, ill. mélytanulás kapcsolata. Esettanulmányok.
    ● A felügyelt mélytanulási technikák áttekintése (Multi-layer perceptron, konvolúciós hálók, rekurrens hálók, figyelmi mechanizmus és transzfomer struktúrák). Tanítás és inferencia kihívások a valós életben.
    ● Inferencia a gyakorlatban (deployment), hálózat-tömörítési és egyéb (pl. kvantálási) technikák és szoftver-eszköztárak.

    Felhasználói képi adatok feldolgozása

    ● A gépi látás legfőbb kihívásai és alkalmazási területei.
    ● 2D konvolúción alapuló, korszerű mélytanulási modellek. Pretraining, transfer learning képeken, személyreszabás. 
    ● Önfelügyelt tanulás a gépi látásban, kihívások, előnyök és hátrányok, gyakorlati alkalmazások.
    ● A képfeldolgozás mélytanulási szoftver-eszköztárai, egyszerű példák órai megoldása/megoldásvázlata.

    Hangadatok feldolgozása

    ● Wake-word (ébresztőszó) detektálás.
    ● Gépi beszédleiratozás, neurális akusztikus modellek.
    ● Nyelvmodellek a beszédleiratozásban.
    ● Felügyelten és önfelügyelten előtanított modellek finomhangolása a gyakorlatban.
    ● Modellek performancia mérései

    Személyreszabható text-to-speech

    ● Mélytanulás alapú gépi beszédszintézis, neurális modellek
    ● Beszédmodellek tanítása egy- és több-beszélő esetén
    ● Szintézismodellek alkalmazásának és továbbfejlesztésének lehetőségei
    ● Modellek minőségi és performancia mérései

    Emberi emóciók felismerése

    ● Az érzelmek megjelenési módjai, modellezése, leírási módjai gépi feldolgozáshoz. Adatbázis építési ismeretek és technikák.
    ● A gépi felismeréshez alkalmazott AI modellezési technikák és eljárások. Vizuális adatok modellezése, képi emóció detektálás. Beszédklasszifikációs eljárások alkalmazása az érzelemfelismeréshez, hangalapú detektálás. 
    Nyelvi elemek modellezése és reprezentációs technikái a szövegalapú felismeréshez. Szentiment elemzés.
    ● Gyakorlat: gépi érzelemfelismerési esettanulmányok

    UX megvalósítása időseket és fogyatékossággal élőket támogató rendszerekhez

    ● Időseket támogató rendszerek, Ambient Assisted Living (AAL), elöregedő társadalom. Fogyatékossággal élőket (látássérültek, beszédfogyatékosok, sztrókon átesettek) támogató rendszerek. Életfunkciójukban tartósan károsodott vagy veszélyeztetett személyek eredeti életkörülményeinek segítése infokommunikációs eszközökkel. Egészségvédelmi célok.
    ● Szenzoradatok feldolgozása, testen viselhető eszközök. Vitális funkciók folyamatos vagy rendszeres figyelése, a megfigyelt értékek elemzése. Elesésdetekció mély tanulás alapon. Lakásban elhelyezett mozgásdetektorok vagy használati tárgyakba helyezett elektronikus egységek összekötése telekommunikációs rendszerrel.
     ● Gyakorlat: esettanulmányok az időseket és fogyatékossággal élőket támogató rendszerekhez.

    Egyedi interface-ek és komplex esettanulmányok

    ● Agy-számítógép interfészek (Brain-Computer Interface, BCI) elméleti, anatómiai és információtechnológiai alapjai, alkalmazási lehetőségei.
    ● Komplex hang és/vagy képi kapcsolatra épülő ember-gép interakciós rendszerek bemutatása, konklúziók.

     

    A gyakorlatok részletes tematikája: 

    ● Inferencia a gyakorlatban (deployment), hálózat-tömörítési és egyéb (pl. kvantálási) technikák és szoftver-eszköztárak.
    ● A képfeldolgozás mélytanulási szoftver-eszköztártárai, egyszerű példák órai megoldása/megoldásvázlata.
    ● Felügyelten és önfelügyelten előtanított beszédleiratozó modellek finomhangolása a gyakorlatban. Teljesítmény mérése.
    ● Személyreszabható text-to-speech: A mélytanulás alapú modellek alkalmazása, teljesítmény mérése, tematikához illesztése. A modellek továbbfejlesztése, optimalizálása az adott feladathoz, modellek adaptálása adott beszélőhöz.
    ● Gépi érzelemfelismerési esettanulmányok. Jellemzőkinyerő, szövegelemző algoritmusok alkalmazása, gépi tanuló modellek tanítása, tesztelése és teljesítmény mérése.
    ● Esettanulmányok az időseket és fogyatékossággal élőket támogató rendszerekhez. PaeLife (Personal Assistant to Enhance the Social Life of the Seniors), StrokeAid (MonddKi), VUK (Visionless sUpporting frameworK) és APH-ALARM (universal monitoring system with an alerting ability for older people with communication difficulties after stroke) projektekből
    ● Egy egyszerűbb, de mélytanulási modelleket alkalmazó audio alapú interface megtervezése rendszerterv szintjén.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2 óra előadás, 2 óra gyakorlat minden második héten.
    10. Követelmények

    Szorgalmi időszakban: 1 db nagyzárhelyi elégséges (40%-os) megírása és a gyakorlatokon való legalább 70%-os részvétel.

    Vizsgaidőszakban: Írásbeli és opcionális szóbeli vizsga. Szóbeli vizsgával az írásbeli vizsga módosítható, javíthat a hallgató, de ronthat is az addig elért eredményen. A vizsgarész sikeres teljesítése esetén az érdemjegy a vizsga és a zárhelyi súlyozott átlaga, amelybe a zárthelyi 40%-os súllyal számít bele. A kredit megszerzéséhez a vizsgapontszámoknak is el kell érnie a 40%-ot.

    11. Pótlási lehetőségek Nagyzárthelyi pótlására 1 alkalommal kerülhet sor a pótlási héten.
    12. Konzultációs lehetőségek A tárgy előadójával személyesen, vagy e-mailben egyeztetett időpontban.
    13. Jegyzet, tankönyv, felhasználható irodalom ● Stevens, Eli, Luca Antiga, and Thomas Viehmann. Deep learning with PyTorch. Manning Publications, 2020.
    ● McTear, Michael. "Conversational ai: Dialogue systems, conversational agents, and chatbots." Synthesis Lectures on Human Language Technologies 13.3 (2020): 1-251.
    ● Freed, Andrew. Conversational AI. Simon and Schuster, 2021.
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra24
    Felkészülés zárthelyire30
    Házi feladat elkészítése-
    Kijelölt írásos tananyag elsajátítása-
    Vizsgafelkészülés40
    Összesen150
    15. A tantárgy tematikáját kidolgozta Dr. Zainkó Csaba, egyetemi adjunktus,TMIT
    Dr. Mihajlik Péter, egyetemi adjunktus, TMIT
    Dr. Gyires-Tóth Bálint Pál, egyetemi docens, TMIT
    Dr. Csapó Tamás Gábor, tudományos munkatárs, TMIT
    Dr. Németh Géza, egyetemi docens, TMIT
    Dr. Sztahó Dávid, tudományos munkatárs, TMIT