Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Data science módszerek Python környezetben

    A tantárgy angol neve: Data Science Methods in Python

    Adatlap utolsó módosítása: 2023. április 14.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    mérnökinformatikus BSc, Információs rendszerek specializáció
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAC17 5 2/2/0/v 5  
    3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
    4. A tantárgy előadója
    Gáspár Csaba, egyetemi tanársegéd, TMIT
    Nagy-Rácz István, tanszéki mérnök, TMIT
    5. A tantárgy az alábbi témakörök ismeretére épít Alapvető ismeretek programozási nyelvekről, adatszerkezetekről, algoritmusokról.
    7. A tantárgy célkitűzése
    A tárgy keretein belül data science világának jellegzetes alapelemeit sajátíthatják el a hallgatók úgy, hogy valós adathalmazok segítségével tudják megtapasztalni az átadott tudáselemek hasznosságát.
    A cél, hogy a hallgató képes legyen a legfontosabb gépi tanulási feladatokra visszavezetni egyes üzleti problémákat, majd azokat valós adathalmazok felett is hatékonyan megoldani.

    8. A tantárgy részletes tematikája
    Data science terület kulcspontjai, létrejöttének okai, tendenciái.
    Python alapvető struktúrák. 
    CRISP-DM metodika. 
    Adatelőkészítési lépések, dummy változók, tanító halmaz kiválasztás alapszintű módszerei, adatelőkészítés hatása.
    Sklearn csomag regressziós és egyéb elemzési problémákra.
    Hitelbírálat, mint bináris osztályozási probléma. 
    Paraméter hangolás, üzleti és elemzési célfüggvény szétválasztása.
    Előfeldolgozási lépések hatása.
    Anomália detekció feladata és megoldásának sarokkövei. Isolation forest módszerének alkalmazása.
    Tranzakciós adatok kezelése, adatok aggregálása időbeli feladatok megoldásához.
    Fejlett technikák használata. 
    Modellek interpretálhatósága.
    Üzemeltethető adatelemzési környezetek.
    Adatszivárgás megakadályozása, a tárgyalt technikákon túli lehetőségek, a data science távlatai, etikai kérdései, társadalmi stratégiák.
     
    A gyakorlatoknál az oktatás az alábbi témákat érinti hétről-hétre:
    Python alapvető struktúrák. Táblázatos adatstruktúra, Pandas programcsomag alapjai, műveletek, táblázatos adatok bejárása.
    CRISP-DM metodika. Feltáró adatelemzés egy adathalmaz (pl. churn) segítségével, diagramok rajzolása Python nyelven.
    Adatelőkészítési lépések a gyakorlatban.
    Regressziós feladat megoldása lakásár előrejelzési feladaton keresztül Sklearn csomag segítségével. Regressziós feladatok kiértékelésének módjai.
    Hitelbírálat a gyakorlatban. Osztályozási feladatok kiértékelése, a kiértékelés nehézségei ferde eloszlású célváltozó esetén. Profit görbe, ROC görbe és a függvény alatti területe.
    Paraméter hangolás a gyakorlatban, üzleti és elemzési célfüggvény szétválasztása.
    Előfeldolgozási lépések hatása, dimenziócsökkentő megoldások.
    Anomália detekció Isolation forest módszerének alkalmazásával.
    Tranzakciós adatok kezelése a gyakorlatban, adatok aggregálása időbeli feladatok megoldásához.
    Modellek kifejezőerejének vizsgálata.
    Partial Dependence Plot ábrák készítése.
    Üzemeltethető adatelemzési környezetek, pipeline metodika, tanítás és tesztelés különválasztásának nehézségei.
    Adatszivárgás megakadályozása. 
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Az előadások és a gyakorlatok szorosan összekapcsolódnak, így ez a módszer segít a hallgatóknak a valós problémák irányából megközelíteni tananyagot. A félév során egyenletesen elosztva 6 db kisházifeladatot kapnak a hallgatók, melyet a következő kisházifeladat kiadásáig kell megoldaniuk. A szorgalmi időszak végén egy nagyházifeladat kiadása történik, amit a vizsgaidőszakban kell megoldaniuk, a vizsgán megvédeniük.
    10. Követelmények

    Szorgalmi időszakban: Kisházifeladatok leadása. 6 db kisháziból legalább 3 leadása (megfelelt szinten való teljesítéssel) szükséges az aláíráshoz. A kisházifeladatok értékelése 2 szintű visszajelzéssel történik: megfelelt / nem megfelelt.

    Vizsgaidőszakban: Nagyházifeladat megvédése vizsgán. 

    11. Pótlási lehetőségek Kisházifeladatok pótolhatók a pótlási hét utolsó munkanapjáig.
    12. Konzultációs lehetőségek Előzetes időpont-egyeztetés mellett az egész félévben.
    13. Jegyzet, tankönyv, felhasználható irodalom
    Larose, D. T., & Larose, C. D. (2014). Discovering knowledge in data: an introduction to data mining (Vol. 4). John Wiley & Sons.
    Hastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: Springer.
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra20
    Felkészülés zárthelyire
    Házi feladat elkészítése20
    Kijelölt írásos tananyag elsajátítása
    Vizsgafelkészülés54
    Összesen150
    15. A tantárgy tematikáját kidolgozta
    Dr. Szűcs Gábor, egyetemi docens, TMIT
    Gáspár Csaba, egyetemi tanársegéd, TMIT
    IMSc tematika és módszer Külön tematikát nem kapnak a hallgatók, az oktatás egyben folyik a többi hallgatóval. Az iMSC hallgatóktól elvárható, hogy ne csak a szükséges (minimális) számú problémával (kisházifeladattal) foglalkozzanak, hanem szélesebb spektrumban is adjanak számot tudásukról, azaz adjanak megoldást a többi kisházifeladatra is (melyet iMSc pontokkal jutalmazunk). Ezen kívül a nagyházifeladatnál is szerezhető plusz iMSc pont.
    IMSc pontozás
    Ha a hallgató a szükséges kisházifeladat minimumon (három leadott feladat) túl is ad le feladatokat, akkor azokért egyenként 5 pontot kap (maximum 15 pont szerezhető így), illetve, ha a hallgató a nagyházifeladatnál a megoldásra adható maximális pontszám 80%-át eléri, akkor további 10 pontot kap.