Data science módszerek Python környezetben

A tantárgy angol neve: Data Science Methods in Python

Adatlap utolsó módosítása: 2023. április 14.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
mérnökinformatikus BSc, Információs rendszerek specializáció
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMAC17 5 2/2/0/v 5  
3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
4. A tantárgy előadója
Gáspár Csaba, egyetemi tanársegéd, TMIT
Nagy-Rácz István, tanszéki mérnök, TMIT
5. A tantárgy az alábbi témakörök ismeretére épít Alapvető ismeretek programozási nyelvekről, adatszerkezetekről, algoritmusokról.
7. A tantárgy célkitűzése
A tárgy keretein belül data science világának jellegzetes alapelemeit sajátíthatják el a hallgatók úgy, hogy valós adathalmazok segítségével tudják megtapasztalni az átadott tudáselemek hasznosságát.
A cél, hogy a hallgató képes legyen a legfontosabb gépi tanulási feladatokra visszavezetni egyes üzleti problémákat, majd azokat valós adathalmazok felett is hatékonyan megoldani.

8. A tantárgy részletes tematikája
Data science terület kulcspontjai, létrejöttének okai, tendenciái.
Python alapvető struktúrák. 
CRISP-DM metodika. 
Adatelőkészítési lépések, dummy változók, tanító halmaz kiválasztás alapszintű módszerei, adatelőkészítés hatása.
Sklearn csomag regressziós és egyéb elemzési problémákra.
Hitelbírálat, mint bináris osztályozási probléma. 
Paraméter hangolás, üzleti és elemzési célfüggvény szétválasztása.
Előfeldolgozási lépések hatása.
Anomália detekció feladata és megoldásának sarokkövei. Isolation forest módszerének alkalmazása.
Tranzakciós adatok kezelése, adatok aggregálása időbeli feladatok megoldásához.
Fejlett technikák használata. 
Modellek interpretálhatósága.
Üzemeltethető adatelemzési környezetek.
Adatszivárgás megakadályozása, a tárgyalt technikákon túli lehetőségek, a data science távlatai, etikai kérdései, társadalmi stratégiák.
 
A gyakorlatoknál az oktatás az alábbi témákat érinti hétről-hétre:
Python alapvető struktúrák. Táblázatos adatstruktúra, Pandas programcsomag alapjai, műveletek, táblázatos adatok bejárása.
CRISP-DM metodika. Feltáró adatelemzés egy adathalmaz (pl. churn) segítségével, diagramok rajzolása Python nyelven.
Adatelőkészítési lépések a gyakorlatban.
Regressziós feladat megoldása lakásár előrejelzési feladaton keresztül Sklearn csomag segítségével. Regressziós feladatok kiértékelésének módjai.
Hitelbírálat a gyakorlatban. Osztályozási feladatok kiértékelése, a kiértékelés nehézségei ferde eloszlású célváltozó esetén. Profit görbe, ROC görbe és a függvény alatti területe.
Paraméter hangolás a gyakorlatban, üzleti és elemzési célfüggvény szétválasztása.
Előfeldolgozási lépések hatása, dimenziócsökkentő megoldások.
Anomália detekció Isolation forest módszerének alkalmazásával.
Tranzakciós adatok kezelése a gyakorlatban, adatok aggregálása időbeli feladatok megoldásához.
Modellek kifejezőerejének vizsgálata.
Partial Dependence Plot ábrák készítése.
Üzemeltethető adatelemzési környezetek, pipeline metodika, tanítás és tesztelés különválasztásának nehézségei.
Adatszivárgás megakadályozása. 
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Az előadások és a gyakorlatok szorosan összekapcsolódnak, így ez a módszer segít a hallgatóknak a valós problémák irányából megközelíteni tananyagot. A félév során egyenletesen elosztva 6 db kisházifeladatot kapnak a hallgatók, melyet a következő kisházifeladat kiadásáig kell megoldaniuk. A szorgalmi időszak végén egy nagyházifeladat kiadása történik, amit a vizsgaidőszakban kell megoldaniuk, a vizsgán megvédeniük.
10. Követelmények

Szorgalmi időszakban: Kisházifeladatok leadása. 6 db kisháziból legalább 3 leadása (megfelelt szinten való teljesítéssel) szükséges az aláíráshoz. A kisházifeladatok értékelése 2 szintű visszajelzéssel történik: megfelelt / nem megfelelt.

Vizsgaidőszakban: Nagyházifeladat megvédése vizsgán. 

11. Pótlási lehetőségek Kisházifeladatok pótolhatók a pótlási hét utolsó munkanapjáig.
12. Konzultációs lehetőségek Előzetes időpont-egyeztetés mellett az egész félévben.
13. Jegyzet, tankönyv, felhasználható irodalom
Larose, D. T., & Larose, C. D. (2014). Discovering knowledge in data: an introduction to data mining (Vol. 4). John Wiley & Sons.
Hastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: Springer.
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra56
Félévközi készülés órákra20
Felkészülés zárthelyire
Házi feladat elkészítése20
Kijelölt írásos tananyag elsajátítása
Vizsgafelkészülés54
Összesen150
15. A tantárgy tematikáját kidolgozta
Dr. Szűcs Gábor, egyetemi docens, TMIT
Gáspár Csaba, egyetemi tanársegéd, TMIT
IMSc tematika és módszer Külön tematikát nem kapnak a hallgatók, az oktatás egyben folyik a többi hallgatóval. Az iMSC hallgatóktól elvárható, hogy ne csak a szükséges (minimális) számú problémával (kisházifeladattal) foglalkozzanak, hanem szélesebb spektrumban is adjanak számot tudásukról, azaz adjanak megoldást a többi kisházifeladatra is (melyet iMSc pontokkal jutalmazunk). Ezen kívül a nagyházifeladatnál is szerezhető plusz iMSc pont.
IMSc pontozás
Ha a hallgató a szükséges kisházifeladat minimumon (három leadott feladat) túl is ad le feladatokat, akkor azokért egyenként 5 pontot kap (maximum 15 pont szerezhető így), illetve, ha a hallgató a nagyházifeladatnál a megoldásra adható maximális pontszám 80%-át eléri, akkor további 10 pontot kap.