Gépi tanulási esettanulmányok

A tantárgy angol neve: Machine Learning Use-case Laboratory

Adatlap utolsó módosítása: 2023. április 18.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
Mérnökinformatikus mesterképzés,
Adattudomány és mesterséges intelligencia specializáció
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMMA18   0/0/3/f 5  
3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
4. A tantárgy előadója
Gáspár Csaba, egyetemi tanársegéd (TMIT)
Nagy-Rácz István, tanszéki mérnök (TMIT)
5. A tantárgy az alábbi témakörök ismeretére épít Gépi tanulás elméleti alapjai, programozási alapismeretek, alapszintű valószínűségszámítási ismeretek
6. Előtanulmányi rend
Kötelező:
NEM
(TárgyEredmény( "BMEVIMIMB02", "jegy" , _ ) >= 2
VAGY
TárgyEredmény("BMEVIMIMB02", "FELVETEL", AktualisFelev()) > 0)

A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

Ajánlott:
Nincs

7. A tantárgy célkitűzése
A gépi tanulási és data science ismeretek hasznosításának kulcskérdése, hogy egy valós adathalmazhoz és tényleges üzleti problémát megfelelő módon tudjuk leképezni a gépi tanulási és adatelemzési eszközkészletünkre. A tárgy célja, hogy ebbe az adatelemzési folyamatban adjon mélyebb gyakorlati tapasztalatot a hallgatóinak azáltal, hogy több valós esettanulmány megoldásával bemutatja milyen sorrendben, milyen módon érdemes alkalmazni a módszereket.

Módszertani szempontból a labor során a hallgatók az előadóval egy időben saját Notebook-at hoznak létre. Hogy a haladó feladatmegoldási feladatokra koncentrálhassunk több esetben egy kiinduló Notebook továbbfejlesztésével indulunk el az alkalmak során. A félévhez egy kijelölt adatbányászati létraverseny is tartozik, ahol minél hatékonyabban kell megoldani egy felügyelt gépi tanulási feladatot.
8. A tantárgy részletes tematikája
1. Bevezető, módszerek, technológiák, használt programozási nyelvek és technológiák áttekintése (pl. Python) - Táblázatos adatok kezelése, DataFrame alapú feladatmegoldás, kódhatékonyság kérdései
2. Felügyelt tanulás – Fejlett regressziós módszerek egy ingatlan adathalmaz felett, fejlett módszerek az adatelőkészítésben, időbeli trendek kezelése, speciális adatelőkészítési módszerek és hatásuk az előrejelzésre
3. Felügyelt tanulás – Fejlett osztályozási feladat egy hitelbírálati feladat megoldásánál 
4. Felügyelt tanulás – Komplex osztályozási kiértékelési módok, egyedi célfüggvények, optimalizáció egyedi célfüggvények esetén. A ROC görbe és AUC értékének különleges tulajdonságai, hibakeresés és a kiértékelő függvények kapcsolata, a kiértékelés evolúciója az üzleti igények ismeretében
5. Klaszterezési eljárások – Ügyfélszegmentáció kihívásai klaszterezés alapon, adatelőkészítési nehézségek, klaszterezési módszerek kiválasztása, klaszterezési eredmények magyarázhatósága, triviális klaszterezési helyzetek felismerése, klaszterezéshez kapcsolódó story-telling
6. Story telling és a modellek interpretálhatóságának kapcsolata, modellek magyarázhatóságának algoritmikai kérdései
7. Anomália detekció – Komplex anomália detekciós feladat megoldása időben változó adathalmaz felett
8. Anomália detekció – Anomália score értékek összevonása, visszajelzési folyamat beépítése a teljes elemzési sorba
9. Változó generálás fejlett módszerei, kapcsolata a változó kiválasztási módszerekkel - Változó kiválasztás módszerei, kihívásai, a kiválasztás eredményeit hasznosító feature engineering folyamat bemutatása
10. Nagyházifeladat ismertetése, kiinduló megoldásának elkészítése, az adatelemzési feladat buktatóinak ismertetése
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)
Laboratórium.
 
 A hallgatók 10 alkalommal, alkalmanként négy órás idősávban találkoznak az oktatókkal, ahol kéthetente (minden második alkalommal) történik feladatkiadás. Ezen kívül a hallgatóknak egy gépi tanulási nagyházifeladatot kell a félév során megoldaniuk, ahol egymással kell versenyezniük (data science verseny).

10. Követelmények
- Beadandó feladatok leadása a Moodle rendszeren belül (5 darab) – feladatkiadás kéthetente, a feladat elkészítésére két hét áll rendelkezésre.
- Részvétel a tárgyhoz kapcsolódó data science versenyen, ott a félév során megadott baseline elérése szükséges.

A jegybe a házifeladatokra kapott pontszámok 40%-ban, míg a data science versenyen elért eredmény 60%-ban számít bele. A versenynél egy baseline szintet el kell érni ahhoz, hogy legalább elégségest kapjon a hallgató, ezt a szintet a verseny kiírásánál rögzítjük. A verseny során egy felügyelt tanulási feladatot kell megoldani, a pontos metrikát az adott félévben kiírt versenyfeladat határozza meg. A versenyen önállóan indulnak a hallgatók, az elérhető pontszámítás függ az adott évfolyamon a versenyen részt vevő összes hallgatók elért eredményeitől is.

A teljes pontszámból (házifeladatok plusz verseny) legalább 40%-ot kell elérni a kredit megszerzéséért.
11. Pótlási lehetőségek
A beadandó feladatok a leadási határidőt követő 2 hétben pótolhatók. Amennyiben ez a határidő túlnyúlik a pótlási héten, úgy a pótlási héten kell leadni azokat.

A gépi tanulási nagyházifeladat beadása folyamatos a félév közepétől, a beadás itt nem pótolható, a verseny a szorgalmi időszak végén zárul.
13. Jegyzet, tankönyv, felhasználható irodalom Az egyes órákat követően az elemzési feladatokhoz egy-egy példamegoldás kerül publikálásra.
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra42
Félévközi készülés órákra28
Felkészülés zárthelyire 
Házi feladat elkészítése80
Kijelölt írásos tananyag elsajátítása 
Vizsgafelkészülés 
Összesen150
15. A tantárgy tematikáját kidolgozta Gáspár Csaba – egyetemi tanársegéd - TMIT