Adatbányászati technikák

A tantárgy angol neve: Data Mining Techniques

Adatlap utolsó módosítása: 2022. november 28.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
Gazdaságinformatikus szak, MSc képzés
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMM185 1,2 3/1/0/f 5  
3. A tantárgyfelelős személy és tanszék Dr. Toka László,
4. A tantárgy előadója

Dr. Toka László, egyetemi docens, TMIT

Dr. Papp Dávid, egyetemi adjunktus, TMIT

Gáspár Csaba, egyetemi tanársegéd, TMIT 

5. A tantárgy az alábbi témakörök ismeretére épít Algoritmusok elmélete, lineáris algebra, gráfelmélet, valószínűségszámítás, adatbázis-elmélet
7. A tantárgy célkitűzése Az alapvető adatbányászati algoritmusok ismertetése, azok alkalmazhatóságának bemutatása a gazdasági életből származó példákon keresztül.
A tárgyhoz tartozó laboratórium gyakorlati ismereteket nyújt az adatbányászati módszerekről. A labor során a hallgató megismerkedik egy, a gyakorlatban széles körben elterjedt adatbányászati szoftverrel és tapasztalatokat szerez az adatelemzés, tudáskinyerés területén. A labor célja a hallgatók felkészítése arra, hogy képesek legyenek adatbányászati elemzéseket végezni különböző területeken (kereskedelem, pénzügy, marketing, orvosi adatbányászat, stb.).
8. A tantárgy részletes tematikája

1. Adatbányászat fogalma, története, feladatai, alkalmazási területek, adatbányászat szoftverek
o Koncepcionális alapozás
o Adatbányászó primitívek
Adatbányászati rendszer architektúrák
2. Előfeldolgozás, adattranszformációk, hasonlósági mértékek, hiányzó értékek kezelése, diszkretizálás, mintavételezés
3. Bevezetés az osztályozásba és a regresszióba, osztályozó módszerek, osztályozás feladata
4. Lokális többségen alapuló osztályozók, k-legközelebbi szomszéd módszere, partíciós- és kernel-szabály, k-d fa, alkalmazási példa: piacszegmentálás
5. Döntési fák felépítése, döntési fák és döntési szabályok, minimális döntési fa feladata, ID3 algoritmus (feltételes entrópia), CART/CHAID módszerek lényege, alkalmazási példa: hitelbírálat
6. Bayes-döntés, Bayesi hálózatok, naiv bayesi hálók (NBH), alkalmazási példa: hitelbírálat (folytatása)
7. Lineáris osztályozók, perceptron algoritmus, Vapnik algoritmusa, hipersíkkal nem szeparálható adatok, SVM, alkalmazási példa: karakterfelismerés, arcfelismerés, mozgó objektumok azonosítása, követése
8. Osztályozók kombinálása (bagging, randomizálás, boosting)
9. Konzisztencia, hibavalószínűség, osztályozók kiértékelése: ismételt mintavételezés, keresztvalidáció, bootstrap
10. Klasszikus klaszterezési célfüggvények, klaszterező algoritmusok típusai, partíciós algoritmusok
11. Hierarchikus-, sűrűség-alapú módszerek
o rács- és modellalapú klaszterező algoritmusok (STING,CLIQUE,MAFIA)
o a dimenzió redukció feladata és lehetőségei klaszterezéshez
12. Gyakori elemhalmaz keresés, Apriori algoritmus, alkalmazási példa: tipikus ügyfélviselkedések kinyerése
13. Szófa a gyakori elemhalmazok tárolására, Apriori algoritmus gyorsítása: bemenet tárolása (piros-fekete fa), zsákutca nyesés
14. Asszociációs szabály fogalma, szabályok kinyerése, érdekességi mutatók, függetlenség meghatározása, hierarchikus asszociációs szabályok, asszociációs szabályok és az osztályozás, alkalmazási példa: ügyfél viselkedés, márka hűség előrejelzés, bankkártya csalás detektálása


A gyakorlati órák tartalma:
A heti egy óra laborgyakorlatot kéthetente megtartott duplaóra formájában bonyolítjuk. A hallgatók egy-egy témakört felölelő feladatlapokat kapnak, amit önállóan kell a laborban megoldaniuk tanári felügyelet mellett.
1. Néhány piacvezető adatbányászati szoftver bemutatása, előfeldolgozás, adattranszformációk
2. Osztályozás: legközelebbi szomszéd módszere, döntési szabályok
3. Osztályozás: döntési fák
4. Neurális hálózatok, Bayesi hálózatok, SVM osztályozás
5. Klaszterezés
6. Gyakori elemhalmaz keresés, asszociációs szabály keresés, eredmények interpretációja, asszociációs szabálykeresés buktatói , érdekességi mutatók
7. Házi feladatok beadása, ellenőrzése

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 3 óra előadás és 1 óra laboratórium.
10. Követelmények

A szorgalmi időszakban: 2 zárthelyi, 1 nagy házi feladat
A jegybe a zárthelyik és nagy házi feladat egyenlő (1/3) mértékben számítanak be.

Értékelés: 50%-tól elégséges (2), 60%-tól közepes (3), 70%-tól jó (4), 80%-tól jeles (5).

11. Pótlási lehetőségek Sikertelen zárthelyi pótlási lehetősége a zárthelyit követő héten pótzárthelyin.
A sikertelen (pót)zárthelyi a pótlási héten különeljárási díj ellenében egy további alkalommal pótolható.
A házi feladat a pótlási héten különeljárási díj ellenében pótolható.
12. Konzultációs lehetőségek Online formában a tárgy oktatóinál.
13. Jegyzet, tankönyv, felhasználható irodalom

[1] Bodon Ferenc, Buza Krisztián: Adatbányászat, 2013, http://www.cs.bme.hu/~buza/pdfs/adatbanyaszat-cover.pdf  

[2] Farkas Richárd, Kardkovács Zsolt Tivadar, Kovács László, Répási Tibor, Szarvas György, Szaszkó Sándor, Tikk Domonkos, Vázsonyi György: Szövegbányászat, 2007 

[3] scikit-learn, 2022, https://scikit-learn.org/ 

[4] pandas, 2022, https://pandas.pydata.org/   

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra56
Félévközi készülés órákra34
Felkészülés zárthelyire30
Házi feladat elkészítése30
Kijelölt írásos tananyag elsajátítása
Vizsgafelkészülés
Összesen150
15. A tantárgy tematikáját kidolgozta Dr. Pintér Márta, egyetemi docens, SZIT