Statisztikai módszerek az adatbányászatban

A tantárgy angol neve: Statistical Methods in Data Mining

Adatlap utolsó módosítása: 2006. július 1.

Tantárgy lejárati dátuma: 2009. november 24.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki Szak

Műszaki Informatika Szak

Választható tárgy

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITT9077 tavaszi 4/0/0/v 5 1/1
4. A tantárgy előadója

Név:

Beosztás:

Tanszék, Int.:

Maricza István

tudományos
segédmunkatárs

Távközlési és Médiainformatikai Tanszék

5. A tantárgy az alábbi témakörök ismeretére épít

Valószínűségszámítás

6. Előtanulmányi rend
Ajánlott:

-----

7. A tantárgy célkitűzése

A tárgy célja, hogy részletes bevezetést nyújtson az adatfeldolgozás és az adatbányászat alapvető fogalmaiba, kihangsúlyozva a számos, egymástól eltérő módszer közös statisztikai alapjait. Ez az egységes szemlélet lehetővé teszi a problémaközpontú megközelítést és segíti a hallgatókat abban, hogy ki tudják választani az alkalmazáshoz leginkább megfelelő algoritmust. Az elmondottak szemléltetésére komplex esettanulmányt mutatunk be.

8. A tantárgy részletes tematikája
  1. Bevezetés. Adatbányászat és kapcsolatai más tudományokkal: statisztika, tanuláselmélet, adatbázisok, algoritmuselmélet. Alkalmazási területek. Távközlési esettanulmány: előfizetői elvándorlás előrejelzése.
  2. Az adatbányászat folyamata. A módszerek általános struktúrája. “Score” függvények.
  3. Adatfeldolgozás. Adatok összefoglaló leírása, statisztikai alapfogalmak. Vizualizáció. Számítógépes lehetőségek áttekintése. Exploratív statiszikai elemzés.
  4. A bizonytalanság kezelése. Statisztikai tesztek. Maximum likelihood és Bayes-becslések.
  5. Modellépítés. Illeszkedésvizsgálat. Lineáris és nemlineáris regresszió. Diagnosztika.
  6. Mintakeresés adatmátrixokban.
  7. Nemparaméteres modellezés. Keverékek felbontása, EM algoritmus. Partíció alapú és hierarchikus klaszterezés.
  8. Prediktív modellezés, osztályozás. Döntési fák. Neurális hálók. Diszkriminancia-analízis. Legközelebbi szomszéd módszerek.
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

(előadás, gyakorlat, laboratórium):

előadás

10. Követelmények

a. A szorgalmi időszakban: a félév közepén egy zárthelyi dolgozat.
Fakultatívan: számítógépes feladatok, beadható házi feladatok

b. A vizsgaidőszakban: sikeres zárthelyi esetén szóbeli vizsga

  1. Elővizsga: kellő számú beadott házi feladat és/vagy számítógépes munka esetén
11. Pótlási lehetőségek

Ha a hallgató nem tud bejárni az előadásokra, akkor javasoljuk, hogy beszélje meg az előadóval az egyéni felkészülés lehetőségeit.

Az elmulasztott zárthelyi dolgozat szóbeli beszámolóval pótolható.

12. Konzultációs lehetőségek

Az előadóval történő egyéni egyeztetés alapján.

13. Jegyzet, tankönyv, felhasználható irodalom
  1. Hand-Mannila-Smyth: Principles of Data Mining. MIT Press, 2001
  2. Hastie-Tibshirani-Friedman: The Elements of Statistical Learning. Data Mining, Inference and Prediction. Springer 2001
  3. Han-Kamber: Data Mining. Concepts and Techniques. Morgan Kaufmann Publishers, 2001
  4. Bodon Ferenc: Adatbányászati algoritmusok (elektronikusan elérhető tanulmány)
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

(a tantárgyhoz tartozó tanulmányi idő körülbelüli felosztása a tanórák, továbbá a házi feladatok és a zárthelyik között (a felkészülésre, ill. a kidolgozásra átlagosan fordítandó/elvárható idők félévi munkaórában, kredit x 30 óra, pl. 5 kredit esetén 150 óra)):

Kontakt óra

60

Félévközi készülés órákra

25

Felkészülés zárthelyire

15

Házi feladat elkészítése

10

Vizsgafelkészülés

40

Összesen

150

15. A tantárgy tematikáját kidolgozta

Név:

Beosztás:

Tanszék, Int.:

Maricza István

tudományos segédmunkatárs

Távközlési és Médiainformatikai Tanszék