Belépés címtáras azonosítással
magyar nyelvű adatlap
angol nyelvű adatlap
Adatbányászati algoritmusok
A tantárgy angol neve: Data Mining Algorithms
Adatlap utolsó módosítása: 2017. január 27.
PhD képzés
választható tárgy
- lineáris algebra alapismeretek
- programozási alapismeretek (legalább egy programozási nyelv ismerete)
- Adatbányászati algoritmusok és az adattudomány legfontosabb eszközeinek ismerete.
- Az adattudomány legfontosabb eszközeinek gyakorlati alkalmazására vonatkozó képesség elsajátítása.
- Lineáris és polinomiális egy- és többváltozós regresszió, kapcsolódó optimalizációs technikák: gradiens módszer, normál egyenlet
- Felügyelt gépi tanulás, osztályozás: legközelebbi szomszéd osztályozó, döntési fák, logisztikus regresszió, nemlineáris osztályozók, neurális hálók, support vektor gépek, idősorok osztályozása, dinamikus idővetemítés
- Haladó osztályozási technikák: részben-felügyelt tanulás (semi-supervised osztályozás), többosztályos feladatok, többfeladatos tanulási problémák, ensemble tanulás: bagging, boosting, stacking, ensemble tanulás Dietterich-féle modellje, csomósodás jelensége, csomósodást figyelembe vevő tanulási eljárások
- Tanuló algoritmusok értékelése: kereszt-validációs protokollok, bias-variance trade-off
- Klaszterezés: k-közép és változatai (k-medoids, FurthestFirst), hierarchikus klaszterező, Kleiberg-féle lehetetlenségelmélet, klaszterezés stabilitása, „klaszterezhetőség” fogalma, kapcsolat a konvergencia-sebesség és klaszterezhetőség között
- Főkomponens analízis, low-rank mátrix faktorizáció, collaborative filtering és alkalmazásaik (ajánlórendszerek, drug-target predikció)
- Sűrűségbecslés és anomáliakeresés
- Gyakori elemhalmaz-bányászat
- Orvosbiológiai adatok (pl. NGS adatok, génkifejeződés adatok, orvosbiológiai idősorok) feldolgozása és bányászata
- Alkalmazások és sikeres alkalmazásokhoz kapcsolódó kérdések: előfeldolgozás, változók skálázása, túltanulás, hiperparaméter-tanulás, tanulás kiegyensúlyozatlan osztályeloszlású adatokból
- Adattudomány legfontosabb eszközeinek alapjai: Octave/Matlab, Python, R, Hadoop.
a. A szorgalmi időszakban: 5 db házi feladat és személyes beszámolás a házi feladatokról
b. A vizsgaidőszakban: szóbeli vizsga
A házi feladatok a pótlási hét végéig pótolhatók.
Igény szerint, előzetes egyeztetés alapján az oktatóval.
Pang-Ning Tan, Michael Steinbach, Vipin Kumar:
Introduction to Data Mining
http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Bodon Ferenc, Buza Krisztián: Adatbányászat, elektronikus jegyzet
http://www.cs.bme.hu/~buza/pdfs/adatbanyaszat-cover.pdf