Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Adatbányászati algoritmusok

    A tantárgy angol neve: Data Mining Algorithms

    Adatlap utolsó módosítása: 2017. január 27.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    PhD képzés

    választható tárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VISZD308   4/0/0/v 5  
    3. A tantárgyfelelős személy és tanszék Dr. Katona Gyula,
    4. A tantárgy előadója
    Dr. Buza Krisztián tudományos munkatárs MTA-TTK
    Dr Katona Gyula egyetemi docens Számítástudományi és Információelméleti Tanszék
    5. A tantárgy az alábbi témakörök ismeretére épít

    - lineáris algebra alapismeretek

    - programozási alapismeretek (legalább egy programozási nyelv ismerete)

    6. Előtanulmányi rend
    Ajánlott:
    nincs
    7. A tantárgy célkitűzése

    - Adatbányászati algoritmusok és az adattudomány legfontosabb eszközeinek ismerete.

    - Az adattudomány legfontosabb eszközeinek gyakorlati alkalmazására vonatkozó képesség elsajátítása.

    8. A tantárgy részletes tematikája

    - Lineáris és polinomiális egy- és többváltozós regresszió, kapcsolódó optimalizációs technikák: gradiens módszer, normál egyenlet

    - Felügyelt gépi tanulás, osztályozás: legközelebbi szomszéd osztályozó, döntési fák,  logisztikus regresszió, nemlineáris osztályozók, neurális hálók, support vektor gépek, idősorok osztályozása, dinamikus idővetemítés

    - Haladó osztályozási technikák: részben-felügyelt tanulás (semi-supervised osztályozás), többosztályos feladatok, többfeladatos tanulási problémák, ensemble tanulás: bagging, boosting, stacking, ensemble tanulás Dietterich-féle modellje, csomósodás jelensége, csomósodást figyelembe vevő tanulási eljárások

    - Tanuló algoritmusok értékelése: kereszt-validációs protokollok, bias-variance trade-off

    - Klaszterezés: k-közép és változatai (k-medoids, FurthestFirst), hierarchikus klaszterező, Kleiberg-féle lehetetlenségelmélet, klaszterezés stabilitása, „klaszterezhetőség” fogalma, kapcsolat a konvergencia-sebesség és klaszterezhetőség között

    - Főkomponens analízis, low-rank mátrix faktorizáció, collaborative filtering és alkalmazásaik (ajánlórendszerek, drug-target predikció)

    - Sűrűségbecslés és anomáliakeresés

    - Gyakori elemhalmaz-bányászat

    - Orvosbiológiai adatok (pl. NGS adatok, génkifejeződés adatok, orvosbiológiai idősorok) feldolgozása és bányászata

    - Alkalmazások és sikeres alkalmazásokhoz kapcsolódó kérdések: előfeldolgozás, változók skálázása, túltanulás, hiperparaméter-tanulás, tanulás kiegyensúlyozatlan osztályeloszlású adatokból

    - Adattudomány legfontosabb eszközeinek alapjai: Octave/Matlab, Python, R, Hadoop.

    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) heti 2x2 óra előadás
    10. Követelmények

    a.       A szorgalmi időszakban:  5 db házi feladat és személyes beszámolás a házi feladatokról

    b.       A vizsgaidőszakban:  szóbeli vizsga

    c.         Elővizsga: lehetséges
    11. Pótlási lehetőségek

    A házi feladatok a pótlási hét végéig pótolhatók.

    12. Konzultációs lehetőségek

    Igény szerint, előzetes egyeztetés alapján az oktatóval.

    13. Jegyzet, tankönyv, felhasználható irodalom

    Pang-Ning Tan, Michael Steinbach, Vipin Kumar:

    Introduction to Data Mining 

    http://www-users.cs.umn.edu/~kumar/dmbook/index.php

     

    Bodon Ferenc, Buza Krisztián: Adatbányászat, elektronikus jegyzet

    http://www.cs.bme.hu/~buza/pdfs/adatbanyaszat-cover.pdf

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra56
    Félévközi készülés órákra14
    Felkészülés zárthelyire25
    Házi feladat elkészítése25
    Kijelölt írásos tananyag elsajátítása0
    Vizsgafelkészülés30
    Összesen 150
    15. A tantárgy tematikáját kidolgozta Dr. Buza Krisztián, tudományos munkatárs, MTA-TTK