Belépés címtáras azonosítással
magyar nyelvű adatlap
angol nyelvű adatlap
Nagyméretű adathalmazok kezelése
A tantárgy angol neve: Very Large Databases
Adatlap utolsó módosítása: 2014. október 1.
Mérnökinformatikus szak, MSc képzés
Számításelmélet mellékspecializáció
Név:
Beosztás:
Tanszék, Int.:
Dr. Katona Gyula
egyetemi docens
Számítástudományi és Információelméleti Tanszék
Daróczy Bálint
Megbízott előadó
MTA SZTAKI
Adatbázisok elmélete, gráfelmélet, alapvető algoritmikus technikák
A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.
A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.
A tárgy célja a nagy adathalmazok esetében felmerülő különleges elméleti és gyakorlati problémák áttekintése. A hallgatók betekintést kapnak a témakör modern irányzataiba, az adatbányászat, relációs adatbázisok, nagy gráfok, adatfolyamok elméleti és gyakorlati kérdésibe.
1. Gépi tanulás alapvető feladatai, diszkriminatív és generatív modellek, attribútum típusok,
2. Legközelebbi szomszéd keresés: normalizáció, távolság.
3. Döntési fák: faépítés modelljei (C4.5, regressziós fák), tisztasági mértékek, vágások,
4. Early- és post-pruning, folytonos változók kezelése.
5. Naive Bayes: folytonos változók kezelése, m-estimate.
6. Perceptron: aktiválási függvények, stochasztikus gradiens.
7. Klaszterezés: középpontos (k-Means, bisecting k-Means),
8. Sűrűség alapú módszerek (DBSCAN, OPTICS), hierarchikus klaszterezés (linkage).
9. Ajánló rendszerek: collaborative filtering (Mátrix faktorizáció, legközelebbi szomszéd módszerek), tartalom alapú ajánlás.
10. Keresés: index építés, ranking (tf-idf, BM25, PageRank)
11. Support vector machines (SVM): maximal margin, kernel függvények
12. Principal Component Analysis (PCA)
13. Mesterséges Neurális hálózatok (ANN): felügyelet nélküli (Restricted Boltzmann Machines)
14. Mesterséges Neurális hálózatok (ANN): felügyelt (Multilayer Percetpron) esetben.
A gyakorlatokon az előadáson ismertetett algoritmusokat próbálják ki a hallgatók.
A félév során 2 zárthelyi megírására kerül sor, ezek külön-külön legalább elégségesre (40%) való teljesítése az aláírás feltétele. Nem kötelező jelleggel lehetőség van házi feladat beadására is. A hf –re plusz pont adható, amivel a legalább elégséges eredmény esetén a zh pontok száma növelhető.
Vizsgaidőszak:
A zárthelyik alapján megajánlott jegy: 40%-54%:2, 55%-69%:3, 70%-84%:4, 85%-100%:5. Lehetőség van szóbeli vizsgán ezen a jegyen módosítani. A szóbeli vizsgán résztvevők esetében a zárthelyik összesen 60%-ban, a vizsga 40%-bn számít be a végső érdemjegybe.
Garcia-Molona, Ullman, Widom: Adatbázisrendszerek megvalósítása, Panem-John Wiley & Sons, (2001)
Bodon Ferenc- Buza Krisztián: Adatbányászat, kézirat: http://www.cs.bme.hu/~buza/pdfs/adatbanyaszat-cover.pdf
Tan-Steinbach-Kumar: Introduction to Data Mining, Pearson Educacion; 2nd Revised edition edition (2013)