Alkalmazott adatelemzés

A tantárgy angol neve: Applied Data Analysis

Adatlap utolsó módosítása: 2015. március 30.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
Mérnök informatikus szak
Villamosmérnöki szak
Gazdaságinformatikus szak 
Szabadon választható tárgy
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMAV14   2/0/2/v 4  
3. A tantárgyfelelős személy és tanszék Dr. Magyar Gábor Béla,
4. A tantárgy előadója

 Név: Beosztás: Tanszék, Intézet:
 Gáspár Csaba egyetemi tanársegéd  TMIT
 Nagy István tanszéki mérnök  TMIT

 

 

5. A tantárgy az alábbi témakörök ismeretére épít

Alapszintű programozási ismeretek, alapvető adat- és algoritmuselméleti alapfogalmak

6. Előtanulmányi rend
Ajánlott:
nincs
7. A tantárgy célkitűzése

A tárgy célja, hogy gyakorlati oldalról mutassa be a hallgatóknak az adatelemzés során leggyakrabban használt nyelveket és eszközöket. Az előadások, laboratóriumi foglalkozások, valamint a házi feladatok során bemutatott és megoldott valós esettanulmányokon keresztül olyan alkalmazott tudáshoz jutnak, amellyel a jövőben képesek lesznek bármilyen adatelemzési feladat megoldására.

8. A tantárgy részletes tematikája
  1. Előadás: Bevezetés. A leginkább elterjedt adatelemzési nyelvek és megoldások bemutatása. Shell script, mint adatelemzési eszköz. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  2. Előadás: Awk és sed, reguláris kifejezések. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  3. Előadás: Az R nyelv alapjainak bemutatása: használt programozási paradigma, változók, értékadás és egyszerű típusok, fontosabb operátorok, vektorok, szekvenciák. R vezérlési szerkezetek és függvények. Adatbevitel, adat transzformációk és adatok csoportosítása, valószínűségi operátorok, alapstatisztikák. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  4. Előadás: R-ben használt további adatstruktúrák és használatukhoz szükséges operátorok: listák, faktorok, mátrixok, data frame. Speciális adattípusok és használatukhoz szükséges operátorok: sztringek és dátumok. R modellezési eljárások (osztályozás, regresszió), optimalizálás, feature extraction és selection módszerek.  Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós telekommunikációs adatsoron.
  5. Előadás: A SAS nyelv alapjainak bemutatása: programozási paradigma, data lépés, alapvető adattárolási struktúrák és vezérlési szerkezetek, táblaegyesítési módszerek (set join). Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  6. Előadás: SAS eljárások és statisztikai megjelenítések. Adattisztítási módszerek. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  7. Előadás: SAS makró nyelv, makró változók, makró programok, program író makrók. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  8. Előadás: SAS nyelv használata regressziós és klaszterezési problémák esetében. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós banki adathalmazon.
  9. Előadás: A Python nyelv alapjainak bemutatása: programozási paradigma, adattárolási struktúrák (pandas) és a feldolgozásukhoz szükséges operátorok. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  10. Előadás: Python vezérlési szerkezetek és függvények. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  11. Előadás: Idősorok elemzése Pythonnal: tartományok és kezelésük, időzónák kezelése, mintavételezés és frekvenciakonverzió, modellezési és megjelenítési kérdések. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós tőzsdei adatsoron.
  12. Előadás: Eddigi nyelvek összehasonlítása, az egyes nyelvek előnyeinek és hátrányainak összefoglalása. Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
  13. Előadás: Kitekintés, nagy adathalmazok kezelésére szánt technológiák (MapReduce, Pig, Hive), speciális adatszerkezetek kezelésére létrehozott technológiák (GraphLab), egyéb adatfeldolgozási paradigmák áttekintése.  Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
  14. Előadás: Esettanulmányok: valós üzleti problémák megoldásának bemutatása az előadás során ismertetett eszközökkel. Labor: példa vizsgafeladatok megoldása közösen.
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Heti 2 óra előadás és 2 óra laboratórium.

 

10. Követelmények
  • A szorgalmi időszakban minden nagyobb blokkhoz (3) gyakorlati kisházi feladat kapcsolódik, amelynek keretében a hallgatónak valós adathalmazokon kell, valós adatelemzési feladatokat megoldani. Az elfogadott (legalább elégséges szintű) házifeladatok a félévvégi aláírás feltételei.
  • A vizsgaidőszakban írásbeli vizsga. A végső vizsgajegy megállapítása: 50%-ban a kisházi feladatok átlagos eredménye + 50%-ban a vizsgán nyújtott teljesítmény. 
11. Pótlási lehetőségek A házi feladatok közül egy késedelmes pótlása a pótlási héten, annak végéig történhet.
12. Konzultációs lehetőségek

Az oktatókkal való egyeztetés alapján.

13. Jegyzet, tankönyv, felhasználható irodalom
  1. Dale Dougherty and Arnold Robbins: sed & awk, 2nd edition. 1997, O'Reilly Media. ISBN 978-1-56592-225-9
  2. Philipp K. Janert: Data Analysis with Open Source Tools. A hands-on guide for programmers and data scientists. 2010, O'Reilly Media. ISBN 978-0-596-80235-6
  3. W. N. Venables, D. M. Smith: An Introduction to R.  URL http://cran.r-project.org/doc/R-intro.pdf
  4. Lora D. Delwiche, Susan J. Slaughter: The Little SASŸ Book: A Primer, Fourth Edition. Cary, NC, USA, 2008, SAS Institute Inc. ISBN 978-1-59994-725-9
  5. Wes McKinney: Python for Data Analysis. Agile Tools for Real World Data. 2012, O'Reilly Media. ISBN 978-1-4493-1979-3
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra  56
Félévközi készülés órákra  14
Felkészülés zárthelyire   0
Házi feladat elkészítése  35
Kijelölt írásos tananyag elsajátítása   0
Vizsgafelkészülés  15
Összesen120
15. A tantárgy tematikáját kidolgozta

 
 Név: Beosztás: Tanszék, Intézet:
 Nagy István tanszéki mérnök TMIT
 Gáspár-Papanek Csaba  egyetemi tanársegéd  TMIT
 Dr. Magyar Gábor PhD  egyetemi docens TMIT
 Barta Gergő PhD hallgató TMIT
 Kazi Sándor PhD hallgató TMIT
 Nagy Gábor PhD hallgató TMIT