Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    'Big Data' elemzési eszközök nyílt forráskódú platformokon

    A tantárgy angol neve: Big Data Analytics Tools with Open-Source Platforms

    Adatlap utolsó módosítása: 2015. március 30.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar
    Mérnök informatikus szak
    Villamosmérnöki szak
    Gazdaságinformatikus szak 
    Szabadon választható tárgy
    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAV15   2/0/0/f 2  
    3. A tantárgyfelelős személy és tanszék Dr. Magyar Gábor Béla,
    4. A tantárgy előadója
     Név: Beosztás: Tanszék, Intézet:
     Prekopcsák Zoltán  ügyvivő szakértő  TMIT
     Gáspár Csaba  egyetemi tanársegéd  TMIT
     
    5. A tantárgy az alábbi témakörök ismeretére épít

    Alapszintű programozási ismeretek, algoritmuselméleti alapok

    6. Előtanulmányi rend
    Ajánlott:

    A tárgy tematikája tekintetében komplementer a 'Big Data' elemzési módszerek című tárggyal. Így javasolt a két társtárgy együttes felvétele, vagy egymás után elvégzése (tetszőleges sorrrendben). A társtárgyak felvétele egymástól függetlenül is lehetséges.

    7. A tantárgy célkitűzése

    A tárgy célja, hogy megismertesse a hallgatókkal a big data elemzésére alkalmas módszereket és algoritmusokat, különös tekintettel a széles körben elterjedt nyílt forráskódú technológiákra. A példák és a házi feladatok a Hadoop keretrendszerhez és más hozzá kapcsolódó technológiákhoz nyújtanak gyakorlati ismereteket. A hallgatók képesek lesznek nagy adatok elemzésére alkalmas rendszerek megtervezésére, létrehozására és elemzési feladatok megvalósítására.

    8. A tantárgy részletes tematikája
    1. Bevezetés. A nagy adat (big data) fogalma, jelentése. A térnyerést elősegítő trendek: hardver költségek csökkenése, felhő technológiák terjedése. Tipikus üzleti felhasználási területek áttekintése. A leginkább elterjedt adatelemzési platformok bemutatása.
    2. Az Apache Hadoop bemutatása, története. Elterjedt nyílt forráskódú csomagok és lekérdező eszközök áttekintése. A HDFS adattárolási mechanizmusa: blokkok, replikáció, tömörítés, elterjedt fájlformátumok. A Namenode, Secondary Namenode és a Datanode feladata, szerepe.
    3. A MapReduce programozási paradigma bemutatása. Néhány adatelemzési példa MapReduce segítségével. A Hadoop MapReduce működése, programozása. A Jobtracker és a Tasktracker feladata, szerepe.
    4. Hadoop MapReduce programozás Java nyelven. A Streaming API használata, MapReduce programozás további programnyelveken. Tipikus programozási minták, optimalizációs megoldások. A join művelet megvalósítása MapReduce paradigma szerint.
    5. Apache Hadoop klaszterek kiépítése, üzemeltetése, tipikus karbantartási feladatok. Saját gépeken, illetve felhőben futó klaszterek összevetése. Hardver elemek méretezése, főbb konfigurációs paraméterek beállításai. Meghibásodási lehetőségek, nagy rendelkezésreállás biztosítása a Namenode és a Jobtracker esetén.
    6. SQL alapú lekérdező eszközök áttekintése: Hive, Impala. A Hive és az Impala felépítése és működése, különbségek a klasszikus adatbázisokhoz képest. A HiveQL lekérdező nyelv funkciói és hiányosságai. Saját függvények (UDF, UDAF) fejlesztési lehetőségei.
    7. A Pig adatelemzési szkriptnyelv bemutatása, a nyelv tulajdonságai, főbb funkciói. Adattípusok, vezérlési szerkezetek. A Pig és a Hive összehasonlítása.
    8. Zárthelyi dolgozat megírása
    9. Esettanulmány: Nagy méretű log adatok gyűjtése és elemzése Hadoop alapokon. Logok elosztott és megbízható tárolása HDFS-en, azok rendszerezése és elemzése Hive és Pig segítségével. Elemzési és üzemeltetési tapasztalatok.
    10. Az HBase elosztott adatbázis bemutatása. Bloom szűrők használata a gyorsabb kiszolgálás érdekében. Összehasonlítás további elosztott adatbázisokkal: Apache Accumulo, Cassandra.
    11. Gépi tanulási és adatbányászati algoritmusok megvalósítása Hadoop alapokon. A Mahout csomag bemutatása. A MapReduce limitációi, iteratív és memória-alapú kiterjesztései.
    12. Az Apache Giraph és a GraphLab gépi tanulási algoritmusok bemutatása. A gráf alapú implementációk előnyei és korlátai. Tipikus felhasználási területek.
    13. Esettanulmányok: Big data elemzésére vonatkozó referencia architektúrák, technológiai megoldások, üzleti felhasználási területek. Néhány Hadoop alapú architektúra és felhasználás bemutatása.
    14. Zárthelyi dolgozat pótlása, házi feladatok bemutatása
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás
    10. Követelmények A szorgalmi időszakban: zárthelyi dolgozat, illetve házi feladat megoldása. A félévközi jegy a zárthelyi és a házi feladat osztályzatának átlaga.
    11. Pótlási lehetőségek A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása. A házi feladat pótlólagos leadása a pótlási időszakban lehetséges.
    12. Konzultációs lehetőségek

    Az oktatókkal való egyeztetés alapján.

    13. Jegyzet, tankönyv, felhasználható irodalom
    Kötelező irodalom
    1. Tom White: Hadoop: The Definitive Guide, O’Reilly, 3rd edition, 2012
    2. Edward Capriolo, Dean Wampler, Jason Rutherglen: Programming Hive, O’Reilly, 2012
    3. Lars George: HBase: The Definitive Guide, O’Reilly, 2011
    Ajánlott irodalom
    1. Chuck Lam: Hadoop in Action, Manning, 2010
    2. Eric Sammer: Hadoop Operations, O’Reilly, 2012 
    3. Donald Miner, Adam Shook: MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems, O’Reilly, 2012
    4. Sean Owen, Robin Anil, Ted Dunning, Ellen Friedman: Mahout in Action, Manning, 2011
    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontakt óra28
    Félévközi készülés órákra 7
    Felkészülés zárthelyire10
    Házi feladat elkészítése15
    Kijelölt írásos tananyag elsajátítása 0
    Vizsgafelkészülés 0
    Összesen60
    15. A tantárgy tematikáját kidolgozta
     Név: Beosztás: Tanszék, Intézet:
     Prekopcsák Zoltán ügyvivő szakértő TMIT
     Gáspár-Papanek Csaba egyetemi tanársegéd TMIT
     Dr. Magyar Gábor egyetemi docens TMIT
     Nagy Gábor doktorandusz TMIT
     Kazi Sándor doktorandusz TMIT
     Tóth Zoltán Csaba adatmérnök Prezi
     Szakács Balázs üzleti intelligencia vezető  Ustream