Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    'Big Data' elemzési módszerek

    A tantárgy angol neve: Big Data Analysis Techniques

    Adatlap utolsó módosítása: 2021. június 9.

    Tantárgy lejárati dátuma: 2023. július 31.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Mérnök informatikus alapszak

    Villamosmérnöki alapszak

    Villamosmérnöki szak

    Mérnök informatikus szak

    Gazdaságinformatikus szak

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VIMIAV02   2/0/0/f 2  
    3. A tantárgyfelelős személy és tanszék Dr. Kocsis Imre,
    A tantárgy tanszéki weboldala https://www.mit.bme.hu/oktatas/targyak/vimiav02
    4. A tantárgy előadója

    Dr. Pataricza András egyetemi tanár, Méréstechnika és Információs Rendszerek Tanszék

    Dr. Kocsis Imre adjunktus, Méréstechnika és Információs Rendszerek Tanszék

    5. A tantárgy az alábbi témakörök ismeretére épít

    valószínűségszámítás és mesterséges intelligencia/gépi tanulás alapjai

    6. Előtanulmányi rend
    Ajánlott:
    A tárgy tematikája tekintetében komplementer a ’Big Data’ elemzési eszközök nyílt forráskódú platformokon c. tárggyal. Így javasolt a két társtárgy együttes felvétele, vagy egymás után elvégzése (tetszőleges sorrendben). A társtárgyak felvétele egymástól függetlenül is lehetséges
    7. A tantárgy célkitűzése

    Az utóbbi évtizedekben exponenciálisan növekvő mennyiségű mérési, megfigyelési adatot rögzí­tenek az élet minden területén (gazdasági folyamatok, társadalmi viszonyok, tudományos célú vizsgálatok stb.). Az adatelemzés célja a gyakran mintegy melléktermékként létrejövő adatokban rejlő tudás kinyerése, az adatkapcsolatok felderítése, előrejelzési modellek generálása, stb.

    A nagymennyiségű adat elemzésénél, az ún. Big Data problémakörben az adatok óriási mennyi­sége (tera-, peta-, ill. hexabyte méretű adatbázisok) mellett nehézség a legkülönfélébb formában rendelkezésre álló adatok fúziója és homogenizálása is. Az egyre nagyobb feldolgozási kapa­citású számítási eszközök mellett célalgoritmusok és -architektúrák biztosítják az óriási adat­mennyiség elérhető árú és idő alatti hatékony elemzését.

    Az új lehetőségek olyan új kérdéseket vetnek fel, mint a megfelelő adatok megszerzését biztosító kísérlettervezés, a mérés megtervezése, valamint a megszerzett adat elemzése. A Big Data körében kritikus szempont az adatelemzési módszerek megfelelő skálázhatósága, a számítási komplexitás növekedésének kézbentartása, továbbá a sokdimenziós adatok hatékony ábrázo­lása, vizualizációja.

    A tárgy célja, a Big Data problémakör megoldását biztosító eszközök és módszerek áttekintése, a nagy adatmennyiségből adódó speciális problémák kezelése. A tárgyaláshoz több szempontból előnyös, közös nevező a komplex modellek használata, valamint az adatok hatékony ábrázolása, vizualizációja, ide értve a vizuális adatelemzés lehetőségeinek áttekintését is.

    A tantárgy követelményeit eredményesen teljesítő hallgatók:

    1.   Ismerik az elemzésre szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközö­ket, valamint a kinyert tudás integrációját a tipikus informatikai kulcsterületeken. Ezen belül jártasak az elterjedten használt, nyílt forráskódú R nyelvű eszközök és azok Big Data irányú kiterjesztéseinek használatában.

    2.   Képesek az informatika széles területén az ismeretszerzési folyamatok tervezésére, végrehajtására és eredményük szabatos reprezentációjára. Ismerik a kísérlettervezés, adatminőség-biztosítás, adattisztí­tás, adatelemzés, értelmezés, döntéstámogatás és modellalkotás fázisait.

    3.    Ismerik a klasszikus statisztikai döntéselméleti alapokat, különös tekintettel az optimali­zálási és minta-
           vételi technikákra. Megismernek néhány, a’Big Data’ informatika területén kulcsszerepet játszó területet
           (pl. ritka adat analízis).

     

    8. A tantárgy részletes tematikája
    • 1. hét Bevezetés. A Big Data probléma áttekintése és megfogalmazása különböző alkalmazási területekről származó gyakorlati példákon keresztül. A Big Data analízis céljai. A kiértékelés és értelmezés problémája. Adatintegrálás, tudásfúzió. Adatmodellezés és informatikai alkalmazásmodel­lek kapcsolata.
    • 2. hét. Adatgyűjtés és -kiértékelés alapjai. Kísérlettervezés. A statisztikai adatok sokfélesége. Információfúzió. Megfigyelt változók és kapcsolataik jellemzése: alapvető statisztikai fogalmak.
    • 3. hét Adatfeldolgozó és statisztikai keretrendszerek; az R környezet és adaptálása a Big Data problémára. Példa: számítógépes loganalízis.
    • 4. hét Adatok vizualizációja. Sokdimenziós, bonyolult szerkezetű adatok megjelenítése és vizuális feltáró analízise. Vizuális analízis paradigmák, diagramtípusok és felhasználásuk.
    • 5. hét Statikus és interaktív R vizualizációs csomagok; Mondrian. A felhasználói vizualizáció eszközei (processing.js alapok).  Példák: cloud teljesítményanalízis, számítógépes csalásfelderítés.
    • 6. hét Klasszikus adatelemzés alapú modellalkotás. Korrelációanalízis, klaszterező és klasszifikációs módszerek, adatkapcsolatok. Dimen­zióredukció és alkalmazása az informatikában.
    • 7. hét Lineáris és nemlineáris modellek. Hiányos adatok kezelése. Példa: számítógéprendszer monitorozandó jellemzőinek kiválasztása. Analízis minták, az adatelemzési munkafolyamat-automatizálás eszközei (KNIME, KEPLER).
    • 8. hét Big Data’ statisztikai modellezés. Mintavételezés, szűrés, nagy adattömegre adaptált statisztikai modellezés és eszközei (pl. korrelációk, klaszterező módszerek, neurális hálók, kernel módszerek).
    • 9. hét Modelladaptáció. Modellek alkalmazása futási időben. Példa: szenzorkiválasztás monitorozó rendszerben. 
    • 10. hét Párhuzamosított feldolgozás eszközei. Finom és durva granularitású párhuzamosítás; adattárolás és –feldolgozás algoritmikus harmonizálása. Többmagos, FPGA, GPU, Grid, MapReduce/Hadoop és kapcsolódó eszközök bemutatása.
    • 11. hét Az eszközök beágyazása statisztikai keretrendszerekbe, Revolution, Oracle és IBM R megoldások. Példa: egy benchmark probléma összehasonlítása a különböző platformokon.
    • 12. hét Modellek hordozása az adatelemzési és informatikai modelltartományok között (PMML). A kinyert modellek ellenőrzése és általánosítása. Validálás, verifikálás. Érzékenység­analízis, metakategorizálási szabályok kinyerése. Példa: szoftver és webes alkalmazás teljesítményanalízise.
    • 13. hét Alkalmazások. Esettanulmányok.
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)
    • előadás
    10. Követelmények
    • Egy kötelező házi feladat. A házi feladat egy gyakorlati ‘Big Data' probléma megoldása az előadáson megismert módszerek és eszközök segítségével. A házi feladat bemutatása és értékelése az utolsó oktatási héten történik, egy közös nyilvános bemutató keretében.
    11. Pótlási lehetőségek

    A házi feladat késedelmes teljesítésére a pótlási időszak végéig van lehetőség oly módon, hogy a hallgató a feladat megoldását beadja és a tárgy előadóival egyeztetett időpontban rövid előadás formájában (hasonlóan a nem késedelmes teljesítéshez) bemutatja. A késedelmes teljesítést - a TVSZ-szel konform módon - a késedelmesen leadott és bemutatott feladat értékelésének húsz százalékkal csökkentésével vesszük figyelembe. A nem késedelmesen leadott, de késedelmesen bemutatott feladatokra ugyanezen szabályok vonatkoznak; házi feladatot bemutatás nélkül nem fogadunk el. A pótlási időszak végéig lehetőség van a leadott, bemutatott és elfogadott házi feladatok - a tárgy oktatóival egyeztetett - kiegészítésére és javítására is.

    12. Konzultációs lehetőségek

    Igény szerint, előre egyeztetett időpontban.

    13. Jegyzet, tankönyv, felhasználható irodalom

    S.L. Lauritzen: Graphical Models, Clarendon Press, Oxford, 1996, ISBN 0-19-852219-3

    M I. Jordan: Learning in Graphical Models (Adaptive Computation and Machine Learning), The MIT Press, 1998, ISBN 0-262-60032-3

    M. Theus, S. Urbanek: Interactive Graphics for Data Analysis, CRC Press, 2009, ISBN 978-1-58488-594-8.

    C. Chen, W. Härdle, A. Unwin: Handbook of Data Visualization, Springer Verlag Berlin Heidelberg, 2008, ISBN 978-3-540-33036-3

    M.J. Crawley: The R Book, second edition, John Wiley & Sons, 2013, ISBN 978-0-470-97392-9

    L. Torgo: Data Mining with R, Chapman & Hall/CRC, 2011, ISBN 978-1-4398-1018-7

    D. Conway: Machine Learning for Hackers, O’Reilly Media, 2012, ISBN 978-1-449-30371-6

    A.J. Izenman: Modern Multivariate Statistical Techniques, Springer Science+Business Media, 2008, ISBN 978-0-387-78189-1

    J. He: Analysis of Rare Categories, Springer, 2012, ISBN 978-3-642-22813-1

    A. Guazzelli, W. Lin, T. Jena, J. Taylor: PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics, CreateSpace, 2010, ISBN 978-1-452- 85826-5

     

    Az itt megjelölt irodalom mellett a tárgy honlapján elérhetővé tett publikáció-hivatkozások.

     

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
    Kontaktóra28
    Készülés előadásra6
    Házi feladat elkészítése

    26

    Összesen 60
    15. A tantárgy tematikáját kidolgozta

    Dr. Horváth Gábor

    egyetemi docens

    MIT

    Dr. Pataricza András

    egyetemi tanár

    MIT

    Kocsis Imre

    tud. smt.

    MIT

    Egyéb megjegyzések A tárgy címe angolul: Big data analysis techniques