Média- és szövegbányászat

A tantárgy angol neve: Media and Text Mining

Adatlap utolsó módosítása: 2022. október 22.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Gazdaságinformatikus szak, MSc képzés

Gazdasági elemző informatika specializáció

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMM277 2,3 3/0/1/v 6  
3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
4. A tantárgy előadója Dr. Szűcs Gábor, egyetemi docens, TMIT
5. A tantárgy az alábbi témakörök ismeretére épít matematikai alapismeretek, valószínűségszámítás
6. Előtanulmányi rend
Ajánlott:
Ajánlott: Adatbányászati technikák
7. A tantárgy célkitűzése A tárgy célkitűzése a hallgatók bevezetése a tartalom- és információkereső szolgáltatások világába a szövegfeldolgozástól a médiafolyamokig. A hallgatók megismerik a szöveg- és médiakeresési technikákat, elsajátítják a mélytanulási technikákat alkalmazó média- és szövegelemzési módszereket, valamint képesek lesznek döntéseket hozni vállalati keresőrendszerek, médiatartalom-kezelő rendszerek kialakításánál.
8. A tantárgy részletes tematikája
Előadások:
Felmerülő problémák gazdasági elemző témakörben multinacionális vállalatoknál. Tipikus feladattípusok a média- és szövegbányászatban. 
Média- és szöveganalízis módszerei, keresési technikák, indexelés, rangsorolási eljárások. Szózsák modell. Információvisszakeresés modelljei: Boole modell és Vektor modell. Súlyozási sémák (tf-idf), koszinusz hasonlóság. Keresési kifejezés optimalizációja. Keresés a Weben, webbányászat.
Szövegelőkészítési lépések. Tokenizálás, szótövező algoritmusok, Porter, Lovins szótövezők. Sekély és mély szintaktikai elemzés. Szófaj-meghatározás. Szintaxis fát, illetve függőségi gráfokat generáló elemzők. Stanford eszközök.  
Nyelvdetektálás, nyelvfüggőség, Zipf törvény. NLP (Natural Language Processing) eszközök.
Névelemfelismerés, relációkinyerés szövegből. A relációkinyerés jellemző megközelítései: együttes előfordulás, mintaillesztéses módszerek, felügyelt gépi tanulási módszerek. Véleményanalízis, mint a piackutatás modern eszköze.
Mély neurális hálók használata a szövegelemzésben (LSTM - Long Short-Term Memory) és képi, videó tartalmak elemzésében (CNN - Convolutional Neural Network).
Médiaosztályozás képekre, videókra. Előfeldolgozási lépések. Médiaosztályozás típusai, módszerei. CBIR (Context-Based Image Retrieval), egyszerű képfeldolgozó eljárások. 
Képi és szöveg modalitások összekapcsolása. Mélytanuló módszerek, rendszerek. Generative Adversarial Network (GAN).
A szövegkorpuszok és média adathalmazok problématerének redukciója, jellemző kinyerő és jellemző kiválasztó technikák.
Szövegosztályozás. Szövegosztályozás típusai, módszerei. Naïve Bayes osztályozó. Rocchio algoritmus. Automatikus szövegfeldolgozás (szöveg generálás mélytanulással). 
Vállalatoknál használt chatbotok, virtuális asszisztensek.
Költséghatékony osztályozás. Aktív tanulás. Együttes osztályozók. Média és szöveges adathalmazok klaszterezése.
Egycímkés és többcímkés szövegosztályozás. Változás követés az osztályozási feladatokban. Concept drift. 
Média ajánlórendszerek.

A laboroknál használ programozási nyelv a Python (illetve egyes gyakorlatoknál a RapidMiner eszköz) a megfelelő programkönyvtárakkal. Laborok:
Súlyozási séma (tf-idf) számolása szöveges korpuszhoz. 
Szövegelőkészítés, indexelés, szótövezés.
Véleményanalízis.
Számjegy felismerési feladat Keras programkönyvtárral.
Mélytanuló módszerek alkalmazása.
Hatékony osztályozás (szövegkorpuszokon, média adathalmazokon).
Szövegbányászati alkalmazás gazdasági területen.
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) A laboratóriumi gyakorlatokat kétheti gyakorisággal csoportosítjuk, a többi óra előadás.
10. Követelmények

a.  A szorgalmi időszakban: egy zárthelyi.

b.  A vizsgaidőszakban: a szorgalmi időszakban kiadott házi feladat megoldásának elkészítése (írásbeli), vizsgán való megvédése (szóbeli).

c.  Az aláírás feltétele a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.  A zárthelyi illetve pót-zárthelyi eredményes, ha a maximális pontszám legalább 40%-t elérte a hallgató.

d.  A laboratóriumi gyakorlatokból legalább ötöt kell sikeresen megoldani az aláírás megszerzéséhez.

A vizsga 2 részből áll: szóbeli a félév teljes tananyagából és a korábban írásban benyújtott házi feladat megvédéséből. A jegy kialakításában a 2 rész 50-50%-ban számít bele. 

11. Pótlási lehetőségek A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. A laboratóriumi gyakorlatok pótlására nincs lehetőség. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása és legalább 5 sikeres laboratóriumi gyakorlat.
12. Konzultációs lehetőségek Előadóknál előre egyeztetett időpontokban.
13. Jegyzet, tankönyv, felhasználható irodalom

Blanken, de Vries, Blok, Fres (eds): Multimedia Retrieval. Springer, 2007.

Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze: Introduction to Information Retrieval. Cambridge University Press, 2008

Ronen Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2007
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra56
Félévközi készülés órákra18
Felkészülés zárthelyire20
Házi feladat elkészítése46
Kijelölt írásos tananyag elsajátítása0
Vizsgafelkészülés40
Összesen180
15. A tantárgy tematikáját kidolgozta Dr. Szűcs Gábor, egyetemi docens, TMIT