Szöveg- és webbányászat

A tantárgy angol neve: Text and Web Mining

Adatlap utolsó módosítása: 2014. október 2.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
Mérnökinformatikus szak, MSc képzés
Adat- és médiainformatika 
mellékspecializáció
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMMA06 2 2/1/0/v 4  
3. A tantárgyfelelős személy és tanszék Dr. Szűcs Gábor,
4. A tantárgy előadója

 Név:

 Beosztás:

 Tanszék, Int.:

 Dr. Szűcs Gábor PhD

 egyetemi docens

 BME-TMIT

 Gáspár Csaba

 egyetemi tanársegéd

 BME-TMIT



5. A tantárgy az alábbi témakörök ismeretére épít

Információs technológiák és eszközök. 

6. Előtanulmányi rend
Kötelező:
NEM ( TárgyEredmény( "BMEVITMM225" , "jegy" , _ ) >= 2
VAGY
TárgyEredmény( "BMEVIMIM222" , "jegy" , _ ) >= 2
VAGY
TárgyEredmény( "BMEVIMIMB01" , "jegy" , _ ) >= 2
VAGY
TárgyEredmény("BMEVITMM225", "FELVETEL", AktualisFelev()) > 0
VAGY
TárgyEredmény("BMEVIMIM222", "FELVETEL", AktualisFelev()) > 0
VAGY
TárgyEredmény("BMEVIMIMB01", "FELVETEL", AktualisFelev()) > 0
VAGY
TárgyEredmény( "BMEVITMMA19", "jegy" , _ ) >= 2
VAGY
TárgyEredmény("BMEVITMMA19", "FELVETEL", AktualisFelev()) > 0)

A fenti forma a Neptun sajátja, ezen technikai okokból nem változtattunk.

A kötelező előtanulmányi rend az adott szak honlapján és képzési programjában található.

7. A tantárgy célkitűzése

Az elektronikus szöveges és webtartalmak mennyiségének rohamos emelkedésével kiemelt fontosságúvá vált a tartalmak hatékony feldolgozása, amihez nélkülözhetetlen a megfelelő indexelő, annotáló és elemző módszerek használata. A hallgatók elméleti és gyakorlati oktatás keretei között tanulhatják meg az információ visszakeresést, web keresést, információ kinyerést szöveges állományokból, természetes nyelvű feldolgozást, információs hálókban és közösségi hálókban való tudás feltárást. A hallgatók elsajátítják azokat a szöveg- és webbányászati módszereket, melyek segítségével megvalósíthatók a szöveg korpuszokban a keresési és különböző elemzési feladatok, mint az automatikus annotáció, kivonatolás; illetve megoldható a webes felhasználók követése, szokásainak monitorozása és számukra megfelelő ajánlattétel előállítása. 

8. A tantárgy részletes tematikája

A tantárgy a szöveg- és webbányászat alapfogalmaitól indulva bemutatja a használt módszereket és azok alkalmazásait.

Bevezetés: Alapfogalmak, szöveg- és webbányászati problémák, alkalmazások.

Szövegindexelés: Szózsák modell. Szöveg automatikus előfeldolgozása mondatokra és szavakra bontással, szótövezéssel és index struktúra felépítésével.

Kifejezés keresés: szópár, valamint pozíció indexelés, permuterm index, írásmódjavítás, nyelvfelismerés.

Természetes nyelvű feldolgozás: NLP (Natural Language Processing) eszközök. Sekély elemzés. Mély elemzés: szintaktikai fa, függőségi fa. 

Névelem felismerés, reláció kinyerés, vélemény analízis (sentiment analysis) információs hálókban és közösségi hálókban.

Szövegbányászat: Szövegelemzés. Lineáris osztályozók. Szupport vektor gép alkalmazása szövegre. Automatikus annotáció.

Automatikus szöveg kivonatolás (legjellemzőbb mondatok kiválasztása), összegzés készítés.

Információ visszakeresés: Információ visszakereső rendszerek által használt modellek (Boole modell, vektor modell, klasszikus és valószínűségi modellek), és a rendszerek jóságának mérése (fedés, pontosság, diverzitás). 

Rangsorolás: szöveges tartalom alapú rangsoroló algoritmusok, link struktúra alapú rangsorolás: PageRank, HITS.

Webbányászat: web usage mining, felhasználók követési lehetőségei, Google Analytics. 

Adatelemzési esettanulmányok: elektronikus kereskedelmi oldal elemzése. Kiterjesztett feladatok, esettanulmányok: hírportálok, jegyvásárlás.

Ajánlórendszerek: célja, felépítése, típusai. Tartalom alapú és kollaboratív ajánló rendszerek: alap és szomszédosság alapú módszerek. 

Mátrixfaktorizáció alapjai, alapvető algoritmusai. Webes felhasználók számára megfelelő ajánlattétel előállítása.

Fejlettebb ajánlóalgoritmusok: kontextus modellezés, kontextus-vezérelt megoldások; általános faktorizációs keretrendszerek; a csoportajánlás problémája. Gyakorlati kérdések: online learning, ajánlórendszerek kiértékelése.

 
Gyakorlatok:
Szótövezés RapidMiner-rel (tokenizálás reguláris kifejezésekkel + szótövezés)
Szövegbányászat Weka-val. Mikro, makroátlagoló kiértékelés 
Sentiment analysis techniques (vélemény bányászat)
Metakeresés: forrás választás, dokumentum-választás, összeillesztő (merging) algoritmus, rank pozíció, dokumentum visszakeresési pontérték alapján
Webbányászati gyakorlat
Ajánlórendszerek tanítása 
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

Heti 2 óra előadás, 1 óra gyakorlat

10. Követelmények
A szorgalmi időszakban: 1 db zárthelyi és 1 db nagy házi feladat
A vizsgaidőszakban: A vizsga módja: írásbeli
Az aláírás feltétele a nagy házi feladat és a zárthelyi (beleértve a pótló zárthelyiket is: lásd a következő pontban) legalább elégséges szintre történő megírása.

11. Pótlási lehetőségek

A zárthelyi pótlására a szorgalmi időszakban egy lehetőséget biztosítunk. Azok számára, akiknek nem sikerült sem a zárthelyi, sem a pótzárthelyi: a pótlási időszakban 1 alkalmat biztosítunk egy újabb zárthelyi dolgozatra. Az aláírás feltétele valamelyik zárthelyi (első vagy a pót- vagy a pótpót-zárthelyi) legalább elégséges szintre történő megírása.

12. Konzultációs lehetőségek

A tárgy előadójával személyesen, vagy e-mailben egyeztetett időpontban.

13. Jegyzet, tankönyv, felhasználható irodalom
Tikk Domonkos: Szövegbányászat, Typotex, Budapest, 2007.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition) (ACM Press Books), Addison-Wesley Professional, 2011.
Francesco Ricci (Editor), Lior Rokach (Editor), Bracha Shapira (Editor), Paul B. Kantor (Editor): Recommender Systems Handbook, Springer, 2011

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra42
Félévközi készülés órákra18
Felkészülés zárthelyire25
Házi feladat elkészítése0
Kijelölt írásos tananyag elsajátítása0
Vizsgafelkészülés35
Összesen120
15. A tantárgy tematikáját kidolgozta

 Név:

 Beosztás:

 Tanszék, Int.:

 Dr. Sallai Gyula DSc

 egyetemi tanár

 BME-TMIT

 Dr. Szűcs Gábor PhD

 egyetemi docens

 BME-TMIT

 Gáspár Csaba

 egyetemi tanársegéd

 BME-TMIT

 Hidasi Balázs

 doktorandusz

 BME-TMIT

 Solt Illés

 doktorandusz

 BME-TMIT