Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Szövegbányászat

    A tantárgy angol neve: Text Mining

    Adatlap utolsó módosítása: 2006. október 4.

    Tantárgy lejárati dátuma: 2009. november 24.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki Szak

    Műszaki Informatika Szak

    Választható tárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAV03   4/0/0/v 5 1/1
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Tikk Domonkos

    tudományos mts.

    TMIT

    Szaszkó SándordoktoranduszTMIT
    5. A tantárgy az alábbi témakörök ismeretére épít

    - Valószínűségszámítás alapjai

    - Alapszintű algoritmuselméleti, halmazelméleti és algebrai ismeretek

    7. A tantárgy célkitűzése

    Napjainkban az Internet széleskörű elterjedésével és az ott található dokumentumok számának rohamos növekedésével kiemelt fontosságúvá vált az Internetet való keresés támogatása, az ott található adattömeg strukturált rendszerezése, hatékony tárolása. Ugyanez a probléma fellép nagyobb vállalatok, intézmények, ill. hivatalok belső dokumentumtárolási, -keresési, -rendszerezési, -archiválási feladataiban. A jellemzően nem, vagy kevéssé strukturált szöveges dokumentumok feldolgozásának és rendszerezésének kérdéseivel foglalkozik a szövegbányászat szakterülete.

    A tárgy célja a szövegbányászat és a webes keresés területén alkalmazott modellezési eljárások és algoritmusok ismertetése.

    8. A tantárgy részletes tematikája

    Információ visszakeresés alapjai

    • Adattárolás célravezető formái: Invertált indexelés, szófrekvencia és szótár file-ok, ritkamátrixok, ugró pointerek
    • Különböző formátumú dokumentumok feldolgozása, index szavak kinyerése, szótövezés (Porter, Lovins), stopszó lista, karakter-átalakítás
    • Keresések: Bool algebra alapúak, NOT kezelése, hierarchikus keresés, keresések optimalizálása, “biword” indexelés
    • Index adtok tömörítése és a Wild-card keresés
    • Paraméteres és helyfüggő (cím, kivonat, bevezetés, stb.) alapú indexelés és keresés, tf´ idf vektortér
    • Indexelés és keresés XML dokumentumokban, XML “adatbázisok”

    Webes keresés

    • A webes keresés specialitásai, változás -> újraindexelés sebessége, rövid történeti áttekintés
    • Oldal sorrendező algoritmus (Page Rank), téma, illetve viselkedés alapú page rank
    • Hyperlink-Induced Topic Search (HITS), gyűjtő és tekintély lapok felderítése
    • (közel) másolt lapokat felderítő algoritmus
    • Webgráf tömörítésének eljárása
    • Webes keresés infrastruktúrája

    Keresést segítő módszerek: Csoportosítás, kategorizálás és tezaurusz

    Csoportosítás (klaszterezés)

    • Alulról felfelé, föntről lefelé építkező algoritmusok, K-közép algoritmus, Link alapú csoportosítás
    • Számítási bonyolultság kezelése; dimenziószám csökkentése
    • Csoportosítás és kategorizálás összevetése, csoportosítás alkalmazásai

    Kategorizálás

    • Kategorizálási módszerek osztályozása: bináris, többkategóriás, többcímkés és hierarchikus kategorizálás
    • Hatékonyság mérése különböző kategorizálás-típusok esetén.
    • Alapvető technikák megismerése: Naiv Bayes modell, legközelebbi szomszédok módszer, döntési fa módszerek, neurális hálózat alapú módszerek
    • Tesztdokumentum-gyűjtemények
    • Kategorizálás hierarchikus rendszerekbe

    Tezaurusz

    • Szinonima szótárból automatikusan kinyert tezaurusz
    • Cooccurrence alapú tezaurusz, közelítő számítási módszerek
    • Tezauruszok alkalmazása IR-ben, kvázi tezauruszok egyéb alkalmazásai

    Információ kinyerés (IE)

    • Különböző típusú információk folyószövegből, HTML oldalakról, stb. kinyerése, rendszerbe rakása
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    :

    Heti 2x2 óra előadás

    10. Követelmények

    a. A szorgalmi időszakban: nagy zárthelyi a 13. tanítási héten

    b. A vizsgaidőszakban: A vizsga módja: írásbeli

    Megfelelő eredményű ZH és kiselőadás tartása vagy nagy házi feladat készítése esetén vizsgajegyet ajánlunk meg

    11. Pótlási lehetőségek

    A zárthelyi pótlására a félév során egy lehetőséget biztosítunk, Vizsgaidőszakban az aláírás gyak. IV jelleggel szerezhető meg.

    12. Konzultációs lehetőségek

    A tárgy előadóival személyesen, vagy e-mailben egyeztetett időpontban.

    13. Jegyzet, tankönyv, felhasználható irodalom

    Yates and Ribeiro-Neto: Modern Information Retrieval 2001

    Witten, Moffat, and Bell: Managing Gigabytes

    Weben található segédanyagok

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

    (a tantárgyhoz tartozó tanulmányi idő körülbelüli felosztása a tanórák, továbbá a házi feladatok és a zárthelyik között (a felkészülésre, ill. a kidolgozásra átlagosan fordítandó/elvárható idők félévi munkaórában, kredit x 30 óra, pl. 5 kredit esetén 150 óra)):

     

    Kontakt óra

    60

    Félévközi készülés órákra

    10

    Felkészülés zárthelyire

    25

    Kijelölt írásos tananyag elsajátítása

    30

    Vizsgafelkészülés

    25

    Összesen

    150

    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    Dr. Tikk Domonkos

    tudományos mts.

    TMIT