Budapest University of Technology and Economics, Faculty of Electrical Engineering and Informatics

    Belépés
    címtáras azonosítással

    vissza a tantárgylistához   nyomtatható verzió    

    Nyelvtechnológia

    A tantárgy angol neve: Natural Language Technologies and Applications

    Adatlap utolsó módosítása: 2006. július 1.

    Tantárgy lejárati dátuma: 2010. szeptember 22.

    Budapesti Műszaki és Gazdaságtudományi Egyetem
    Villamosmérnöki és Informatikai Kar

    Villamosmérnöki Szak

    Műszaki Informatika Szak

    Választható tárgy

    Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
    VITMAV02   2/0/2/v 5 1/1
    4. A tantárgy előadója

    Név:

    Beosztás:

    Tanszék, Int.:

    dr. Tikk Domonkos

    tudományos munkatárs

    TMIT

    Kardkovács Zsolt Tivadar

    tanársegéd

    TMIT

    5. A tantárgy az alábbi témakörök ismeretére épít

    Alapvető természetes nyelvi és szoftvertechnológiai ismeretek.

    6. Előtanulmányi rend
    Ajánlott:

    Nincs.

    7. A tantárgy célkitűzése

    A tárgy célkitűzése, hogy egyetemi oktatási és laborok keretein belül a hallgatók behatóan tanulmányozhassák a természetes nyelvi szövegfeldolgozás informatikai alapjait úgy, hogy egy egyszerűsített nyelvi feldolgozót építsenek egyetlen félév leforgása alatt. A tárgy kifejezetten az alkalmazott technológiák mérnöki megoldásával kíván foglalkozni, nem törekszik a problémák nyelvészet-centrikus elemzésére.

    Az előadások a feladat megoldásához szükséges információk rendezését, kiegészítését, tisztázását és a konzultációkat foglalják magukba.

    Korunk egyik legnagyobb kihívása az, hogy a számítógép és az ember közötti közvetítő réteg egyetlen, mindenki által jól használható elemből álljon – a (természetes) nyelvből. Az élet minden részén jelen levő hasonló technológia teljes kialakítása a közeli jövő egyik fontos eredménye lehet, illetve egyes területeken máris azzá vált. A tárgy keretében a nyelvtechnológiát használó rendszerek minél szélesebb és mélyebb megismerését tesszük lehetővé – elméleti és gyakorlati megoldásokat, illetve problémákat is bemutatva.

    8. A tantárgy részletes tematikája

    A tematika az egyes laborgyakorlatokhoz és előadásokhoz kötődik:

    Bevezető: Elméleti áttekintés

    1. A szövegfeldolgozási eszköztárak. A nyelv története, sajátosságai. A nyelvfeldolgozás története, céljai, problémái, trendjei. Fogalmi rendszerek pontosítása: adat, információ, tudás, tapasztalat, ismeret, értelem, jelentés, jelentéstartalom. Közlések és közlési formák és modellek tisztázása. Nyelvi bonyolultság fogalma.
    2. Bevezető: szó alapú nyelvtechnológiai alapeszközök megismerése

    3. Szófa. Szótövező eljárás és szóelválasztó építése reguláris kifejezések segítségével. Működésük a TeX rendszerben.
    4. Szótárak. Szótári alakra hozás szótárral. Morfológia jegyek levágása. Morfológia jegyek ragasztása. Egyéb generatív lehetőségek.
    5. Kifejezés alapú nyelvtechnológiai eszközök

    6. Dokumentum-visszakeresés. Relevancia, információérték. Indexelési stratégiák. Automatikus tárgyszavazás működése a TeX rendszerben.
    7. Névelemek azonosítása és felismerése. Köznevek. Tipikus összetett címkék. Címkék értelmezése. Idiómák kezelése szövegekben. Tezaurusz és ontológiák.
    8. Névutók, birtokos kifejezések, felsőfokú melléknevek problémái. Kérdések adatbázis-lekérdezésre való fordítása. A mélyháló.
    9. Szövegcentrikus nyelvtechnológiai eszközök

    10. Vonzatkerettárak. Szöveggenerálás.
    11. Sablon alapú fordítás lehetőségei.
    12. Hivatkozások feloldása szövegekben. Hobbs-algoritmus, Mitkov-módszer.
    13. Alkalmazott informatikai eszközök

    14. Kivonatolási problémák és megoldások. Lényegkiemelés minta alapú megoldásai. Hoax- és a phishingszűrés.
    15. Kategorizáló építése dokumentumok hierarchiába sorolásához. Spamszűrés.
    16. Osztályozó építése dokumentumok egy halmazához. Dinamikus osztályozási feladatok. Archívumok karbantartása.
    17. Hangos nyelvi eszközök

    18. Beszéd és írás kapcsolata. Fonetikus ábécé és átírás. Szó a beszédben. Végződések.
    19. Fonetikai kapcsolatok, kötések. Keresés beszédhanganyagokban. Hangminta-keresés.
    9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

    (előadás, gyakorlat, laboratórium):

    2 előadás + 2 laboratórium

    10. Követelmények
    1. A vizsgaidőszakban: szóbeli vizsga
    2. Elővizsga: van
    3. A vizsgába 50%-os súllyal beszámít a TVSZ által előírt részvételi számú laborgyakorlatokon szerzett osztályzatok átlaga. Ha a hallgató több laborgyakorlaton vett részt, akkor erre a kötelező hányadra előírt legjobb átlagot vesszük figyelembe.
    11. Pótlási lehetőségek

    Egy laborgyakorlat pótolható a félév végén.

    12. Konzultációs lehetőségek

    Előre egyeztetett időpontban bármikor és az előadásokon.

    13. Jegyzet, tankönyv, felhasználható irodalom

    Kiefer F.: Strukturális magyar nyelvtan, I és III. kötet (Mondattan, ill. Morfológia).

    Jurafsky, D.-Martin, J.H., Speech and Language Processing (An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition), 2000.

    14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

    Kontakt óra

    60

    Félévközi készülés órákra

    30

    Házi feladat elkészítése

    15

    Kijelölt írásos tananyag elsajátítása

    15

    Vizsgafelkészülés

    30

    Összesen

    150

    15. A tantárgy tematikáját kidolgozta

    Név:

    Beosztás:

    Tanszék, Int.:

    dr. Tikk Domonkos

    tudományos munkatárs

    TMIT

    Kardkovács Zsolt Tivadar

    tanársegéd

    TMIT