Nyelvtechnológia

A tantárgy angol neve: Natural Language Technologies and Applications

Adatlap utolsó módosítása: 2006. július 1.

Tantárgy lejárati dátuma: 2010. szeptember 22.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki Szak

Műszaki Informatika Szak

Választható tárgy

Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMAV02   2/0/2/v 5 1/1
4. A tantárgy előadója

Név:

Beosztás:

Tanszék, Int.:

dr. Tikk Domonkos

tudományos munkatárs

TMIT

Kardkovács Zsolt Tivadar

tanársegéd

TMIT

5. A tantárgy az alábbi témakörök ismeretére épít

Alapvető természetes nyelvi és szoftvertechnológiai ismeretek.

6. Előtanulmányi rend
Ajánlott:

Nincs.

7. A tantárgy célkitűzése

A tárgy célkitűzése, hogy egyetemi oktatási és laborok keretein belül a hallgatók behatóan tanulmányozhassák a természetes nyelvi szövegfeldolgozás informatikai alapjait úgy, hogy egy egyszerűsített nyelvi feldolgozót építsenek egyetlen félév leforgása alatt. A tárgy kifejezetten az alkalmazott technológiák mérnöki megoldásával kíván foglalkozni, nem törekszik a problémák nyelvészet-centrikus elemzésére.

Az előadások a feladat megoldásához szükséges információk rendezését, kiegészítését, tisztázását és a konzultációkat foglalják magukba.

Korunk egyik legnagyobb kihívása az, hogy a számítógép és az ember közötti közvetítő réteg egyetlen, mindenki által jól használható elemből álljon – a (természetes) nyelvből. Az élet minden részén jelen levő hasonló technológia teljes kialakítása a közeli jövő egyik fontos eredménye lehet, illetve egyes területeken máris azzá vált. A tárgy keretében a nyelvtechnológiát használó rendszerek minél szélesebb és mélyebb megismerését tesszük lehetővé – elméleti és gyakorlati megoldásokat, illetve problémákat is bemutatva.

8. A tantárgy részletes tematikája

A tematika az egyes laborgyakorlatokhoz és előadásokhoz kötődik:

Bevezető: Elméleti áttekintés

  1. A szövegfeldolgozási eszköztárak. A nyelv története, sajátosságai. A nyelvfeldolgozás története, céljai, problémái, trendjei. Fogalmi rendszerek pontosítása: adat, információ, tudás, tapasztalat, ismeret, értelem, jelentés, jelentéstartalom. Közlések és közlési formák és modellek tisztázása. Nyelvi bonyolultság fogalma.
  2. Bevezető: szó alapú nyelvtechnológiai alapeszközök megismerése

  3. Szófa. Szótövező eljárás és szóelválasztó építése reguláris kifejezések segítségével. Működésük a TeX rendszerben.
  4. Szótárak. Szótári alakra hozás szótárral. Morfológia jegyek levágása. Morfológia jegyek ragasztása. Egyéb generatív lehetőségek.
  5. Kifejezés alapú nyelvtechnológiai eszközök

  6. Dokumentum-visszakeresés. Relevancia, információérték. Indexelési stratégiák. Automatikus tárgyszavazás működése a TeX rendszerben.
  7. Névelemek azonosítása és felismerése. Köznevek. Tipikus összetett címkék. Címkék értelmezése. Idiómák kezelése szövegekben. Tezaurusz és ontológiák.
  8. Névutók, birtokos kifejezések, felsőfokú melléknevek problémái. Kérdések adatbázis-lekérdezésre való fordítása. A mélyháló.
  9. Szövegcentrikus nyelvtechnológiai eszközök

  10. Vonzatkerettárak. Szöveggenerálás.
  11. Sablon alapú fordítás lehetőségei.
  12. Hivatkozások feloldása szövegekben. Hobbs-algoritmus, Mitkov-módszer.
  13. Alkalmazott informatikai eszközök

  14. Kivonatolási problémák és megoldások. Lényegkiemelés minta alapú megoldásai. Hoax- és a phishingszűrés.
  15. Kategorizáló építése dokumentumok hierarchiába sorolásához. Spamszűrés.
  16. Osztályozó építése dokumentumok egy halmazához. Dinamikus osztályozási feladatok. Archívumok karbantartása.
  17. Hangos nyelvi eszközök

  18. Beszéd és írás kapcsolata. Fonetikus ábécé és átírás. Szó a beszédben. Végződések.
  19. Fonetikai kapcsolatok, kötések. Keresés beszédhanganyagokban. Hangminta-keresés.
9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

(előadás, gyakorlat, laboratórium):

2 előadás + 2 laboratórium

10. Követelmények
  1. A vizsgaidőszakban: szóbeli vizsga
  2. Elővizsga: van
  3. A vizsgába 50%-os súllyal beszámít a TVSZ által előírt részvételi számú laborgyakorlatokon szerzett osztályzatok átlaga. Ha a hallgató több laborgyakorlaton vett részt, akkor erre a kötelező hányadra előírt legjobb átlagot vesszük figyelembe.
11. Pótlási lehetőségek

Egy laborgyakorlat pótolható a félév végén.

12. Konzultációs lehetőségek

Előre egyeztetett időpontban bármikor és az előadásokon.

13. Jegyzet, tankönyv, felhasználható irodalom

Kiefer F.: Strukturális magyar nyelvtan, I és III. kötet (Mondattan, ill. Morfológia).

Jurafsky, D.-Martin, J.H., Speech and Language Processing (An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition), 2000.

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka

Kontakt óra

60

Félévközi készülés órákra

30

Házi feladat elkészítése

15

Kijelölt írásos tananyag elsajátítása

15

Vizsgafelkészülés

30

Összesen

150

15. A tantárgy tematikáját kidolgozta

Név:

Beosztás:

Tanszék, Int.:

dr. Tikk Domonkos

tudományos munkatárs

TMIT

Kardkovács Zsolt Tivadar

tanársegéd

TMIT