Szövegadatbázisok és alkalmazott nyelvtechnológiák

A tantárgy angol neve: Text Databases and Applied Language Technologies

Adatlap utolsó módosítása: 2012. május 30.

Tantárgy lejárati dátuma: 2015. június 30.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar

Villamosmérnöki szak

Mérnök Informatikus szak

Szabadon választható tárgy
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VITMAV57 6,7, 2/0/0/f 2  
3. A tantárgyfelelős személy és tanszék Dr. Tikk Domonkos,
4. A tantárgy előadója

Név:

Beosztás:

Tanszék, Int.:

dr. Tikk Domonkos

tudományos munkatárs

TMIT

Kardkovács Zsolt Tivadar

tanársegéd

TMIT

Lejtovicz Katalin

doktorandusz

TMIT

5. A tantárgy az alábbi témakörök ismeretére épít

Alapvető adatbázis-kezelési és programozási ismeret ajánlott, de nem szükséges.

6. Előtanulmányi rend
Ajánlott:


7. A tantárgy célkitűzése

A szövegadatbázisok a legáltalánosabb adatbázisok közé tartoznak, s az informatika fejlődésével egyre fontosabbá kezd válni. Korunk egyik legnagyobb kihívása az, hogy az informatikai rendszereink minél hatékonyabban képezzék le az emberi tudást, így a szövegben, mondanivalóban rejtett információkat minél hatékonyabban tudják hasznosítani, kezelni.

A tárgy célkitűzése, hogy egyetemi előadások és laborok keretein belül a hallgatók behatóan tanulmányozhassák a szövegadatbázisok kezelésének alapjait egy konkrét technológia megismerésén keresztül. A félév végére a hallgatók megismerik a dokumentumok kezelésének, magas szintű felhasználásának technikai hátterét és fortélyait.

8. A tantárgy részletes tematikája

Alapvető nyelvi jelenségek és fogalmak. Adatbázisok és a szövegadatbázisok összevetése. Segédeszközök megismerése: shell parancsok, nyilvános elérhető programok.

Szövegadatbázisok kezelése Java és SQL környezetben. Dokumentumok konvertálása (PDF, Word, HTML), nyelvi jellemzőinek kezelése. Indexelési technikák: javított SVM és fuzzy közelítő algoritmus. Keresési eljárások és snippet (részletkiemelés) készítése szövegadatbázisokban.

Javított indexelési technikák: CT-elmélet, anafora- és ellipsziskeresési eljárások, plágiumkereső alkalmazása. Nyelvi fordulatok feldolgozása. Nyelvtechnológiai nehéz problémák, kockázatok, ismert hibák. Névelemek adatbázisokban: névelem-felismerés, adattisztítás, névterek integrációja. Jellegzetes címkék felismerése, kezelése.

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium)

Előadás

10. Követelmények

A szorgalmi időszakban 6db kiadott gyakorlati problémát kell önállóan és oktatói konzultációkkal megoldani (félévközi ellenőrzés). A félévközi jegy a legjobb 4 sikeres feladatmegoldás számtani átlaga.

11. Pótlási lehetőségek

 

Az otthoni feladatok különeljárási díj megfizetése mellett a pótlási időszak végéig adhatóak le késedelmesen.

12. Konzultációs lehetőségek

Előre egyeztetett időpontban bármikor és az előadásokon.

13. Jegyzet, tankönyv, felhasználható irodalom

Hivatalos Oracle Text tananyagok és kézikönyvek.

Tikk, D.: Szövegbányászat (Oracle Text fejezet), TypoTeX, 2007.

Büki, A.: UNIX/Linux héjprogramozás. Kiskapu Kft, 2004.

Jurafsky, D.-Martin, J.H., Speech and Language Processing (An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition), 2000.

14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra28
Félévközi készülés órákra 
Felkészülés zárthelyire 
Házi feladat elkészítése22
Kijelölt írásos tananyag elsajátítása10
Vizsgafelkészülés0
Összesen60
15. A tantárgy tematikáját kidolgozta

Név:

Beosztás:

Tanszék, Int.:

dr. Tikk Domonkos

tudományos munkatárs

TMIT

Kardkovács Zsolt Tivadar

tanársegéd

TMIT