Természetes nyelvi és szemantikus technológiák

A tantárgy angol neve: Natural Language Processing and Semantic Technologies

Adatlap utolsó módosítása: 2023. február 3.

Budapesti Műszaki és Gazdaságtudományi Egyetem
Villamosmérnöki és Informatikai Kar
Alapképzés (BSc), mérnökinformatikus szak
Szoftverfejlesztés specializáció
Szoftverfejlesztés ágazat
Tantárgykód Szemeszter Követelmények Kredit Tantárgyfélév
VIMIAC22 5 2/2/0/v 5  
3. A tantárgyfelelős személy és tanszék Dr. Mészáros Tamás Csaba,
A tantárgy tanszéki weboldala http://www.mit.bme.hu/oktatas/targyak/VIMIAC22
4. A tantárgy előadója Dr. Mészáros Tamás Csaba egyetemi docens, MIT
Dr. Strausz György egyetemi docens, MIT
5. A tantárgy az alábbi témakörök ismeretére épít Programozási alapismeretek, algoritmus- és gráfelmélet alapjai, valószínűségszámítási alapismeretek
7. A tantárgy célkitűzése A tantárgy bevezetést nyújt a természetes nyelvű szövegek gépi feldolgozásának és a szemantikus technológiák területébe, a különböző megközelítéseket gazdagon illusztrálja gyakorlati ismeretekkel. Ismerteti a különböző természetesnyelv-feldolgozási eszközök működését és alkalmazását az információkeresés, a szövegannotálás, a tudáskinyerés, a természetes nyelvű ember-gép interfészek és további területeken. Kitér különféle tudásreprezentációs technikák, szakértői és következtető rendszerek alkalmazására, valamint kiemelt hangsúlyt helyez modern gépi tanulási megoldások bemutatására. A tantárgyi gyakorlatokon lehetőséget biztosítunk széles körben alkalmazott eszközök gyakorlati kipróbálására, ipari projektekből származó tapasztalatok megismerésére is.
8. A tantárgy részletes tematikája

Előadás:

  1. Bevezetés. A természetesnyelv-feldolgozás áttekintése, alapfogalmak, áttekintő irodalmak, célkitűzések, problémák a természetes nyelvű szövegek feldolgozásával, alkalmazási területek, alapvető eszközök kísérletezésre. Számítógépes nyelvészet (CL), természetesnyelv-feldolgozás (NLP), szintaktika, szemantika.
  2. Információkeresés. Szövegkeresési technikák, szövegindexelés és információ-visszakeresés, lekérdezési- és dokumentum-modellek, találati lista rangsorolás, hatékonyság mérése. Szövegkorpusz, konkordancia, információ-visszakeresés (IR), indexelés, vektor-tér modell, tévesztési mátrix, pontosság, felidézés, F1-score.
  3. Statisztikai nyelvi modellek és alkalmazásuk. Szegmentálás és tokenizálás, szózsák és n-gram modellek, TF-IDF modell, rejtett szemantikájú indexelés, szótárépítés, szövegklaszterezés, szövegkivonatolás, hangulatelemzés, stilometria.
  4. Szövegannotálás. Szövegek nyelvi és szemantikai annotációja, szófaji címkézés, entitásfelismerés, annotálók tanítása adathalmazokból, mélytanulási módszerek (szóbeágyazások, RNN, LSTM) alkalmazása.
  5. A nyelvtan (grammatika) és felhasználása. Nyelvi szabályszerűségek leírása nyelvtanokkal, szintaktikai elemzés és jellemző algoritmusai, az elemző működése, kifejezésstruktúra, levezetési szabály, elemzési fa, nyelvtanok tanulása (Penn Treebank), kontrollált természetes nyelvek.
  6. Információkinyerés természetes nyelvű szövegekből. Szókincs és nyelvtan kiterjesztése szemantikai információkkal, szemantikus annotálás, szemantikai értelmezés tanulása mintákból, egyértelműsítés, kontrollált nyelvek alkalmazása tudásbevitelre, témamodellezés (topic modelling), kompozíciós szemantikai elemzés, ontológia, lexikai és szemantikai többértelműség.
  7. Tudásmenedzsment, tárgyterületek modellezése. Tudásmodellezés, explicit és implicit tudás, tudásreprezentációs megközelítések, szakértői rendszerek, következtetés, magyarázatgenerálás.
  8. Szemantikus technológiák. Szemantikus web koncepció, szemantikus web technológiák, egységes erőforrás azonosító (URI), erőforrás leíró keretrendszer (RDF), nyílt világ feltételezés alapú információleírás.
  9. Linked Data információelérés. Linked Data koncepció, nyílt adatforrások a világban, nyílt szótárak, szemantikus hálózatok.
  10. Ontológiák, logikai reprezentációk. Szótárak, tezauruszok, ontológiák építése és alkalmazása, pszicholingvisztikai modellek.
  11. Logikai következtetés. Ontológiák reprezentálása leíró logikákban, leíró logikai következtetés, Tableau algoritmus, szabály alapú reprezentáció, előre és hátrafelé láncoló következtetés.
  12. Párbeszédkezelés, érvelés. Párbeszédek leírása, modellezése szabály alapú megközelítéssel, érvelési rendszerek, magasabb rendű logikai modellek, modális logikák alkalmazása érvelések leírására
  13. Esettanulmányok. Tudástárak építése és alkalmazása, szemantikus annotálás információkinyerési céllal, természetes nyelvű robotinterfészek megvalósítása, böngésző alkalmazásokba beépülő nyelvi technológiák.

Gyakorlatok:

  1. Korpuszkezelés, reguláris kifejezések alkalmazása, konkordancialista készítése, indexépítés, szövegkeresés korpuszban, pontosság és felidézés számítása, Apache Solr.
  2. Elemi nyelvfeldolgozás (szegmentálás, tokenizálás, szófaji címkézés) NLTK és Spacy segítségével.
  3. Felhasználói visszajelzések hangulatelemzése, szózsák és n-gram modellek építése és alkalmazása.
  4. Szerzőségazonosítás stilometriai módszerekkel, Stylo.
  5. Szövegannotálás Spacy-vel, mélytanuláson alapuló nyelvi modellek alkalmazása.
  6. Nyelvtani elemző készítése ANTLR segítségével, alkalmazásuk adatbázis-lekérdezésre és okosotthon rendszerekben.
  7. Szakértői rendszerek demó, egyszerű szabályalapú környezet vizsgálata (Drools).
  8. RDF adatmodellek vizsgálata (RDF4J adatbázis, múzeumi adatok elemzése)
  9. RDF - Linked data adatmodellek vizsgálata, múzeumi adatok integrálása DBPedia adatokkal.
  10. Ontológiák vizsgálata (Protege ontológiaszerkesztő eszköz), következtetés a múzeumi adatmodellen
  11. Ontológiák építése, egyszerűbb modellek létrehozása Protege környezetben.
  12. Érvelés szakértői rendszermodellben.

 

9. A tantárgy oktatásának módja (előadás, gyakorlat, laboratórium) Előadás és gyakorlat.
10. Követelmények Szorgalmi időszakban: két házi feladat elégséges szintű megoldása.
Vizsgaidőszakban: írásbeli vizsga teljesítése.
11. Pótlási lehetőségek Az első házi feladat a második feladat beadási határidejéig, míg a második feladat a pótlási időszak utolsó előtti napjáig pótolható.
12. Konzultációs lehetőségek Igény szerint, az előadókkal előzetesen egyeztetve.
13. Jegyzet, tankönyv, felhasználható irodalom
14. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka
Kontakt óra56
Félévközi készülés órákra28
Felkészülés zárthelyire0
Házi feladat elkészítése40
Kijelölt írásos tananyag elsajátítása0
Vizsgafelkészülés26
Összesen150
15. A tantárgy tematikáját kidolgozta Dr. Mészáros Tamás Csaba egyetemi docens, MIT
Dr. Strausz György egyetemi docens, MIT
IMSc tematika és módszer Az IMSc program hallgatói számára emelt szintű házi feladatok és IMSc vizsgafeladatok megoldását kínáljuk.
IMSc pontozás

A tantárgyból maximum 25 IMSc pont szerezhető az alábbiak szerint:

  • Házi feladatok emelt szintű megoldásáért összesen maximum 20 IMSc pont szerezhető.
  • A vizsgán maximum 5 IMSc pont jár az IMSc feladat megoldásáért.

 Az IMSc pontok megszerzése az IMSc programban nem résztvevő hallgatók számára is biztosított. 

 

Egyéb megjegyzések A tantárgy angol neve: Natural Language Processing and Semantic Technologies.