Intelligens szövegelemzés a gyakorlatban
A tantárgy angol neve: IntelligentText Analysis in Real-Life Applications
Adatlap utolsó módosítása: 2023. június 22.
Mérnökinformatikus Szak
Szabadon választható tantárgy
A tantárgy gyakorlatorientált. A teljesítéséhez alapvetően egy saját NLP projekt végigvitele szükséges, amelynek a témája szabadon választható (lásd kedvcsinálók a tanszéki lapon). A félév során bemutatunk számos ipari projekteket, ahonnan ötletek meríthetők, az előadásokon tárgyaljuk az alkalmazható módszerek elméleti hátterét, a laborokon pedig a projektek megvalósításához szükséges eszközöket mutatunk be.
A tantárgy célja természetes nyelvű szövegek tudásalapú feldolgozásával kapcsolatos módszerek és eszközök bemutatása. A hallgatók megismerkedhetnek a szövegbányászat klasszikus módszerein túlmutató, különféle (statisztikai, mélytanulási és formális) nyelvi modellezési eszközökkel (NLTK, ANTRL, Spacy, OpenAI GPT stb.), kiegészítve azokat szemantikus technológiákat (RDF, OWL, Linked Open Data, SPARQL) és internetes tudástárakat (DBpedia, FactForge) alkalmazó technikákkal. A tantárgy ipari projektek és kutatói együttműködések tapasztalataira és feladatkészletére épít például az információkeresés, a szemantikus annotálás, a digitális bölcsészet és az ember-gép kommunikáció területén.
1. hét. A szövegelemzés tipikus problémái az információkeresés, az ember-gép interfészek és a digitális bölcsészet témaköreiből.
2. hét. A szövegelemzés alapvető módszerei: indexkészítés és statisztikai módszerek, természetes nyelvű szövegfeldolgozás (NLP). A módszerek problémái és korlátai.
3. hét. Tudásalapú módszerek bevezetésének területei és lehetőségei: nyelvi, tárgyterületi és alkalmazói tudás. Esettanulmányok.
4-5. hét. Autonóm, tudásalapú ágensek és alkalmazásuk az intelligens szövegelemzésben: természetes nyelvű ember-gép interfészek és több-ágens elemzőrendszerek (előadás és laboratórium).
6-7. hét. Nyelvi tudás reprezentációja, kontrollált természetes nyelvek (CNL) létrehozása és feldolgozása. Alkalmazásuk természetes nyelvű interfészek megvalósításában.
8. hét. Ember-robot természetes nyelvű interfész fejlesztése Android és Robot Operating System környezetben (laboratórium).
9-10. hét. Szakértői tudás reprezentációja: kiterjesztett szótárak, RDF tudásbázisok és ontológiák (OWL), valamint felhasználásuk a szövegelemzésben (normalizálás, entitásfelismerés, szemantikus annotálás).
11. hét. Nagy nyelvi modellek tanulása adatokból (GPT) és alkalmazásuk (ChatGPT) a gyakorlatban (laboratórium).
12. hét. Kontrollált természetes nyelvű annotálórendszer (tudásbázis-építés) digitális bölcsészeti rendszerben (laboratórium).
13. hét. Internetes tudásbázisok (DBpedia, FactForge, MusicBrainz, OpenStreetMap stb.) és lekérdező módszereik (REST, SPARQL). Tudásintegrációs technikák (Linked Open Data).
14. hét. Külső tudástárak integrációja és felhasználása elemzőrendszerekben (laboratórium). Esettanulmányok.
A tantárgy géptermi előadásokból és laboratóriumi foglalkozásokból épül fel. Az előadásokon az elméleti anyag ismertetése mellett a NLP eszközök gyakorlati kipróbálására is sor kerül. A laboratóriumi foglalkozásokon a hallgatók egyrészt ipari és kutatási projektek eredményeivel ismerkednek meg, másrészt önállóan választott problémák megoldásán dolgoznak a tantárgyban megismert módszerekkel és eszközökkel.
a. A szorgalmi időszakban: zárthelyi sikeres (legalább 40%-os) teljesítése és egy választott otthoni feladat megoldása.
A zárthelyi az előadások anyagára épít, a hallgatók alapvető tájékozottságát ellenőrzi.
Az otthoni feladat programozási jellegű, pontos részletei az oktatóval egyeztethetők, összehangolhatók témalabor és önálló laboratórium feladattal. Megoldásával a hallgatók a gyakorlati ismeretek elsajátításáról adnak számot.
b. A vizsgaidőszakban: -
A zárthelyi dolgozat pótlására a TVSZ-nek megfelelően egy alkalommal biztosítunk lehetőséget.
Az otthoni feladat különeljárási díj megfizetése mellett a pótlási időszak végéig adható le késedelmesen (TVSZ).
Otthoni feladatok megoldásához órarendi időben.
Tamás Mészáros, „Agent-supported Knowledge Acquisition for Digital Humanities Research", In: A. Szakál (szerk.) IEEE International Conference on Systems, Man, and Cybernetics Conference Proceedings: SMC 2016. Budapest, Hungary, 2016.
C. Bizer, T. Heath, and T. Berners-Lee, „Linked data-the story so far", Semantic Services, Interoperability and Web Applications: Emerging Concepts, pp. 205-227, 2009.
Tamás Mészáros, Tadeusz Dobrowiecki, „Controlled Natural Languages for Interface Agents" In: IFAAMAS AAMAS 2009: 8th international conference on Autonomous agents and multiagent systems. Budapest, Magyarország, 2009
Mészáros Tamás, „Kontrollált természetes nyelvek", tanulmány, BME MIT, 2009.
Dezsényi Csaba, Varga Péter, Mészáros Tamás, Strausz György, Dobrowiecki Tadeusz, „Tudásalapú információkinyerés: az IKF projekt" In: Tudományos és Műszaki Tájékoztatás 51:(5) pp. 193-208., 2004
Mészáros Tamás, „Dokumentum analízis és keresés", tanulmány, I2RT-TR-1341, 2001.
Mészáros Tamás, „Szövegelemzési módszerek és esettanulmányok", tanulmány, I2RT-TR-1342, 2002.
Név:
Beosztás:
Tanszék, Int.:
Dr. Mészáros Tamás
egyetemi docens
BME MIT