Obdelava naravnega jezika

Obdelava naravnega jezika

Stopnja: 2

Ure predavanj: 45

Ure seminarjev: 10

Ure vaj: 20

ECTS točke: 5

Vsebina predmeta temelji na izboru sodobnih statističnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.

Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statističen pristop.
Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, pregled orodij.
Lingvistika: fonologija in morfologija, sintaktična analiza, formalne gramatike.
Uporaba avtomatov in gramatik: avtomati in algoritmi za iskanje nizov, prepoznavanje sintakse, gramatično razčlenjevanje.
Oblikoslovno označevanje besedil: vrste oznak, lematizacija, ngrami, skriti markovski model, označevanje s pravili.
Računska in leksikalna semantika: predstavitve pomena, metode s pravili, leksikalna semantika.
Razvrščanje besedil in mere podobnosti: kosinusna razdalja, jezikovna omrežja in grafi, WordNet, vektorska predstavitev, uteževanje vektorjev, semantična korelacija.
Tekstovno rudarjenje: prilagojene klasifikacijske metode, metoda podpornih vektorjev na dokumentih, izbira atributov.
Globoka omrežja in besedila: predstavitev besedil za uporabo v globokih nevronskih mrežah, avtoenkoderji, rekurzivne nevronske mreže.
Povzemanje: predstavitve besedil, matrična faktorizacija, ekstrakcijske metode, povpraševane metode.
Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju.
Dopolnjevanje besedil z drugimi viri informacij: heterogena omrežja, predstavitev word2vec, heterogeni ansambli klasifikatorjev, analiza povezav.
Metodologija in evalvacija pri obdelavi naravnega jezika

Jurafsky, David and Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, 2nd and 3rd draft. Upper Saddle River, NJ: Prentice-Hall, 2009 and 2017.
Aggarwal, Charu C., and Zhai, ChengXiang. Mining text data. Springer Science & Business Media, 2012.
Bird, Steven, Ewan Klein, and Edward Loper. Natural language processing with Python. O'Reilly Media, Inc., 2009.