Iskanje in ekstrakcija podatkov s spleta

Iskanje in ekstrakcija podatkov s spleta

Ure predavanj: 45

Ure seminarjev: 10

Ure vaj: 20

ECTS točke: 6

Vsebina predavanj:
Predmet bo pokrival naslednje vsebine:
Poizvedovanje in iskanje po spletu
Osnovni koncepti poizvedovanja
Modeli poizvedovanja
Odziv ustreznosti
Mere za ocenjevanje točnosti poizvedb
Predobdelava besedil in spletnih strani
Inverzni index in njegova kompresija
Latentno semantično indeksiranje
Iskanje po spletu
Meta iskanje po sletu: kombiniranje različnih načinov rangiranja
Spletno pregledovanje in indeksiranje
Osnovni algoritem spletnega pajka
Univerzalni spletni pajek
Fokusirani spletni pajki
Domenski spletni pajki
Ekstrakcija strukturiranih podatkov
Indukcija ovojnice
Generiranje ovojnice na osnovi primera
Samodejna izdelava ovojnice
Ujemanje glede na obliko besede ali drevesne strukture
Večkratna poravnava
Gradnja DOM dreves
Ekstrakcija glede na stran s seznamom ali več strani
Integracija podatkov
Ujemanje glede na podatkovno shemo
Ujemanje glede na domeno in primere
Združevanje podobnosti
Ujemanje 1:m
Integracija iskalnikov po spletnih straneh
Izgradnja globalnega iskalnika po spletnih straneh
Rudarjenje mnenja in analiza sentimenta
Klasifikacija dokumentov po sentimentu
Ugotavljanje subjektivnosti v stavkih in klasifikacija sentimenta
Slovarji besed in fraz, nosilcev mnenja
Aspektno orientirano rudarjenje mnenja
Iskanje in extrakcija mnenja

Bing Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications, Springer, August 2013
Ricardo Baeza-Yates , Berthier Ribeiro-Neto: Modern Information Retrieval: The Concepts and Technology behind Search, 2nd Edition, ACM Press Books, 2010