Normal view MARC view ISBD view

Računalni postupci za modeliranje i analizu medijske agende temeljeni na strojnome učenju : doktorski rad / Damir Korenčić ; mentor Jan Šnajder i Strahil Ristov

By: Korenčić, Damir.
Contributor(s): Šnajder, Jan [ths] | Ristov, Strahil [ths].
Material type: TextTextPublisher: Zagreb : D. Korenčić ; Fakultet elektrotehnike i računarstva, 2019Description: 215 str. : ilustr. u bojama ; 30 cm. + CD.Summary: Rad se bavi računalnim postupcima analize medijske agende (engl. Media Agenda) temeljenima na tematskim modelima (engl. Topic Models) te metodama vrednovanja tematskih modela. Analiza medijske agende provodi se radi stjecanja uvida u strukturu i zastupljenost medijskih tema, što je od interesa za društvenoznanstvena istraživanja te za medijsku industriju i druge komercijalne i političke aktere. Računalni postupci analize medijske agende omogućuju automatsko otkrivanje tema u velikim skupovima tekstova i mjerenje njihove zastupljenosti. Ovi postupci pružaju analitičaru uvid u teme prisutne u medijima i uvid u zastupljenost tema u pojedinim medijima i vremenskim razdobljima te omogućuju analizu korelacije zastupljenosti tema sa podacima poput ljudske percepcije njihove važnosti. Cilj istraživanja bio je razvoj računalnih postupaka za eksplorativnu analizu i mjerenje medijske agende temeljenih na tematskim modelima, klasi modela strojnog učenja pogodnih za analizu tematske strukture teksta. Istraživanje obuhvaća razvoj postupaka primjene tematskih modela na otkrivanje medijskih tema i mjerenje njihove zastupljenosti te razvoj računalnih alata za unaprijeđenje i provedbu tih postupaka. Ti alati obuhvaćaju metode vrednovanja tematskih modela te programsku potporu za implementaciju postupaka analize agende i vrednovanja modela. Primjena postupaka na analizu medijskih tekstova brzo je pokazala potrebu za razvojem novih metoda vrednovanja tematskih modela radi povećanja efikasnosti na modelima temeljenih postupaka. Iz tog je razloga poseban naglasak istraživanja bio na razvoju i analizi metoda vrednovanja tematskih modela. Prvo je provedeno istraživanje postupaka primjene tematskih modela na analizu medijske agende. Na temelju istraživanja postojećih postupaka predložen je poboljšani postupak koji se sastoji od tri koraka: koraka otkrivanja tema, koraka definicije tema i koraka mjerenja tema. Predloženi postupak otklanja uočene nedostatke ranijih metoda: upotrebu samo jednog modela za otkrivanje tema, nemogućnost prilagodbe i definicije novih tema te izostanak kvantitativnog vrednovanja metoda mjerenja. Postupak je primijenjen u dvije analize medijske agende provedene na zbirkama američkih i hrvatskih političkih vijesti. Na temelju opažanja i podataka iz tih analiza uočena je potreba za mjerom interpretabilnosti tema modela te za metodom mjerenja pokrivenosti skupa koncepata od strane modela. Drugi istraženi problem bio je problem mjerenja interpretabilnosti tema modela. Standardni pristup ovom problemu je mjerenje semantičke koherentosti tema, a postojeće mjere koherentnosti temelje se na računanju koherentosti skupa uz temu vezanih riječi. Ove mjere pokazale su se nepogodnima u slučaju prolaznih medijskih tema karakteriziranih semantički nepovezanim riječima. Predložena je nova klasa mjera koherentosti medijskih tema temeljenih na uz teme vezanim dokumentima. Vrednovanje niza predloženih mjera na skupovima engleskih i hrvatskih medijskih tema otkrilo je najbolju mjeru koja računa koherentnost agregacijom lokalne povezanosti grafa dokumenata. Provedena je kvantitativna i kvalitativna usporedba razvijenih mjera dokumentne koherentosti s postojećim mjerama koherentnosti riječi koja je otkrila komplementarnost ova dva tipa mjera. Treći istraženi problem je problem pokrivenosti tema, motiviran podacima iz primjene postupka analize medijske agende, koji su pokazali da jedan tematski model pokriva samo dio svih otkrivenih koncepata. Problem pokrivenosti nadilazi domenu medijskih tekstova i unatoč važnosti ovog problema dosadašnja istraživanja na tu temu su rudimentarana. Problem pokrivenosti razmotren je u općenitosti i definiran kao problem mjerenja poklapanja između skupa automatski naučenih tema modela i skupa referentnih tema koji sadrži od ljudi uočene koncepte. Predložena je metoda izrade skupa referentnih tema i dvije metode mjerenja pokrivenosti temeljene na računanju poklapanja tema. Predložene mjere vrednovane su na dva raznorodna skupa podataka, medijskom i biološkom, te primijenjene na analizu četiri različite klase standardnih tematskih modela. Završni korak istraživanja postupka analize medijske agende bio je poboljšanje postupka na temelju predloženih metoda vrednovanja tematskih modela i iskustava iz primjena postupka na analizu hrvatskih i američkih medija. Glavna poboljšanja odnose se na korak eksplorativne analize odnosno otkrivanja tema i temelje se na razvijenim mjerama pokrivenosti i dokumentne koherentosti tema. Ova poboljšanja imaju za cilj brže otkrivanje većeg broja koncepata. Ostala poboljšanja odnose se na povećanje efikasnosti postupka interpretacije tema modela. Tijekom istraživanja postupka analize medijske agende i metoda vrednovanja tematskih modela uočen je niz problema vezanih uz upotrebu, izgradnju, pohranu i dohvat tematskih modela i vezanih resursa. Ovi problemi javljaju se kod implementacije grafičkog korisničkog sučelja za provedbu postupka i kod provedbe eksperimenata vrednovanja. Rješavanju ovih problema pristupilo se sustavno i oblikovan je radni okvir za izgradnju i upravljanje resursima u tematskom modeliranju. Arhitektura okvira temelji se na četiri načela koja u kombinaciji definiraju općenitu i fleksibilnu metodu izrade programske potpore za primjenu i vrednovanje tematskih modela. Razvijeni su i grafičko korisničko sučelje za eksplorativnu analizu i potporu mjerenju zastupljenosti tema te aplikacija namijenjena izradi zbirki medijskih tekstova koja tijekom duljeg vremenskog razdoblja sakuplja tekstove iz niza web-izvora. Ključne riječi: Medijska agenda, tematski modeli, vrednovanje tematskih modela, koherentnost tema, pokrivenost tema, mjere udaljenosti tema, izgradnja tematskih modela, nenadzirano učenje, nadzirano učenje. Summary: This thesis focuses on computational methods for media agenda analysis based on topic models and methods of topic model evaluation. The goal of a media agenda analysis is gaining insights into the structure and frequency of media topics. Such analyses are of interest for social scientists studying news media, journalists, media analysts, and other commercial and political actors. Computational methods for media agenda analysis enable automatic discovery of topics in large corpora of news text and measuring of topics’ frequency. Data obtained by such analyses provides insights into the type and structure of topics occurring in the media, enables the analysis of topic cooccurrence, and analysis of correlation between topics and other variables such as text metadata and human perception of topic significance. The goal of the research presented in the thesis is development of efficient computational methods for the discovery of topics that constitute the media agenda and methods for measuring frequencies of these topics. The proposed methods are based on topic models – a class of unsupervised machine learning models widely used for exploratory analysis of topical text structure. The research encompasses the development of applications of topic models for discovery of media topics and for measuring topics’ frequency, as well as development of methods for improvement and facilitation of these applications. The improvement and facilitation methods encompass methods of topic model evaluation and software tools for working with topic models. Methods of topic model evaluation can be used for selection of high-quality models and for accelerating the process of topic discovery. Namely, topic models are a useful tool, but due to the stohasticity of the model learning algorithms the quality of learned topics varies. For this reason the methods of topic model evaluation have the potential to increase the efficiency of the methods based on topic models. In the first phase of the research, an analysis of existing computational methods for media agenda analysis is performed and a new method that improves and systematizes the existing ones is proposed. The application of the proposed method in two use-cases underlined the need for new methods of topic model evaluation that would improve the efficiency of topic-model based tools. Consequently, two new methods of topic model evaluation are proposed – document-based measures of topic coherence and methods for analysis of topic coverage. These evaluation methods are then applied to improve the initially proposed method for media agenda analysis. In addition, research of topic model applications and methods of topic model evaluation led to a framework for resource building and management in topic modelling. The four main contributions of the thesis are: a method for computational analysis of the media agenda based on topic models, document-based measures of topic coherence, methods for analysis of topic coverage, and the framework for resource building and management in topic modelling. Keywords: Media agenda, Topic models, Topic model evaluation, Topic coherence, Topic coverage, Topic distance measures, Topic model construction, Unsupervised learning, Supervi- sed learning.
Tags from this library: No tags from this library for this title. Log in to add tags.
Item type Current location Call number Status Date due Barcode Item holds
Doktorska disertacija Doktorska disertacija Središnja knjižnica
KF
KF-5087 Available 0000001015850
Total holds: 0

Bibliografija str. 197-211.

Rad se bavi računalnim postupcima analize medijske agende (engl. Media Agenda) temeljenima
na tematskim modelima (engl. Topic Models) te metodama vrednovanja tematskih modela.
Analiza medijske agende provodi se radi stjecanja uvida u strukturu i zastupljenost medijskih
tema, što je od interesa za društvenoznanstvena istraživanja te za medijsku industriju i druge
komercijalne i političke aktere. Računalni postupci analize medijske agende omogućuju
automatsko otkrivanje tema u velikim skupovima tekstova i mjerenje njihove zastupljenosti. Ovi
postupci pružaju analitičaru uvid u teme prisutne u medijima i uvid u zastupljenost tema u pojedinim medijima i vremenskim razdobljima te omogućuju analizu korelacije zastupljenosti tema
sa podacima poput ljudske percepcije njihove važnosti.

Cilj istraživanja bio je razvoj računalnih postupaka za eksplorativnu analizu i mjerenje medijske agende temeljenih na tematskim modelima, klasi modela strojnog učenja pogodnih za
analizu tematske strukture teksta. Istraživanje obuhvaća razvoj postupaka primjene tematskih
modela na otkrivanje medijskih tema i mjerenje njihove zastupljenosti te razvoj računalnih alata
za unaprijeđenje i provedbu tih postupaka. Ti alati obuhvaćaju metode vrednovanja tematskih
modela te programsku potporu za implementaciju postupaka analize agende i vrednovanja modela. Primjena postupaka na analizu medijskih tekstova brzo je pokazala potrebu za razvojem
novih metoda vrednovanja tematskih modela radi povećanja efikasnosti na modelima temeljenih postupaka. Iz tog je razloga poseban naglasak istraživanja bio na razvoju i analizi metoda
vrednovanja tematskih modela.

Prvo je provedeno istraživanje postupaka primjene tematskih modela na analizu medijske
agende. Na temelju istraživanja postojećih postupaka predložen je poboljšani postupak koji se
sastoji od tri koraka: koraka otkrivanja tema, koraka definicije tema i koraka mjerenja tema.
Predloženi postupak otklanja uočene nedostatke ranijih metoda: upotrebu samo jednog modela
za otkrivanje tema, nemogućnost prilagodbe i definicije novih tema te izostanak kvantitativnog
vrednovanja metoda mjerenja. Postupak je primijenjen u dvije analize medijske agende provedene na zbirkama američkih i hrvatskih političkih vijesti. Na temelju opažanja i podataka iz tih
analiza uočena je potreba za mjerom interpretabilnosti tema modela te za metodom mjerenja
pokrivenosti skupa koncepata od strane modela.

Drugi istraženi problem bio je problem mjerenja interpretabilnosti tema modela. Standardni
pristup ovom problemu je mjerenje semantičke koherentosti tema, a postojeće mjere koherentnosti temelje se na računanju koherentosti skupa uz temu vezanih riječi. Ove mjere pokazale su
se nepogodnima u slučaju prolaznih medijskih tema karakteriziranih semantički nepovezanim
riječima. Predložena je nova klasa mjera koherentosti medijskih tema temeljenih na uz teme
vezanim dokumentima. Vrednovanje niza predloženih mjera na skupovima engleskih i hrvatskih medijskih tema otkrilo je najbolju mjeru koja računa koherentnost agregacijom lokalne
povezanosti grafa dokumenata. Provedena je kvantitativna i kvalitativna usporedba razvijenih
mjera dokumentne koherentosti s postojećim mjerama koherentnosti riječi koja je otkrila komplementarnost ova dva tipa mjera.

Treći istraženi problem je problem pokrivenosti tema, motiviran podacima iz primjene postupka analize medijske agende, koji su pokazali da jedan tematski model pokriva samo dio
svih otkrivenih koncepata. Problem pokrivenosti nadilazi domenu medijskih tekstova i unatoč
važnosti ovog problema dosadašnja istraživanja na tu temu su rudimentarana. Problem pokrivenosti razmotren je u općenitosti i definiran kao problem mjerenja poklapanja između skupa
automatski naučenih tema modela i skupa referentnih tema koji sadrži od ljudi uočene koncepte.
Predložena je metoda izrade skupa referentnih tema i dvije metode mjerenja pokrivenosti temeljene na računanju poklapanja tema. Predložene mjere vrednovane su na dva raznorodna skupa
podataka, medijskom i biološkom, te primijenjene na analizu četiri različite klase standardnih
tematskih modela.

Završni korak istraživanja postupka analize medijske agende bio je poboljšanje postupka
na temelju predloženih metoda vrednovanja tematskih modela i iskustava iz primjena postupka
na analizu hrvatskih i američkih medija. Glavna poboljšanja odnose se na korak eksplorativne
analize odnosno otkrivanja tema i temelje se na razvijenim mjerama pokrivenosti i dokumentne
koherentosti tema. Ova poboljšanja imaju za cilj brže otkrivanje većeg broja koncepata. Ostala
poboljšanja odnose se na povećanje efikasnosti postupka interpretacije tema modela.

Tijekom istraživanja postupka analize medijske agende i metoda vrednovanja tematskih modela uočen je niz problema vezanih uz upotrebu, izgradnju, pohranu i dohvat tematskih modela
i vezanih resursa. Ovi problemi javljaju se kod implementacije grafičkog korisničkog sučelja
za provedbu postupka i kod provedbe eksperimenata vrednovanja. Rješavanju ovih problema
pristupilo se sustavno i oblikovan je radni okvir za izgradnju i upravljanje resursima u tematskom modeliranju. Arhitektura okvira temelji se na četiri načela koja u kombinaciji definiraju
općenitu i fleksibilnu metodu izrade programske potpore za primjenu i vrednovanje tematskih
modela. Razvijeni su i grafičko korisničko sučelje za eksplorativnu analizu i potporu mjerenju zastupljenosti tema te aplikacija namijenjena izradi zbirki medijskih tekstova koja tijekom
duljeg vremenskog razdoblja sakuplja tekstove iz niza web-izvora.
Ključne riječi: Medijska agenda, tematski modeli, vrednovanje tematskih modela, koherentnost tema, pokrivenost tema, mjere udaljenosti tema, izgradnja tematskih modela, nenadzirano učenje, nadzirano učenje.

This thesis focuses on computational methods for media agenda analysis based on topic models and methods of topic model evaluation. The goal of a media agenda analysis is gaining
insights into the structure and frequency of media topics. Such analyses are of interest for
social scientists studying news media, journalists, media analysts, and other commercial and
political actors. Computational methods for media agenda analysis enable automatic discovery
of topics in large corpora of news text and measuring of topics’ frequency. Data obtained by
such analyses provides insights into the type and structure of topics occurring in the media,
enables the analysis of topic cooccurrence, and analysis of correlation between topics and other
variables such as text metadata and human perception of topic significance.

The goal of the research presented in the thesis is development of efficient computational
methods for the discovery of topics that constitute the media agenda and methods for measuring frequencies of these topics. The proposed methods are based on topic models – a class
of unsupervised machine learning models widely used for exploratory analysis of topical text
structure. The research encompasses the development of applications of topic models for discovery of media topics and for measuring topics’ frequency, as well as development of methods
for improvement and facilitation of these applications. The improvement and facilitation methods encompass methods of topic model evaluation and software tools for working with topic
models. Methods of topic model evaluation can be used for selection of high-quality models
and for accelerating the process of topic discovery. Namely, topic models are a useful tool, but
due to the stohasticity of the model learning algorithms the quality of learned topics varies. For
this reason the methods of topic model evaluation have the potential to increase the efficiency
of the methods based on topic models.

In the first phase of the research, an analysis of existing computational methods for media agenda analysis is performed and a new method that improves and systematizes the existing ones is proposed. The application of the proposed method in two use-cases underlined the need for new methods of topic model evaluation that would improve the efficiency of topic-model based tools. Consequently, two new methods of topic model evaluation are proposed – document-based measures of topic coherence and methods for analysis of topic coverage. These evaluation methods are then applied to improve the initially proposed method for media agenda analysis. In addition, research of topic model applications and methods of topic model evaluation led to a framework for resource building and management in topic modelling. The four main contributions of the thesis are: a method for computational analysis of the media agenda based on topic models,
document-based measures of topic coherence, methods for analysis of topic coverage, and the framework for resource building and management in topic modelling.
Keywords: Media agenda, Topic models, Topic model evaluation, Topic coherence, Topic
coverage, Topic distance measures, Topic model construction, Unsupervised learning, Supervi-
sed learning.

There are no comments for this item.

Log in to your account to post a comment.

Središnja knjižnica Fakulteta elektrotehnike i računarstva, Unska 3, 10000 Zagreb
tel +385 1 6129 886 | fax +385 1 6129 888 | ferlib@fer.hr