Constructing a novel sense-annotated Finnish Wikipedia-based dataset for application-ready word sense disambiguation

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Mcode

SCI3070

Language

en

Pages

72

Series

Abstract

This paper provides a first sense-annotated encyclopedia-based Finnish glossary for evaluating disambiguation tasks and a simple yet transparent application-ready NED solution for Finnish NLP pipelines. We aim to develop a Finnish WSD solution to be used on top of an existing NLP pipeline to improve text indexing results by disambiguating similarly named entities. To do this, we gather a data dump of Finnish Wikipedia and process it with TurkuNLP's public models to achieve lemmatization, segmentation, and POS and NER taggings. We utilize Wikipedia's disambiguation pages to link ambiguous and disambiguous entities and create a glossary with articles as the sense definitions. We use the glossary to generate disambiguation tasks and perform a user test with humans solving them. The test gathers 1523 answers. We measure a human disambiguation accuracy of 85.6 %, which we define as the golden standard. We then define criteria for an application-ready WSD algorithm based on our original goal. We then examine different algorithms using an extended Lesk algorithm with POS-based word filtering, glossary document length normalization, and TF-IDF score weighting. This algorithm reaches 69.3 % accuracy on the same subset of tasks the users solved and 59.7 % accuracy on the entire dataset. Finally, we suggest improving the dataset by using an external source for generating context for the tasks and using word embeddings to store the data. In the future, database vectorization would enable the use of more precise algorithms, such as cosine similarity and state-of-the-art neural models.

Tässä työssä luodaan ja julkaistaan ensimmäinen suomenkielinen tietosanakirja pohjainen tietokanta, joka soveltuu yksikäsitteistämistehtävien luomiseen ja ratkaisuun. Lisäksi työ esittää yksinkertaisen, mutta joustavan ratkaisun tekstin indeksointikyvykkyyden parantamiseksi yksikäsitteistämisalgoritmin avulla. Työn tavoitteena on rakentaa suomenkielisten sanojen yksikäsitteistämiseen soveltuva ratkaisu, jota voidaan hyödyntää olemassa olevan NLP-putken päällä ja täten parantaa tekstin indeksointituloksia erottelemalla samannimiset entiteetit toisistaan. Päästäksemme tavoitteeseen, lataamme suomenkielisen Wikipedian artikkelit ja käsittelemme ne TurkuNLP-ryhmän julkisilla malleilla saavuttaen lemmatisoinnin, yksittäisiin sanoihin jakamisen sekä sanaluokkien ja nimettyjen entiteettien tunnistukset. Lisäksi hyödynnämme Wikipedian yksikäsitteistämissivuja yhdistäkseemme monikäsitteiset sanat yksikäsitteisiin termeihin saavuttaen näin sanaston, jossa Wikipedia-artikkeleita hyödynnetään termien määritelmien tavoin. Sanaston avulla luomme tehtäväsarjan, jonka pohjalta toteutamme käyttäjäkokeen ja mittaamme ihmisten yksikäsitteistämiskyvyn. Kokeen tuloksena saamme 1523 ratkaistua tehtävää ja ihmisten yksikäsitteistämistarkkuudeksi 85,6 %. Tämän jälkeen määrittelemme kriteerit sovelluksemme vaatimalle algoritmille ja tutkimme vaihtoehtoisia ratkaisuja. Päädymme lopulta valitsemaan käyttöömme Leskin algoritmiin pohjautuvan ratkaisun, jossa hyödynnetään sanojen suodatusta sanaluokan perusteella, pisteytystä sanojen informaatioarvoa mittaavalla TF-IDF painotuksella sekä pisteiden suhteutusta sanastoesimerkin pituuden perusteella. Valittu menetelmä ratkaisee oikein 69,3 % käyttäjäkokeen tehtävistä ja 59,7 % koko tietokannan tehtävistä. Lopuksi esitämme parannusehdotuksia, kuten tehtävien kontekstin keräämisen tietokannan esimerkkitekstien ulkopuolelta, sekä sanaupotusten hyödyntämistä tietokannassa. Vektoreita tietokannassa hyödyntämällä mahdollistaisimme tarkempien menetelmien, kuten tekstien kosinisamanlaisuuden sekä modernien neuroverkkopohjaisten ratkaisuiden hyödyntämisen.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Oksanen, Kenneth

Other note

Citation