Language- and domain-independent text mining

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2012-11-09
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2012
Major/Subject
Mcode
Degree programme
Language
en
Pages
250
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 137/2012
Abstract
The field of natural language processing (NLP) has developed enormously during the last decades. The availability of constantly increasing amount of textual data in electronic form has accelerated also the development of statistical methods for NLP, in which characteristics of natural languages are learned from large corpora. Statistical methods have shown their applicability in information retrieval, in which documents of various languages and domains are returned according to user queries, statistical machine translation which is easily applicable to new languages, document clustering to group semantically similar documents, and many information extraction tasks, including keyphrase extraction, document summarization and discovering linguistic features. However, a majority of the NLP research, including also many statistical methods, is concentrated on the English language, using various language-specific tools and resources, such as part-of-speech taggers and ontologies, which are not directly applicable to other languages. Furthermore, methods developed for English alone may not be suitable for languages with different syntax or writing system. In this dissertation, language-independent methods for natural language processing are developed and discussed. Language-independent methods can be applied to a variety of languages without requiring additional language-specific resources. Also dialects, historical forms of languages, languages of few speakers and languages used in specific domains are accessible with language-independent methods. As the main contribution of this thesis, Likey, a language-independent method for keyphrase extraction and feature selection is developed. The method is applied to keyphrase extraction from encyclopedias and scientific articles in eleven languages, and further used as a feature selection method for automatic taxonomy learning and in a novel approach to user modelling in document difficulty assessment. Another major contribution is related to document representations: a set of dimensionality reduction and distance measures are compared in a document clustering task, a novel language-independent direct evaluation method for document representations is proposed, and linguistic features are used for document clustering in a lexical choice task.

Luonnollisen kielen käsittely (Natural language processing, NLP) on tieteenalana kasvanut valtavasti viimeisinä vuosikymmeninä. Tekstimuotoista tietoa on tarjolla elektronisessa muodossa jatkuvasti enenevässä määrin. Tämä on kiihdyttänyt myös tilastollisten NLP-menetelmien kehitystä, joissa kielen ominaisuuksia opitaan automaattisesti suurista tekstiaineistoista. Tilastollisia menetelmiä on onnistuneesti sovellettu tiedonhakuun, jossa käyttäjän hakusanojen perusteella palautetaan dokumentteja eri kielillä ja eri aloilta, tilastolliseen konekäännökseen, jota pystytään helposti laajentamaan uusiin kielipareihin, dokumenttien klusterointiin, jossa merkityssisällöltään samankaltaiset dokumentit ryhmitellään yhteen, ja moniin tiedonirrotustehtäviin, kuten avainfraasien hakuun, tekstin referointiin ja tiivistämiseen sekä kielitieteellisten piirteiden hakuun. Valitettavasti suurin osa NLP-tutkimuksesta - myös tilastollisten menetelmien käytöstä - on keskittynyt englannin kieleen ja käyttää kieliriippuvia työkaluja ja resursseja, kuten sanaluokittimia ja ontologioita, joita ei voi suoraan soveltaa muihin kieliin. Menetelmät, jotka on kehitetty pelkästään englannille, eivät välttämättä ollenkaan sovi kielille, joissa on erilainen lauserakenne tai kirjoitusjärjestelmä. Tässä väitöskirjassa tutkitaan ja kehitetään kieliriippumattomia menetelmiä luonnollisen kielen käsittelyyn. Kieliriippumattomia menetelmiä voidaan soveltaa useisiin kieliin ilman tarvetta ylimääräisille kielikohtaisille esikäsittelyvaiheille. Myös murteita, kielten historiallisia muotoja, pieniä kieliä ja erityisalojen kieltä voidaan käsitellä kieliriippumattomilla menetelmillä. Yksi tämän väitöskirjan keskeinen tulos on kieliriippumattoman Likey-menetelmän kehittäminen ja soveltaminen avainfraasien hakuun ja piirrevalintaan. Menetelmää on sovellettu avainfraasien hakuun tietosanakirja- ja tieteellisistä artikkeleista yhdellätoista kielellä ja lisäksi käytetty piirreirrotusmenetelmänä automaattisessa taksonomian oppimisjärjestelmässä sekä uudessa lähestymistavassa käyttäjämallinnukseen dokumenttien vaikeustason analysoinnissa. Toinen väitöskirjan keskeinen tulos liittyy dokumenttien mallinnukseen: työssä on vertailtu dimensionpudotusmenetelmiä ja etäisyysmittoja dokumenttiklusterointitehtävässä, kehitetty uusi kieliriippumaton suora evaluointimenetelmä dokumenttien esitysmuodoille ja käytetty kielitieteellisiä piirteitä dokumenttien klusteroinnissa sanavalintatehtävää varten.
Description
Supervising professor
Oja, Erkki, Prof.
Thesis advisor
Honkela, Timo, Doc.
Creutz, Mathias, Dr.
Keywords
natural language processing, computational linguistics, unsupervised machine learning, language independence, subjectivity of language use, keyphrase extraction, document clustering, luonnollisen kielen käsittely, laskennallinen kielitiede, ohjaamaton koneoppiminen, kieliriippumattomuus, kielen subjektiivinen käyttö, avainfraasihaku, dokumenttien klusterointi
Other note
Parts
  • [Publication 1]: Mari-Sanna Paukkeri, Ilari T. Nieminen, Matti Pöllä, and Timo Honkela, 2008. A Language-Independent Approach to Keyphrase Extraction and Evaluation. In Coling 2008: Companion volume: Posters, pages 83-86, Manchester, UK. Association for Computational Linguistics.
  • [Publication 2]: Mari-Sanna Paukkeri and Timo Honkela, 2010. Likey: Unsupervised Language-Independent Keyphrase Extraction. In Proceedings of the 5th International Workshop on Semantic Evaluation (SemEval), pages 162-165, Uppsala, Sweden. Association for Computational Linguistics.
  • [Publication 3]: Mari-Sanna Paukkeri, Alberto Pérez García-Plaza, Víctor Fresno, Raquel Martínez Unanue, and Timo Honkela, 2012. Learning a taxonomy from a set of text documents. Applied Soft Computing, 12(3):1138-1148. Elsevier B.V.
  • [Publication 4]: Mari-Sanna Paukkeri, Jaakko Väyrynen, and Antti Arppe, 2012. Exploring Extensive Linguistic Feature Sets in Near-Synonym Lexical Choice. In A. Gelbukh, editor, Computational Linguistics and Intelligent Text Processing, 13th International Conference, CICLing 2012, New Delhi, India, March 11-17, 2012, Proceedings, Part II, volume 7182 of Lecture Notes in Computer Science, pages 1-12. Springer-Verlag, Berlin/Heidelberg, Germany.
  • [Publication 5]: Mari-Sanna Paukkeri, Ilkka Kivimäki, Santosh Tirunagari, Erkki Oja, and Timo Honkela, 2011. Effect of Dimensionality Reduction on Different Distance Measures in Document Clustering. In B. L. Lu, L. Zhang, and J. T. Kwok, editors, Neural Information Processing, 18th International Conference, ICONIP 2011, Shanghai, China, November 13-17, 2011, Proceedings, Part III, volume 7064 of Lecture Notes in Computer Science, pages 167-176. Springer-Verlag, Berlin/Heidelberg, Germany.
  • [Publication 6]: Sami Virpioja, Mari-Sanna Paukkeri, Abhishek Tripathi, Tiina Lindh-Knuutila, and Krista Lagus, 2012. Evaluating vector space models with canonical correlation analysis. Natural Language Engineering, 18(3):399-436. Cambridge University Press.
  • [Publication 7]: Mari-Sanna Paukkeri, Marja Ollikainen and Timo Honkela, in print. Assessing user-specific difficulty of documents. Accepted for publication in Information Processing and Management. Elsevier Ltd.
Citation