Title: | Language- and domain-independent text mining Kielestä ja aihealueesta riippumaton tekstinlouhinta |
Author(s): | Paukkeri, Mari-Sanna |
Date: | 2012 |
Language: | en |
Pages: | 250 |
Department: | Tietojenkäsittelytieteen laitos Department of Information and Computer Science |
ISBN: | 978-952-60-4834-5 (electronic) 978-952-60-4833-8 (printed) |
Series: | Aalto University publication series DOCTORAL DISSERTATIONS, 137/2012 |
ISSN: | 1799-4942 (electronic) 1799-4934 (printed) 1799-4934 (ISSN-L) |
Supervising professor(s): | Oja, Erkki, Prof. |
Thesis advisor(s): | Honkela, Timo, Doc.; Creutz, Mathias, Dr. |
Subject: | Computer science |
Keywords: | natural language processing, computational linguistics, unsupervised machine learning, language independence, subjectivity of language use, keyphrase extraction, document clustering, luonnollisen kielen käsittely, laskennallinen kielitiede, ohjaamaton koneoppiminen, kieliriippumattomuus, kielen subjektiivinen käyttö, avainfraasihaku, dokumenttien klusterointi |
OEVS yes | |
|
|
Abstract:Luonnollisen kielen käsittely (Natural language processing, NLP) on tieteenalana kasvanut valtavasti viimeisinä vuosikymmeninä. Tekstimuotoista tietoa on tarjolla elektronisessa muodossa jatkuvasti enenevässä määrin. Tämä on kiihdyttänyt myös tilastollisten NLP-menetelmien kehitystä, joissa kielen ominaisuuksia opitaan automaattisesti suurista tekstiaineistoista. Tilastollisia menetelmiä on onnistuneesti sovellettu tiedonhakuun, jossa käyttäjän hakusanojen perusteella palautetaan dokumentteja eri kielillä ja eri aloilta, tilastolliseen konekäännökseen, jota pystytään helposti laajentamaan uusiin kielipareihin, dokumenttien klusterointiin, jossa merkityssisällöltään samankaltaiset dokumentit ryhmitellään yhteen, ja moniin tiedonirrotustehtäviin, kuten avainfraasien hakuun, tekstin referointiin ja tiivistämiseen sekä kielitieteellisten piirteiden hakuun. Valitettavasti suurin osa NLP-tutkimuksesta - myös tilastollisten menetelmien käytöstä - on keskittynyt englannin kieleen ja käyttää kieliriippuvia työkaluja ja resursseja, kuten sanaluokittimia ja ontologioita, joita ei voi suoraan soveltaa muihin kieliin. Menetelmät, jotka on kehitetty pelkästään englannille, eivät välttämättä ollenkaan sovi kielille, joissa on erilainen lauserakenne tai kirjoitusjärjestelmä. |
|
Parts:[Publication 1]: Mari-Sanna Paukkeri, Ilari T. Nieminen, Matti Pöllä, and Timo Honkela, 2008. A Language-Independent Approach to Keyphrase Extraction and Evaluation. In Coling 2008: Companion volume: Posters, pages 83-86, Manchester, UK. Association for Computational Linguistics.[Publication 2]: Mari-Sanna Paukkeri and Timo Honkela, 2010. Likey: Unsupervised Language-Independent Keyphrase Extraction. In Proceedings of the 5th International Workshop on Semantic Evaluation (SemEval), pages 162-165, Uppsala, Sweden. Association for Computational Linguistics.[Publication 3]: Mari-Sanna Paukkeri, Alberto Pérez García-Plaza, Víctor Fresno, Raquel Martínez Unanue, and Timo Honkela, 2012. Learning a taxonomy from a set of text documents. Applied Soft Computing, 12(3):1138-1148. Elsevier B.V.[Publication 4]: Mari-Sanna Paukkeri, Jaakko Väyrynen, and Antti Arppe, 2012. Exploring Extensive Linguistic Feature Sets in Near-Synonym Lexical Choice. In A. Gelbukh, editor, Computational Linguistics and Intelligent Text Processing, 13th International Conference, CICLing 2012, New Delhi, India, March 11-17, 2012, Proceedings, Part II, volume 7182 of Lecture Notes in Computer Science, pages 1-12. Springer-Verlag, Berlin/Heidelberg, Germany.[Publication 5]: Mari-Sanna Paukkeri, Ilkka Kivimäki, Santosh Tirunagari, Erkki Oja, and Timo Honkela, 2011. Effect of Dimensionality Reduction on Different Distance Measures in Document Clustering. In B. L. Lu, L. Zhang, and J. T. Kwok, editors, Neural Information Processing, 18th International Conference, ICONIP 2011, Shanghai, China, November 13-17, 2011, Proceedings, Part III, volume 7064 of Lecture Notes in Computer Science, pages 167-176. Springer-Verlag, Berlin/Heidelberg, Germany.[Publication 6]: Sami Virpioja, Mari-Sanna Paukkeri, Abhishek Tripathi, Tiina Lindh-Knuutila, and Krista Lagus, 2012. Evaluating vector space models with canonical correlation analysis. Natural Language Engineering, 18(3):399-436. Cambridge University Press.[Publication 7]: Mari-Sanna Paukkeri, Marja Ollikainen and Timo Honkela, in print. Assessing user-specific difficulty of documents. Accepted for publication in Information Processing and Management. Elsevier Ltd. |
|
|
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Page content by: Aalto University Learning Centre | Privacy policy of the service | About this site