Nonnegative Matrix Factorization in Text Mining Applications

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorVigário, Ricardo
dc.contributor.authorSoppela, Jyri
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorOja, Erkki
dc.date.accessioned2015-02-19T08:39:11Z
dc.date.available2015-02-19T08:39:11Z
dc.date.issued2015-02-09
dc.description.abstractMeta-analysis of scientific publications is a practice where conclusions, sometimes novel, are drawn from already published material. It is mostly done by hand but on some fields, automatic tools have appeared to mine through large amounts of scientific literature. In this thesis, methods in statistical processing of natural language are used to process neuroscience articles. The long-time goal in which this thesis is a part is to construct a method to automatically process neuroscience publications and possibly by combining data in them, find new results not found by the original authors. Two computational methods, k-means clustering and non-negative matrix factorization, were used on several text data data sets to find semantic structure in them. The results using the computational methods were not very useful but proved that the tf-idf feature extraction method has potential. The clustering performed better than random assignment of clusters and published literature has presented even higher results using the same methods with different parameters.en
dc.description.abstractTieteellisten julkaisujen meta-analyysi on käytäntö, jossa jo julkaistusta materiaalista tehdään johtopäätöksiä. Joissain tapauksissa voidaan tehdä jopa alkuperäisessa aineistossa julkaisemattomia löydöksiä. Meta-analyysiä tehdään paljon ihmisvoimin, mutta joillain aloilla on otettu käyttöön automaattisia työkaluja suurten aineistojen läpikäyntiin. Tässä työssä luonnollisen kielen tilastollisia menetelmiä käytetään neurotiedeartikkelien prosessointiin. Pitkän aikavälin tavoite, jonka osa tämä työ on, on löytää jo julkaistusta neurotiedekirjallisuudesta tietoa, jota ei voitaisi päätellä yksittäisistä artikkeleista. Kahta ohjaamatonta laskennallista metodia, k-means-klusterointia ja NMF-matriisihajotelmaa, käytettiin usean eri aineiston käsittelyyn semanttisen rakenteen löytämiseksi. Laskennallisten metodien tulokset eivät olleet odotetun tasoisia, mutta tf-idf-piirre-erottelun käyttökelpoisuus validoitiin. Klusteroinnit toimivat satunnaista klusterointia paremmin ja julkaistussa kirjallisuudessa on onnistuttu tuottamaan samoilla metodeilla parempia tuloksia eri parametreja käyttäen.fi
dc.format.extent45+6
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/15200
dc.identifier.urnURN:NBN:fi:aalto-201502191893
dc.language.isoenen
dc.locationP1fi
dc.programmeBIO - Bioinformaatioteknologiafi
dc.programme.majorComputer and information sciencefi
dc.programme.mcodeT-61fi
dc.rights.accesslevelopenAccess
dc.subject.keywordnonnegative matrix factorizationen
dc.subject.keywordtext miningen
dc.subject.keywordNMFfi
dc.subject.keywordtiedonlouhintafi
dc.subject.keywordtf-idffi
dc.titleNonnegative Matrix Factorization in Text Mining Applicationsen
dc.titleOhjaamattoman koneoppimisen menetelmät luonnollisen kielen tilastollisen analyysin apunafi
dc.typeG2 Pro gradu, diplomityöen
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
dc.type.publicationmasterThesis
local.aalto.digifolderAalto_07630
local.aalto.idinssi50633
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Soppela_Jyri_2015.pdf
Size:
554.73 KB
Format:
Adobe Portable Document Format