Comparison of machine learning methods for social media and open data to predict sales

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Myller, Niko
dc.contributor.author Mäkinen, Dominik
dc.date.accessioned 2016-01-19T10:52:38Z
dc.date.available 2016-01-19T10:52:38Z
dc.date.issued 2016-01-18
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/19413
dc.description.abstract Machine learning is a part of artificial intelligence research. It is a combination of mathematics, statistics, and computer science, and its aim is to teach machines with a data to conduct accurate predictions. Machine learning can be divided into three categories: supervised learning, unsupervised learning, and reinforced learning. The prediction problems consist of labeling a correct class (classification) or estimating a numerical value (regression) to an unseen data object. Machine learning is executed with a choice of different methods or a combination of them (ensemble). This thesis looks more closely on the four different machine learning methods: support vector machines/regressors, multilayer perceptron, random forest, and linear regression. One of the uses of machine learning lies in sentiment analysis. It means retrieving opinions and categorizing them to numerical values from a textual data. The values are called sentiments and can range from 0 to 10. The lowest sentiment is totally negative opinion, five is a neutral opinion, and 10 is totally positive opinion. The methods in this thesis are evaluated via receiver operating characteristics curves and different mean error values. The four methods were evaluated in the context of predicting car sales amounts with previous sales amounts and social media sentiment analysis data. It was noticed, that random forest produced the best results. The experimentation was conducted by a program written for the thesis called Sales Predictor. en
dc.description.abstract Koneoppiminen on osa tekoälytutkimusta. Se on yhdistelmä matematiikkaa, tilastotiedettä, ja tietojenkäsittelytiedettä ja sen tavoite on opettaa koneita muodostamaan tarkkoja ennusteita datan avulla. Koneoppiminen voidaan jakaa kolmeen kategoriaan: ohjattu oppiminen, epäohjattu oppiminen ja vahvistettu oppiminen. Ennusteongelmat sisältävät oikeaan luokkaan merkitsemistä (luokittelu) tai numeerisen arvon estimointia (regressio) tuntemattomalle dataobjektille. Koneoppiminen suoritetaan valitsemalla tietty menetelmä tarpeen mukaan tai yhdistelemällä eri menetelmiä. Tämä työ käy tarkemmin läpi neljä eri menetelmää: tukivektorikoneet/-regressorit, monikerrosperseptronit, satunnaismetsät ja lineaariregression. Eräs koneoppimisen käyttökohde on sentimenttianalyysi. Se tarkoittaa mielipiteiden keräämistä teksteistä ja niiden luokittelua numeerisiin arvoihin. Näitä arvoja kutsutaan sentimenteiksi ja ne voivat olla välillä 0:sta 10:een. Alin sentimentti on täysin kielteinen mielipide, arvo viisi on neutraali mielipide ja kymmenen on täysin positiivinen mielipide. Tämän työn metodit arvioidaan hyödyntämällä ns. receiver operating characteristics -käyriä sekä eri keskivirhelukuja. Neljän metodin arvioinnit tehtiin automerkkien myyntilukujen kontekstissa, jossa yhdistettiin aikaisemmat myyntiluvut sosiaalisen median sentimenttianalyysidataan. Havaittiin, että satunnaismetsä tuotti parhaimmat tulokset. Koe suoritettiin työtä varten kirjoitetulla Sales Predictor -ohjelmalla. fi
dc.format.extent 58
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title Comparison of machine learning methods for social media and open data to predict sales en
dc.title Koneoppimisen menetelmien vertailu myynnin ennustamisessa sosiaalista mediaa ja avointa dataa hyödyntäen fi
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword machine learning en
dc.subject.keyword regression en
dc.subject.keyword supervised learning en
dc.subject.keyword sentiment analysis en
dc.identifier.urn URN:NBN:fi:aalto-201601201066
dc.programme.major Ohjelmistotekniikka fi
dc.programme.mcode T3001 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Vuorimaa, Petri
dc.programme Tietotekniikan koulutusohjelma fi


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account