Comparison of machine learning methods for social media and open data to predict sales

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2016-01-18
Department
Major/Subject
Ohjelmistotekniikka
Mcode
T3001
Degree programme
Tietotekniikan koulutusohjelma
Language
en
Pages
58
Series
Abstract
Machine learning is a part of artificial intelligence research. It is a combination of mathematics, statistics, and computer science, and its aim is to teach machines with a data to conduct accurate predictions. Machine learning can be divided into three categories: supervised learning, unsupervised learning, and reinforced learning. The prediction problems consist of labeling a correct class (classification) or estimating a numerical value (regression) to an unseen data object. Machine learning is executed with a choice of different methods or a combination of them (ensemble). This thesis looks more closely on the four different machine learning methods: support vector machines/regressors, multilayer perceptron, random forest, and linear regression. One of the uses of machine learning lies in sentiment analysis. It means retrieving opinions and categorizing them to numerical values from a textual data. The values are called sentiments and can range from 0 to 10. The lowest sentiment is totally negative opinion, five is a neutral opinion, and 10 is totally positive opinion. The methods in this thesis are evaluated via receiver operating characteristics curves and different mean error values. The four methods were evaluated in the context of predicting car sales amounts with previous sales amounts and social media sentiment analysis data. It was noticed, that random forest produced the best results. The experimentation was conducted by a program written for the thesis called Sales Predictor.

Koneoppiminen on osa tekoälytutkimusta. Se on yhdistelmä matematiikkaa, tilastotiedettä, ja tietojenkäsittelytiedettä ja sen tavoite on opettaa koneita muodostamaan tarkkoja ennusteita datan avulla. Koneoppiminen voidaan jakaa kolmeen kategoriaan: ohjattu oppiminen, epäohjattu oppiminen ja vahvistettu oppiminen. Ennusteongelmat sisältävät oikeaan luokkaan merkitsemistä (luokittelu) tai numeerisen arvon estimointia (regressio) tuntemattomalle dataobjektille. Koneoppiminen suoritetaan valitsemalla tietty menetelmä tarpeen mukaan tai yhdistelemällä eri menetelmiä. Tämä työ käy tarkemmin läpi neljä eri menetelmää: tukivektorikoneet/-regressorit, monikerrosperseptronit, satunnaismetsät ja lineaariregression. Eräs koneoppimisen käyttökohde on sentimenttianalyysi. Se tarkoittaa mielipiteiden keräämistä teksteistä ja niiden luokittelua numeerisiin arvoihin. Näitä arvoja kutsutaan sentimenteiksi ja ne voivat olla välillä 0:sta 10:een. Alin sentimentti on täysin kielteinen mielipide, arvo viisi on neutraali mielipide ja kymmenen on täysin positiivinen mielipide. Tämän työn metodit arvioidaan hyödyntämällä ns. receiver operating characteristics -käyriä sekä eri keskivirhelukuja. Neljän metodin arvioinnit tehtiin automerkkien myyntilukujen kontekstissa, jossa yhdistettiin aikaisemmat myyntiluvut sosiaalisen median sentimenttianalyysidataan. Havaittiin, että satunnaismetsä tuotti parhaimmat tulokset. Koe suoritettiin työtä varten kirjoitetulla Sales Predictor -ohjelmalla.
Description
Supervisor
Vuorimaa, Petri
Thesis advisor
Myller, Niko
Keywords
machine learning, regression, supervised learning, sentiment analysis
Other note
Citation