A Comparative Study of SVM and Random Forest Classifiers in Sentiment Analysis

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

ELEC3015

Language

en

Pages

5+26

Series

Abstract

Machine learning models have long been applied to sentiment analysis, which aims to determine the underlying sentiment expressed in data. Usually, the aim is to classify the text as negative or positive. This two-class classification problem is known as binary classification. Sentiment analysis can be used in customer feedback analysis or identifying trends, for example. This thesis starts with a rigorous explanation of Support Vector Machines (SVM) and Random Forest (RF) classifiers. After, small experiment where these models are used to classify movie reviews is also conducted to compare the models' performance. Support vector machines, like their name indicates, use support vectors to fit an optimal hyperplane between classes. Maximizing the margin between classes creates an optimization problem. Additionally, the thesis discusses the kernel trick, which enables the use of nonlinear data with SVMs. Random forests, on the other hand, use an ensemble of decision trees, which work by splitting data based on specific features to make the data more homogeneous. The decision trees are trained on bootstrapped datasets that decorrelate the trees, and the final prediction is then decided by a majority vote. The results indicate that SVMs performed modestly better in sentiment analysis, and their training time was significantly lower. The results also show the importance of data preprocessing, as modifications of preprocessing steps can have considerable effects on the performance of both models. However, the study on the hyperparameters of the models remained limited, which could be an avenue for future research.

Tämän opinnäytetyön tarkoituksena on avata tukivektorikoneiden (engl. support vector machines, SVM) ja satunnaismetsien (engl. random forest) toimintaperiaatteita. Tavoitteena on myös verrata malleja pienen kokeellisen työn avulla, jossa niitä opetetaan luokittelemaan elokuva-arvosteluihin sisältyviä mielipiteitä. Työ alkaa pohjustamalla, kuinka valvottu koneoppiminen toimii ja minkälaisilla mittareilla malleja voidaan verrata. Seuraavassa osiossa avataan, mitä sentimenttianalyysi on, ja kuinka tekstipohjaista aineistoa käytetään koneoppimisessa. Tämän jälkeen syvennytään mallien teknisiin toimintaperiaatteisiin ja matematiikkaan. Lopuksi malleja vertaillaan sentimenttianalyysin avulla. Koneoppimismalleja on pitkään hyödynnetty sentimenttianalyysissa, jossa arvioidaan tekstin tunnetta. Tavallisesti teksti pyritään luokittelemaan negatiiviseksi tai positiiviseksi. Kahden luokan takia tällaista luokittelua kutsutaan binääriluokitteluksi. Sentimenttianalyysiä voidaan hyödyntää esimerkiksi asiakkaiden palautteen tai trendien analysoinnissa. Tekstipohjainen aineisto on kuitenkin esitettävä numeerisesti, jotta tukivektorikone ja satunnaismetsä luokittelija voivat käyttää sitä. Työssä käytetään teksti aineiston muuntamiseen BoW (Bag-of-Words) ja TF-IDF (Term frequency – inverse document frequency) vektorointia. Nimensä veroisesti, tukivektorikoneet hyödyntävät tukivektoreita, joiden avulla sovitetaan optimaalinen hypertaso luokkien välille. Hypertason marginaalin maksimointi muodostaa optimointiongelman, joka ratkaistaan Lagrangen menetelmän avulla. Työssä käydään läpi myös tukivektorikoneille tyypillinen ominaisuus, ydinmenetelmä (engl. Kernel trick), joka mahdollistaa tukivektorikoneiden käytön myös epälineaarisen datan kanssa mallintamalla datan korkeampaan ulottuvuuteen. Tässä korkeammassa ulottuvuudessa lineaarinen hypertaso on usein mahdollista sovittaa. Satunnaismetsät koostuvat päätöspuista (engl. decision tree), jotka toimivat jakamalla dataa tietyin kriteerein siten, että datasta tulisi mahdollisimman homogeenista, eli koostuisi vain yhdestä luokasta. Satunnaismetsälle tyypillinen ominaisuus on jakokriteerien rajoittaminen, mikä lisää metsän satunnaisuutta, kun monet päätöspuut eivät harkita samoja kriteereitä. Päätöspuita koulutetaan bootstrap-aggregointi menetelmällä (engl. bagging, bootstrap aggregating). Bootstrap-aggregointi menetelmässä päätöspuita koulutetaan uusilla aineistoilla, jotka kootaan alkuperäisestä aineistosta korvaavalla otannalla. Tämä menetelmä dekorreloi päätöspuut, jonka jälkeen oikea ennustettava luokka valitaan enemmistöäänestyksellä. Kokeellisessa osiossa osoitetaan, että tukivektorikoneet toimivat paremmin sentimenttianalyysissä, ja niiden koulutusaika on merkittävästi lyhyempi. Tutkimus myös osoittaa, että koulutusdatan esikäsittelyn muutokset voivat vaikuttaa huomattavasti koneoppimismallien suorituskykyyn. Työssä mallien hyperparametrien tutkiminen jää suppeaksi, joten jatkotutkimus niiden osalta voisi osoittautua hedelmälliseksi. Myös tukivektorikoneiden vertailu uudempien transformer-mallien kanssa olisi kiinnostavaa.

Description

Supervisor

Lassila, Pasi

Thesis advisor

Ollila, Esa

Other note

Citation