Classification of Web Elements Using Machine Learning

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2019-05-06
Department
Major/Subject
Communications Engineering
Mcode
ELEC3029
Degree programme
CCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)
Language
en
Pages
38 + 7
Series
Abstract
Basic image segmentation is a fairly simple task for human beings and even young children can accomplish it naturally, but for machines, this can be a burdensome and difficult task. Segmenting large amounts of documents manually can be rather labour-intensive exercise and many gains in productivity could be had if machines could be automated to do the routine segmentation and classification tasks. The website hosting company Suomen Hostingpalvelu Oy is transitioning from their old web site builder software to a new in-house developed site builder and they were faced with the problem of how to effortlessly allow users to move their old websites from the old site builder to the new one. This thesis explores the solution for this problem based on the fact, that the new site builder software uses semantic building blocks to build a website. By identifying the given semantic parts present on a given website through machine learning, we can provide the corresponding building blocks for site transitioning in the new site builder. In this thesis, a novel way of segmenting web pages to their semantic parts is presented. This is accomplished by building a prototype which parses a given web site, gathers all the relevant features of the site's web elements and captures images of each web element. The gathered data is employed to create a training and testing data set which is used to train a machine learning model to classify web site segments. Three different machine learning algorithms, random forests, gradient boosting machines and a neural networks are examined and tested. After cross-validation, the highest achieved classification accuracy score of the trained machine learning model was a competent 81% allowing the prototype to be used in production at Hostingpalvelu. Finally, we will explore ideas for future research and for the improvement of the prototype.

Kuvien jakaminen sen merkitseviin osiin on verrattain helppo tehtävä ihmisille ja jopa pienet lapset osaavat sen luonnostaan, mutta koneille tämä voi olla hyvinkin haastava tehtävä suoritettavaksi. Suurten tiedostomäärien käsin luokitteleminen ja osiin jakaminen on aikaa vievää ja työteliästä ja jos tietokoneet voitaisiin automatisoida tekemään nämä rutiinityöt, ihmiset voisivat ohjata työpanoksensa merkitsevämpiin asioihin. IT-alan yritys Suomen Hostingpalvelu Oy on siirtymässä pois vanhasta kotisivukoneestaan uuteen talon sisällä kehitettyyn kotisivukoneeseen ja heillä oli ongelmana vanhojen kotisivujen siirto vanhasta kotisivukoneesta uuteen. Tämä diplomityö käsittelee tämän ongelman ratkaisemista perustuen siihen, että uusi kotisivukone käyttää semanttisia lohkoja sivujen rakentamiseen. Tunnistamalla vanhalla kotisivukoneella tehdyistä sivuista niiden semanttiset osat, voidaan sivuston siirto uuteen kotisivukoneeseen automatisoida. Tässä diplomityössä esitellään uudenlainen lähestymistapa verkkosivun semanttiseen jakamiseen osiksi. Tämä tehdään rakentamalla prototyyppiohjelma, joka ensin jäsentää sille annetun verkkosivun, keräää jokaisen sivulla esiintyvän elementin ominaispiirteet ja ottaa niistä kuvat. Tästä datasta muodostetaan opetus- ja testidata, jolla opetetaan koneoppimismallia luokittelemaan verkkosivun semanttiset osat. Työssä esitellään kolme koneoppimisalgoritmia, random forests, gradient boosting machine ja neuroverkot, joita testataan prototyypissä. Ristiinvalidoinnin jälkeen korkein saatu luokittelutarkkuus oli 81%, joka on tarpeeksi korkea mahdollistaakseen prototyypin ottamisen tuotantokäyttöön Hosting-palvelulla. Lopuksi tutkimme vielä ideoita tulevaisuuden tutkimukseen ja mahdollisia tapoja, jolla prototyyppiä voitaisiin parantaa.
Description
Supervisor
Oulasvirta, Antti
Thesis advisor
Laine, Markku
Keywords
machine learning, classification, supervised learning, web element
Other note
Citation