A web scraping system for extracting news articles

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2019-12-16
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
53
Series
Abstract
Different publications, such as news articles, constitute a substantial part of the information published on the World Wide Web. Vainu provides company data for real-time business-to-business sales, and these news releases are an important piece of up-to-date information about different companies. Therefore, there is a need to develop an automated solution to extract publications from any company website. Due to the nature of the Web, the information published on it is often unstructured and contains irrelevant data, or noise. Additionally, the information is being written in different languages and based on various cultural aspects. Of course, the sheer amount of information is also a major restriction. These features of the Web make the development of a reliable and scalable web scraping process rather complicated. This thesis presents various approaches for different aspects of the given task. First, a scraper system with a specific algorithm to parse and select information is built. After this, a number of various machine learning techniques are experimented on to improve the performance of information retrieval in several steps of the process. First, various text classifying techniques based on term weights are implemented. The objective with them is to recognize whether the web document contains a publications. The second method is an approach to cluster and classify documents and their content based on the visual aspects of the content. This approach is based on the way that humans perceive visual information, and therefore is a language-independent technique. The baseline scraper implementation performs rather well in general cases. Based on the results that were achieved, the visual feature extraction and classifying will be further developed to improve the content retrieval performance, as well as the URL selection process.

Huomattava osa World Wide Webiin tuotetusta informaatiosta koostuu erilaisista julkaisuista, kuten uutisartikkeleista. Vainu tarjoaa dataa reaaliaikaisen yritysten välisen myynnin tarpeisiin, ja nämä julkaisut muodostavat tärkeän osan yrityksiin liittyvästä ajantasaisesta tiedosta. Tämän takia on tarpeen kehittää automaattinen ratkaisu näiden julkaisujen löytämiseen ja louhimiseen yritysten verkkosivuilta. Webin luonteen vuoksi siellä julkaistu tieto on usein järjestelemätöntä ja sisältää Vainun näkökulmasta epärelevanttia kohinaa. Tämän lisäksi julkaisuja tehdään useilla eri kielillä ja erilaisista kulttuurillisista lähtökohdista. On myös muistettava, että informaation määrä Webissä on huomattavan suuri. Nämä ominaisuudet tekevät luotettavan ja skaalautuvan datan louhintaprosessin kehittämisestä monimutkaista. Tämä työ esittelee erilaisia lähestymistapoja tämän ongelman ratkaisuksi. Ensimmäisessä vaiheessa kehitetään erilaisiin algoritmeihin pohjautuva louhija joka lataa ja jäsentelee tietoa Internetistä. Seuraavassa vaiheessa tutkitaan erilaisten koneoppimismetodien toimintaa ja suorituskykyä ensimmäisen vaiheen ratkaisun tueksi. Ensimmäinen näistä koneoppimistekniikoista on tekstin luokittelu ja erityisesti erilaisten mallien käyttö termien painottamiseen. Tavoitteena on pystyä tunnistamaan luotettavasti sisältääkö annettu dokumentti uutisjulkaisun. Toinen metodi perustuu tekstin klusterointiin ja luokitteluun web-dokumenttien visuaalisen ulkonäön perusteella. Tarkoituksena on tunnistaa sekä linkkejä, jotka viittaavaat uutisiin, että itse uutisartikkeleiden sisältöjä. Tämä tekniikka yrittää mallintaa tapaa jolla ihminen tulkitsee web-dokumentin sisältöä. Algoritmeihin perustuva louhija toimii hyvin yleisissä tapauksissa. Saavutettujen tulosten perusteella visuaalisiin ominaisuuksiin perustuvaa klusterointi- ja luokittelumallia kannattaisi hyödyntää sekä sisällön löytämiseen että uutislinkkien valitsemiseen.
Description
Supervisor
Jung, Alex
Thesis advisor
Lehtimäki, Antti
Keywords
web scraping, web content extraction, HTML structure analysis, data mining
Other note
Citation