A web scraping system for extracting news articles

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2019-12-16

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

53

Series

Abstract

Different publications, such as news articles, constitute a substantial part of the information published on the World Wide Web. Vainu provides company data for real-time business-to-business sales, and these news releases are an important piece of up-to-date information about different companies. Therefore, there is a need to develop an automated solution to extract publications from any company website. Due to the nature of the Web, the information published on it is often unstructured and contains irrelevant data, or noise. Additionally, the information is being written in different languages and based on various cultural aspects. Of course, the sheer amount of information is also a major restriction. These features of the Web make the development of a reliable and scalable web scraping process rather complicated. This thesis presents various approaches for different aspects of the given task. First, a scraper system with a specific algorithm to parse and select information is built. After this, a number of various machine learning techniques are experimented on to improve the performance of information retrieval in several steps of the process. First, various text classifying techniques based on term weights are implemented. The objective with them is to recognize whether the web document contains a publications. The second method is an approach to cluster and classify documents and their content based on the visual aspects of the content. This approach is based on the way that humans perceive visual information, and therefore is a language-independent technique. The baseline scraper implementation performs rather well in general cases. Based on the results that were achieved, the visual feature extraction and classifying will be further developed to improve the content retrieval performance, as well as the URL selection process.

Huomattava osa World Wide Webiin tuotetusta informaatiosta koostuu erilaisista julkaisuista, kuten uutisartikkeleista. Vainu tarjoaa dataa reaaliaikaisen yritysten välisen myynnin tarpeisiin, ja nämä julkaisut muodostavat tärkeän osan yrityksiin liittyvästä ajantasaisesta tiedosta. Tämän takia on tarpeen kehittää automaattinen ratkaisu näiden julkaisujen löytämiseen ja louhimiseen yritysten verkkosivuilta. Webin luonteen vuoksi siellä julkaistu tieto on usein järjestelemätöntä ja sisältää Vainun näkökulmasta epärelevanttia kohinaa. Tämän lisäksi julkaisuja tehdään useilla eri kielillä ja erilaisista kulttuurillisista lähtökohdista. On myös muistettava, että informaation määrä Webissä on huomattavan suuri. Nämä ominaisuudet tekevät luotettavan ja skaalautuvan datan louhintaprosessin kehittämisestä monimutkaista. Tämä työ esittelee erilaisia lähestymistapoja tämän ongelman ratkaisuksi. Ensimmäisessä vaiheessa kehitetään erilaisiin algoritmeihin pohjautuva louhija joka lataa ja jäsentelee tietoa Internetistä. Seuraavassa vaiheessa tutkitaan erilaisten koneoppimismetodien toimintaa ja suorituskykyä ensimmäisen vaiheen ratkaisun tueksi. Ensimmäinen näistä koneoppimistekniikoista on tekstin luokittelu ja erityisesti erilaisten mallien käyttö termien painottamiseen. Tavoitteena on pystyä tunnistamaan luotettavasti sisältääkö annettu dokumentti uutisjulkaisun. Toinen metodi perustuu tekstin klusterointiin ja luokitteluun web-dokumenttien visuaalisen ulkonäön perusteella. Tarkoituksena on tunnistaa sekä linkkejä, jotka viittaavaat uutisiin, että itse uutisartikkeleiden sisältöjä. Tämä tekniikka yrittää mallintaa tapaa jolla ihminen tulkitsee web-dokumentin sisältöä. Algoritmeihin perustuva louhija toimii hyvin yleisissä tapauksissa. Saavutettujen tulosten perusteella visuaalisiin ominaisuuksiin perustuvaa klusterointi- ja luokittelumallia kannattaisi hyödyntää sekä sisällön löytämiseen että uutislinkkien valitsemiseen.

Description

Supervisor

Jung, Alex

Thesis advisor

Lehtimäki, Antti

Keywords

web scraping, web content extraction, HTML structure analysis, data mining

Other note

Citation