Domain specific boilerplate removal from web pages with entropy and clustering
Loading...
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2022-05-16
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
88 + 7
Series
Abstract
This thesis proposes a boilerplate removal system utilizing the clustering of HTML documents and the entropy of natural language measured with text compression. The system attemps to learn domain specific content selectors from received documents, which allow the extraction of only relevant information from web pages. We evaluate the proposed system by measuring the precision and recall of extraction with several datasets of manually labeled HTML documents and compare the results with existing approaches. Additionally, we present our own dataset utilized in both the development and evaluation of the proposed system. Our results indicate the proposed system to achieve precision comparable to existing solutions, when the data features dozens of documents from a single domain. Additionally, our solution consistently achieves higher recall values. Consequently, we find the proposed system to fit use cases where the extraction of all relevant content is more important than the removal of all redundant content. Additionally, we investigated the clustering of HTML documents as a preprocessing step and present a clustering scheme consisting of our own vectorization method and an existing clustering algorithm, which accurately discovers large clusters of documents within a given domain. However, our results indicate that clustering doesn't affect the accuracy of content extraction. Based on the results we note that clustering can offer performance benefits by allowing extraction from multiple clusters in parallel. Nevertheless, our results indicate the vectorization to produce clustering accuracy equivalent to the highest performing vectorization method found in the literature. Additionally, our results indicate that dimensionality reduction reduces variance between hyperparameter values between different clustering algorithms allaying the selection of hyperparameters.Tässä diplomityössä kehitetään järjestelmä olennaisen tiedon irroittamiseen verkkosivuista ryhmittelyllä ja mittaamalla luonnollisen kielen entropiaa tekstinpakkauksella. Kehitetty järjestelmä pyrkii oppimaan joukon sivustokohtaisia valitsimia syötteenä annetuista dokumenteista, mikä mahdollistaa irroittamisen kohdentamisen vain olennaisiin osiin sivuista. Arvioimme järjestelmän tarkkuutta vertaamalle tarkkuusmittareiden arvoja usealla dokumenttijoukolla ja vertaamme tuloksia kirjallisuudesta löytyneisiin menetelmiin. Työtä varten luotiin myös uusi dokumenttijoukko, jota käytettiin järjestelmän kehityksessä ja lopullisessa vertailussa. Tuloksien perusteella tuotettu järjestelmä poistaa epäolennaista tietoa yhtä tarkasti kuin valmiit järjestelmät, kun kohdedata sisältää kymmeniä dokumentteja samalta verkkosivustolta. Lisäksi toteutuksemme onnistuu luotettavasti irroittamaan olennaista tietoa dokumenteista. Tuloksien perusteella järjestelmä soveltuu parhaiten tilanteisiin, joissa olennaisen tiedon irroittaminen on tärkeämpää kuin epäolennaisen tiedon poistaminen. Työssä myös tutkitaan sivujen ryhmittelyä ja esitellään ryhmittelytoteutus, joka koostuu vektorisointimenetelmästä ja valmiista ryhmittelyalgoritmista. Ryhmittelytoteutus onnistuu erottamaan suuret dokumenttijoukot toisistaan. Vertailun perusteella huomataan ettei ryhmittely vaikuta irroittamistarkkuuteen. Ryhmittelyä voi kuitenkin soveltaa useiden rinnakkaisten irroittamisprosessien ajamiseen. Lisäksi työssä laadittu vektorisointimenetelmä saavuttaa yhtä korkean ryhmittelytarkkuuden kuin tarkin kirjallisuudesta löydetty menetelmä. Työssä myös huomataan vektorien ulottuvuuksien vähentämisen laskevan varianssia eri ryhmittelyalgoritmien parametrien välillä.Description
Supervisor
Vuorimaa, PetriThesis advisor
Oksanen, KennethKeywords
web scraping, information extraction, clustering, entropy, classification