Tuoteattribuuttien poiminta rakenteettomasta tekstistä

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Date

2014-12-15

Department

Major/Subject

Automaatiotekniikka

Mcode

AS3001

Degree programme

AUT - Automaatio- ja systeemitekniikka

Language

fi

Pages

72 + 7

Series

Abstract

Informaation määrän ja sen saatavuuden kasvu asettaa valtavasti haasteita tiedon ja tietovirtojen hallinnalle. Tietomäärien kasvaessa etenkin käsin suoritettavat tiedonhallintaprosessit käyvät resurssi- ja aikavaatimusten osilta kalliiksi, mikä puoltaa automatisointiratkaisujen käyttöönottoa. Työn tavoitteena on suunnitella ja toteuttaa järjestelmä automatisoimaan tuotetietojen ylläpitoa, jossa päivittäistavaroille poimitaan tuoteominaisuuksia vapaamuotoisista tuotekuvauksista. Järjestelmä avustaa ylläpitoprosessin manuaalisessa vaiheessa, jossa tuotetietoja haetaan lukuisista eri tuotetietolähteista ja kirjataan tuotetietojärjestelmään käyttötarkoitukseen erikoistuneella sovelluksella. Poimintaongelmaa lähestytään tekstinlouhinnan näkökulmasta, jossa esikäsitellystä tekstidatasta etsitään attribuutteja koneoppimisen menetelmin. Eksplisiittisiä attribuuttiarvoja poimitaan säännöllisillä lausekkeilla, jotka oppiva algoritmi muodostaa harjoitusdatasta merkittyjen näytteiden perusteella. Johdettavissa olevien attribuuttien tapauksessa painoarvo siirretään poimintaongelmasta uusien yhteyksien eli attribuuttirelaatioiden löytämiseen assosiaatiosääntöjen avulla. Testiaineistoa vasten suoritetut testiajot osoittivat säännölliset lausekkeet hyväksi valinnaksi attribuuttiarvojen poimintaan, mutta assosiaatiosääntöjen soveltuvuus sellaisenaan esitettyyn tehtäväkuvaukseen vaatii vielä lisätarkastelua.

The sheer amount of information available today has set many challenges for data management. Automatic methods for processing and understanding both structured and unstructured data are becoming more valuable solutions for all kinds of data processing tasks. In this thesis, an implementation of a software for extracting product attributes from unstructured textual data is presented. The implemented system is part of product feature management process where product attributes are extracted from different sources of data and transferred into a data management system using specialized tools. The main purpose of the software is to minimize manual work done in the extraction phase of the process. The attribute extraction is treated as a text mining problem. Product data is first preprocessed into a structured format before the actual extraction is performed using methods from the field of machine learning. Explicit attributes are extracted using regular expressions formed with supervised learning algorithm and implicit relations between attributes are examined with association rules. Association rules are also used for extracting implicit attributes from the product data. Performance of the system and chosen methods were evaluated with multiple test runs. Regular expressions were proven to be a fine choice for the extraction of explicit attributes whereas the current adaptation of association rules still require some additional work.

Description

Supervisor

Kyrki, Ville

Thesis advisor

Vesanto, Juha

Keywords

attribuuttipoiminta, rakenteeton data, tekstinlouhinta, säännölliset lausekkeet, assosiaatiosäännöt

Other note

Citation