Tuoteattribuuttien poiminta rakenteettomasta tekstistä

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2014-12-15
Department
Major/Subject
Automaatiotekniikka
Mcode
AS3001
Degree programme
AUT - Automaatio- ja systeemitekniikka
Language
fi
Pages
72 + 7
Series
Abstract
Informaation määrän ja sen saatavuuden kasvu asettaa valtavasti haasteita tiedon ja tietovirtojen hallinnalle. Tietomäärien kasvaessa etenkin käsin suoritettavat tiedonhallintaprosessit käyvät resurssi- ja aikavaatimusten osilta kalliiksi, mikä puoltaa automatisointiratkaisujen käyttöönottoa. Työn tavoitteena on suunnitella ja toteuttaa järjestelmä automatisoimaan tuotetietojen ylläpitoa, jossa päivittäistavaroille poimitaan tuoteominaisuuksia vapaamuotoisista tuotekuvauksista. Järjestelmä avustaa ylläpitoprosessin manuaalisessa vaiheessa, jossa tuotetietoja haetaan lukuisista eri tuotetietolähteista ja kirjataan tuotetietojärjestelmään käyttötarkoitukseen erikoistuneella sovelluksella. Poimintaongelmaa lähestytään tekstinlouhinnan näkökulmasta, jossa esikäsitellystä tekstidatasta etsitään attribuutteja koneoppimisen menetelmin. Eksplisiittisiä attribuuttiarvoja poimitaan säännöllisillä lausekkeilla, jotka oppiva algoritmi muodostaa harjoitusdatasta merkittyjen näytteiden perusteella. Johdettavissa olevien attribuuttien tapauksessa painoarvo siirretään poimintaongelmasta uusien yhteyksien eli attribuuttirelaatioiden löytämiseen assosiaatiosääntöjen avulla. Testiaineistoa vasten suoritetut testiajot osoittivat säännölliset lausekkeet hyväksi valinnaksi attribuuttiarvojen poimintaan, mutta assosiaatiosääntöjen soveltuvuus sellaisenaan esitettyyn tehtäväkuvaukseen vaatii vielä lisätarkastelua.

The sheer amount of information available today has set many challenges for data management. Automatic methods for processing and understanding both structured and unstructured data are becoming more valuable solutions for all kinds of data processing tasks. In this thesis, an implementation of a software for extracting product attributes from unstructured textual data is presented. The implemented system is part of product feature management process where product attributes are extracted from different sources of data and transferred into a data management system using specialized tools. The main purpose of the software is to minimize manual work done in the extraction phase of the process. The attribute extraction is treated as a text mining problem. Product data is first preprocessed into a structured format before the actual extraction is performed using methods from the field of machine learning. Explicit attributes are extracted using regular expressions formed with supervised learning algorithm and implicit relations between attributes are examined with association rules. Association rules are also used for extracting implicit attributes from the product data. Performance of the system and chosen methods were evaluated with multiple test runs. Regular expressions were proven to be a fine choice for the extraction of explicit attributes whereas the current adaptation of association rules still require some additional work.
Description
Supervisor
Kyrki, Ville
Thesis advisor
Vesanto, Juha
Keywords
attribuuttipoiminta, rakenteeton data, tekstinlouhinta, säännölliset lausekkeet, assosiaatiosäännöt
Other note
Citation