Learning Centre

Tuoteattribuuttien poiminta rakenteettomasta tekstistä

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Vesanto, Juha
dc.contributor.author Pulkki, Mikko
dc.date.accessioned 2015-01-03T08:25:45Z
dc.date.available 2015-01-03T08:25:45Z
dc.date.issued 2014-12-15
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/14847
dc.description.abstract Informaation määrän ja sen saatavuuden kasvu asettaa valtavasti haasteita tiedon ja tietovirtojen hallinnalle. Tietomäärien kasvaessa etenkin käsin suoritettavat tiedonhallintaprosessit käyvät resurssi- ja aikavaatimusten osilta kalliiksi, mikä puoltaa automatisointiratkaisujen käyttöönottoa. Työn tavoitteena on suunnitella ja toteuttaa järjestelmä automatisoimaan tuotetietojen ylläpitoa, jossa päivittäistavaroille poimitaan tuoteominaisuuksia vapaamuotoisista tuotekuvauksista. Järjestelmä avustaa ylläpitoprosessin manuaalisessa vaiheessa, jossa tuotetietoja haetaan lukuisista eri tuotetietolähteista ja kirjataan tuotetietojärjestelmään käyttötarkoitukseen erikoistuneella sovelluksella. Poimintaongelmaa lähestytään tekstinlouhinnan näkökulmasta, jossa esikäsitellystä tekstidatasta etsitään attribuutteja koneoppimisen menetelmin. Eksplisiittisiä attribuuttiarvoja poimitaan säännöllisillä lausekkeilla, jotka oppiva algoritmi muodostaa harjoitusdatasta merkittyjen näytteiden perusteella. Johdettavissa olevien attribuuttien tapauksessa painoarvo siirretään poimintaongelmasta uusien yhteyksien eli attribuuttirelaatioiden löytämiseen assosiaatiosääntöjen avulla. Testiaineistoa vasten suoritetut testiajot osoittivat säännölliset lausekkeet hyväksi valinnaksi attribuuttiarvojen poimintaan, mutta assosiaatiosääntöjen soveltuvuus sellaisenaan esitettyyn tehtäväkuvaukseen vaatii vielä lisätarkastelua. fi
dc.description.abstract The sheer amount of information available today has set many challenges for data management. Automatic methods for processing and understanding both structured and unstructured data are becoming more valuable solutions for all kinds of data processing tasks. In this thesis, an implementation of a software for extracting product attributes from unstructured textual data is presented. The implemented system is part of product feature management process where product attributes are extracted from different sources of data and transferred into a data management system using specialized tools. The main purpose of the software is to minimize manual work done in the extraction phase of the process. The attribute extraction is treated as a text mining problem. Product data is first preprocessed into a structured format before the actual extraction is performed using methods from the field of machine learning. Explicit attributes are extracted using regular expressions formed with supervised learning algorithm and implicit relations between attributes are examined with association rules. Association rules are also used for extracting implicit attributes from the product data. Performance of the system and chosen methods were evaluated with multiple test runs. Regular expressions were proven to be a fine choice for the extraction of explicit attributes whereas the current adaptation of association rules still require some additional work. en
dc.format.extent 72 + 7
dc.language.iso fi en
dc.title Tuoteattribuuttien poiminta rakenteettomasta tekstistä fi
dc.title Extracting product attributes from unstructured textual data en
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.subject.keyword attribuuttipoiminta fi
dc.subject.keyword rakenteeton data fi
dc.subject.keyword tekstinlouhinta fi
dc.subject.keyword säännölliset lausekkeet fi
dc.subject.keyword assosiaatiosäännöt fi
dc.identifier.urn URN:NBN:fi:aalto-201501031008
dc.programme.major Automaatiotekniikka fi
dc.programme.mcode AS3001 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Kyrki, Ville
dc.programme AUT - Automaatio- ja systeemitekniikka fi
dc.location P1 fi
local.aalto.openaccess no
local.aalto.digifolder Aalto_07544
dc.rights.accesslevel closedAccess
local.aalto.idinssi 50418
dc.type.publication masterThesis
dc.type.okm G2 Pro gradu, diplomityö


Files in this item

Files Size Format View

There are no open access files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

Statistics