dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.author | Seppänen, Jouni K. | |
dc.date.accessioned | 2012-02-17T07:44:02Z | |
dc.date.available | 2012-02-17T07:44:02Z | |
dc.date.issued | 2006-05-31 | |
dc.identifier.isbn | 951-22-8202-X | |
dc.identifier.issn | 1459-7020 | |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/2707 | |
dc.description.abstract | Frequent itemsets are one of the best known concepts in data mining, and there is active research in itemset mining algorithms. An itemset is frequent in a database if its items co-occur in sufficiently many records. This thesis addresses two questions related to frequent itemsets. The first question is raised by a method for approximating logical queries by an inclusion-exclusion sum truncated to the terms corresponding to the frequent itemsets: how good are the approximations thereby obtained? The answer is twofold: in theory, the worst-case bound for the algorithm is very large, and a construction is given that shows the bound to be tight; but in practice, the approximations tend to be much closer to the correct answer than in the worst case. While some other algorithms based on frequent itemsets yield even better approximations, they are not as widely applicable. The second question concerns extending the definition of frequent itemsets to relax the requirement of perfect co-occurrence: highly correlated items may form an interesting set, even if they never co-occur in a single record. The problem is to formalize this idea in a way that still admits efficient mining algorithms. Two different approaches are used. First, dense itemsets are defined in a manner similar to the usual frequent itemsets and can be found using a modification of the original itemset mining algorithm. Second, tiles are defined in a different way so as to form a model for the whole data, unlike frequent and dense itemsets. A heuristic algorithm based on spectral properties of the data is given and some of its properties are explored. | en |
dc.description.abstract | Yksi tiedon louhinnan tunnetuimmista käsitteistä ovat kattavat joukot, ja niiden etsintäalgoritmeja tutkitaan aktiivisesti. Joukko on tietokannassa kattava, jos sen alkiot esiintyvät yhdessä riittävän monessa tietueessa. Väitöskirjassa käsitellään kahta kattaviin joukkoihin liittyvää kysymystä. Ensimmäinen liittyy algoritmiin, jolla arvioidaan loogisten kyselyjen tuloksia laskemalla inkluusio-ekskluusio-summa pelkästään kattavilla joukoilla; kysymys on, kuinka hyviä arvioita näin saadaan. Väitöskirjassa annetaan kaksi vastausta: Teoriassa algoritmin pahimman tapauksen raja on hyvin suuri, ja vastaesimerkillä osoitetaan, että raja on tiukka. Käytännössä arviot ovat paljon lähempänä oikeaa tulosta kuin teoreettinen raja antaa ymmärtää. Arvioita vertaillaan eräisiin muihin algoritmeihin, joiden tulokset ovat vielä parempia mutta jotka eivät ole yhtä yleisesti sovellettavissa. Toinen kysymys koskee kattavien joukkojen määritelmän yleistämistä siten, että täydellisen yhteisesiintymisen vaatimuksesta tingitään. Joukko korreloituneita alkioita voi olla kiinnostava, vaikka alkiot eivät koskaan esiintyisi kaikki samassa tietueessa. Ongelma on tämän ajatuksen muuttaminen sellaiseksi määritelmäksi, että tehokkaita louhinta-algoritmeja voidaan käyttää. Väitöskirjassa esitetään kaksi lähestymistapaa. Ensinnäkin tiheät kattavat joukot määritellään samanlaiseen tapaan kuin tavalliset kattavat joukot, ja ne voidaan löytää samantyyppisellä algoritmilla. Toiseksi määritellään laatat, jotka muodostavat koko datalle mallin, toisin kuin kattavat ja tiheät kattavat joukot. Laattojen etsimistä varten kuvataan datan spektraalisiin ominaisuuksiin perustuva heuristiikka, jonka eräitä ominaisuuksia tutkitaan. | fi |
dc.format.extent | 115 | |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | en |
dc.publisher | Helsinki University of Technology | en |
dc.publisher | Teknillinen korkeakoulu | fi |
dc.relation.ispartofseries | Dissertations in computer and information science. Report D | en |
dc.relation.ispartofseries | 12 | en |
dc.subject.other | Computer science | en |
dc.title | Using and extending itemsets in data mining : query approximation, dense itemsets, and tiles | en |
dc.type | G4 Monografiaväitöskirja | fi |
dc.description.version | reviewed | en |
dc.contributor.department | Department of Computer Science and Engineering | en |
dc.contributor.department | Tietotekniikan osasto | fi |
dc.subject.keyword | data mining | en |
dc.subject.keyword | frequent itemset | en |
dc.subject.keyword | query selectivity | en |
dc.subject.keyword | Boolean formulas | en |
dc.subject.keyword | Bonferroni inequality | en |
dc.subject.keyword | error-tolerant itemset | en |
dc.identifier.urn | urn:nbn:fi:tkk-006946 | |
dc.type.dcmitype | text | en |
dc.type.ontasot | Väitöskirja (monografia) | fi |
dc.type.ontasot | Doctoral dissertation (monograph) | en |
dc.contributor.lab | Laboratory of Computer and Information Science | en |
dc.contributor.lab | Informaatiotekniikan laboratorio | fi |
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.