Spectral Clustering of Random Hypergraphs

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Major/Subject

Mcode

SCI3054

Language

en

Pages

77

Series

Abstract

Multiway clustering is a clustering problem with multidimensional data arrays. Such data can be used to represent higher-order interactions, hypergraphs and multilayer networks. This has various applications such as gene clustering from multitissue gene expression data or higher-order gene interactions, and personalized web search from clickthrough data. The main objective of this thesis is to determine when an underlying true cluster structure can be recovered from large and noisy data. Specifically, assuming a statistical model (tensor block model), how sparse a data array can be for a fast algorithm to recover the underlying clusters with high probability. This thesis develops a spectral clustering algorithm to solve this statistical problem, proves weak consistency with mathematical rigor and demonstrates it with numerical simulations. The weak consistency is proved by developing concentration inequalities for certain random matrices. The obtained weak consistency regime improves existing results.

Monisuuntaisen klusteroinnin tavoitteena on klusteroida moniulotteisesta datataulukosta. Tällaisella aineistolla voidaan esittää korkeamman asteen vuorovaikutuksia, hyperverkkoja ja monikerroksisia verkkoja ja sillä on sovelluksia muun muassa geenien klusteroinnissa monikudosgeeniekspressioista tai geenien vuorovaikutuksia kuvaavasta hyperverkosta sekä personoitujen hakutulosten tuottamisesta käyttäjien hakujen ja klikkausten perusteella. Tämän työn päämääränä on määrittää, milloin todellinen klusterirakenne voidaan päätellä datasta. Täsmällisemmin, olettamalla tilastollinen malli (tensorilohkomalli), kuinka harvaa data voi olla, jotta todelliset klusterit voidaan päätellä nopealla algoritmilla suurella todennäköisyydellä. Ongelman ratkaisemiseksi työssä kehitetään spektrinen klusterointialgoritmi, todistetaan matemaattisesti sen olevan heikosti tarkentuva ja demonstroidaan tarkentuvuus numeerisilla simulaatioilla. Heikon tarkentuvuuden todistamiseksi työssä kehitetään satunnaismatriisien keskittymisepäyhtälöiden teoriaa. Heikon tarkentuvuuden tulokset parantavat olemassaolevia tuloksia.

Description

Supervisor

Leskelä, Lasse

Thesis advisor

Leskelä, Lasse

Other note

Citation