Learning Explicit Object-Centric Representations with Transformers
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-10-17
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
36 + 6
Series
Abstract
Recent research has demonstrated that Vision Transformers trained with self-supervision can learn useful representations expressive of objects. A specific example of this is the object-reasoning like behaviour demonstrated to appear in the self-supervision task of masked autoencoding, where parts of an image are predicted based on input of other parts. In this thesis, we extend the masked autoencoding for enabling learning of explicit object-centric representations. It is commonly believed that learning such object-centric representations holds promise for enabling better reasoning and generalization in deep learning models. To this end, we propose an architecture consisting of a Vision Transformer encoder and decoder separated by a bottleneck layer that extracts object representations. We train the model to reconstruct the full image from unmasked patches. For end-to-end training, we start with a high masking ratio and decrease it as training progresses. We show that the model learns to decompose simple scenes on three synthetic multi-object datasets. While the model ultimately proved unstable when trained on more difficult synthetic data, it still demonstrated some promise in successful instances. Further, our ablation study shows that using masking is important for the ability of the proposed model to learn object-centric representations.Ny forskning har visat att maskininlärningsarkitekturen Vision Transformer tränad med själv-vägledning kan lära sig användbara representationer som är uttrycksfulla för objekt. Ett specifikt exempel på detta är beteendet som liknar resonerande om objekt och har visat sig förekomma i själv-vägledningsuppgiften maskerad autokodning (eng. masked autoencoding) där delar av en bild förutsägs baserat på input från andra delar. I detta diplomarbete kompletterar vi den maskerade autokodningen för att möjliggöra inlärning av explicita objekt-centrerade representationer. Det anses allmänt att inlärning av sådana objekt-centrerade representationer kan möjliggöra bättre resonemang och generalisering i modeller för djupinlärning. För det här ändamålet föreslår vi en modell som består av en Vision Transformer kodare och avkodare separerade av en flaskhals som extraherar objektrepresentationer. Vi tränar modellen att rekonstruera hela bilder från icke-maskerade delar av bilden. För träning från början till slut börjar vi med att maskera en stor del och minskar andelen allt eftersom träningen fortskrider. Vi visar att modellen lär sig att segmentera enkla scener på tre syntetiska data med bilder som visar flera objekt. Även om modellen till slut visade sig vara instabil när den tränades på svårare syntetiska data, visade den fortfarande något lovande resultat i vissa lyckade fall. Slutligen visar våra experiment att användning av maskering är viktigt för modellens förmåga att lära sig objekt-centrerade representationer.Description
Supervisor
Ilin, AlexanderThesis advisor
Ilin, AlexanderKeywords
transformer, object-centric learning, self-supervised learning, autoencoder