Design and implementation of text-based image retrieval system

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

72

Series

Abstract

Querying image databases by text is a long-standing problem in the field of information retrieval. The baseline approach for a long time has been to use human-captioned image metadata as a way to query images by the metadata relevancy to the query text by using a keyword search. This approach relies on images having human-captioned metadata and having ensured that the metadata is accurate in relation to the image's visual content. With the recent breakthroughs in the field of machine learning, deep learning-based approaches have shown great promise in solving the problem for images based on only the image's visual content. Images are reduced to high-dimensional vector representations called embeddings that can then be used in a similarity search to look for similar vectors close to a query, effectively finding semantically similar images. Furthermore, multimodal approaches have been invented that embed text into the same vector space, allowing for querying semantically similar images by text and bridging the gap between text-to-image queries and vice versa. The practical implications of being able to query images by text enable efficient querying of images within a database in a manner that is natural to humans. This becomes prominent in creative professions, such as those of photo editors and visual journalists, who often query images by specific descriptors that might not end up being captured in human-annotated captions. This thesis details the background and reviews the literature around the recent advances in deep learning in both natural language processing and computer vision related tasks. It also details the design and implementation of a simple system that is capable of querying images that contain no metadata within a database using text queries by performing similarity searches using vector embeddings.

Tekstipohjaisten kyselyjen käyttö kuvatietokantojen kuvien hakemiseen on pitkäaikainen ongelma tiedonhakutieteessä. Tyypillinen lähestymistapa pitkään on ollut hyödyntää ihmisen luomaa kuvausta ja metadataan kohdistuvaa avainsanahakua. Tämä menetelmä kuitenkin perustuu laajalti ihmisen luomiin kuvauksiin, joita ei välttämättä ole aina saatavilla tai ne voivat olla puutteellisia. Viimeaikaiset läpimurrot koneoppimisessa, varsinkin syväoppimisessa, ovat osoittautuneet lupaaviksi lähestysmistavoiksi ongelman ratkaisemiseen. Kuvat muutetaan moniulotteiseen vektoriesitykseen, joita kutsutaan upotuksiksi, ja joita voidaan käyttää samankaltaisuushaussa samankaltaisten kuvien löytämiseen. Sen lisäksi multimodaaliset menetelmät mahdollistavat myös tekstin muuttamisen upotusmuotoon ja samaan vektoriavaruuteen kuvien kanssa, jolloin myös tekstiä hyödyntämällä pystytään tekemään samankaltaisuushakuja kuvista. Käytännössä kuvien hakeminen tekstipohjaisesti mahdollistaa tehokkaan kuvien haun tietokannoista ihmiselle luonnollisella tavalla. Vaikutus on huomattavin luovilla aloilla, joissa kuvien hakeminen tietokannoista on merkittävä osa työtä, kuten kuvajournalismissa ja kuvakäsittelyssä. Näillä aloilla kuvia etsitään usein hakusanoin, jotka eivät aina esiinny ihmisten tuottamissa kuvateksteissä. Tässä lopputyössä esittellään eri lähestymistapojen teoreettinen tausta sekä kirjallisuuskatsaus luonnollisen kielen prosessoinnista ja konenäön kehityksestä. Työssä esitellään myös yksinkertainen implementaatio, jossa teksti ja kuvat muutetaan vektoriupotuksiksi ja suorittaa samankaltaisuushakuja, osoittaen teorian toiminnan käytännössä.

Description

Supervisor

Linna, Riku

Thesis advisor

Sääskilahti, Kimmo

Other note

Citation