From pixels to semantics: visual concept detection and its applications

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2014-11-25
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2014

Major/Subject

Mcode

Degree programme

Language

en

Pages

121 + app. 81

Series

Aalto University publication series DOCTORAL DISSERTATIONS, 156/2014

Abstract

The amount of digital visual information available in the world today is enormous, and the rate at which more is continuously generated is simply unbelievable. For example YouTube gets 100 hours of new video every minute, and Facebook more than 350 million new photos every day. At best, this represents the creativity and knowledge of millions or even billions of people, made available to the entire world thanks to the Internet. The problem is of course: how do we find the "needle" that is relevant to us in this enormous "haystack"? Web search engines such as Google and Bing are decent solutions to find textual content, but finding relevant visual content is as yet an unsolved problem. The core issue is the semantic gap between the raw visual data processed by computers, and the abstract concepts and ideas humans use to communicate. This thesis studies one approach to this problem, namely using mid-level concepts to bridge the semantic gap. These semantic concepts are e.g. objects, locations, persons or events which are relatively concrete and thus comparatively easy to associate with the raw visual data. These can then be used to formulate more abstract queries, or used to index and further organise an image or video database. An overview of semantic concept detection using machine learning techniques is presented here, together with some applications. A central issue is keeping the computational speed and efficiency at a practical level for huge amounts of visual data, while still producing accurate and relevant results. To this end, this thesis studies several fast approximative versions of the popular Support Vector Machine (SVM) algorithm, and proposes some improvements to the fast Self-Organising Map (SOM) algorithm to improve its accuracy. Several large-scale real-world experimental applications are presented including image retrieval using social network tags, video search, indoor location recognition, and semantic visualisation of large image and video databases. The empirical evidence presented in this thesis shows that while the semantic gap problem is still not solved, the semantic concept approach produces concrete improvements to real-world applications. The improvements proposed and evaluated contribute to making the machine learning algorithms faster and thus more practically useful for processing huge amounts of visual data.

En enorm mängd av visuell information finns tillgänglig i dagens värld, och takten med vilken ny information skapas är rent av otrolig. T.ex. YouTube får 100 timmar nytt video-material varje minut, och Facebook över 350 miljoner nya fotografier per dag. Optimistiskt sett representerar detta kreativiteten och kunskapen hos miljoner, eller t.o.m. miljarder människor, och den finns tillgänglig för hela världen tack vare Internet. Problemet är förstås: hur skall man finna "nålen" av relevant information i denna ofantligt stora "höstack"? Webbsökmotorer så som Google och Bing är bra på att hitta text-baserad information, men att hitta relevant visuell information är än så länge ett olöst problem. Problemets kärna ligger i den s.k. semantiska klyftan mellan det visuella data som datorer kan processera, och de abstrakta koncept och idéer som människor använder för att kommunicera. Den här avhandlingen behandlar en infallsvinkel till det här problemet, nämligen att använda koncept på mellannivå för att överbrygga den semantiska klyftan. Dessa semantiska koncept är t.ex. objekt, platser, personer eller händelser som är relativt konkreta och kan således förhållandevis enkelt associeras med visuell data. Dessa koncept kan sedan användas för att formulera mera abstrakta sökningar, eller användas för att indexera och organisera bild- och video-databaser. Avhandlingen innehåller en genomgång av maskininlärningsmetoder som kan användas för detektion av semantiska koncept, samt ett antal tillämpningar. Ett centralt problem är att hålla beräkningshastigheten och effektiviteten på en praktisk nivå för stora mängder visuell data, men samtidigt producera noggranna och relevanta resultat. Därför innehåller avhandlingen också en genomgång av flera snabba approximativa versioner av den populära stödvektormaskinalgoritmen (SVM), och föreslår några förbättringar till den självorganiserande kartan (SOM). Ett antal experiment presenteras som omfattar stora datamängder från verkliga användare, inklusive bildsökning med taggar från sociala nätverk, videosökning, inomhuslokalisering, samt semantisk visualisering av stora bild- och videodatabaser. De empiriska bevisen presenterade i denna avhandling visar att även om den semantiska klyftan inte är överbryggad, så bidrar den semantiska koncept-metoden konkreta förbättringar till praktiska tillämpningar. Förbättringarna som har föreslagits och evaluerats bidrar till att försnabba existerande maskininlärningsmetoder, vilket gör dem mera lämpade för att processera stora mängder visuell data.

Description

Supervising professor

Oja, Erkki, Prof., Aalto University, Computer Science and Engineering, Finland

Thesis advisor

Laaksonen, Jorma, Doc., Aalto University, Department of Information and Computer Science, Finland

Keywords

computer vision, machine learning, concept detection, support vector machine, self-organising map, datorseende, maskininlärning, konceptdetektion, stödvektormaskin, självorgansierande karta

Other note

Parts

  • [Publication 1]: Mats Sjöberg, Jorma Laaksonen, Timo Honkela, Matti Pöllä. Inferring semantics from textual information in multimedia retrieval. Neurocomputing, Volume 71, Issues 13-15, 2576–2586, August 2008.
    DOI: 10.1016/j.neucom.2008.01.029 View at publisher
  • [Publication 2]: Markus Koskela, Mats Sjöberg, Jorma Laaksonen. Improving Automatic Video Retrieval with Semantic Concept Detection. In Proceedings of the 16th Scandinavian Conference on Image Analysis (SCIA), Oslo, Norway, 480–489, June 2009.
    DOI: 10.1007/978-3-642-02230-2_49 View at publisher
  • [Publication 3]: Mats Sjöberg and Jorma Laaksonen. Optimal combination of SOM search in best-matching units and map neighborhood. In Proceedings of the 7th International Workshop on Self-Organizing Maps (WSOM), St. Augustine, Florida, USA, 281–289, June 2009.
    DOI: 10.1007/978-3-642-02397-2_32 View at publisher
  • [Publication 4]: Mats Sjöberg, Markus Koskela, Ville Viitaniemi, and Jorma Laaksonen. Indoor location recognition using fusion of SVM-based visual classifiers. In Proceedings of the IEEE International Workshop on Machine Learning for Signal Processing, Kittilä, Finland, 343–348, August- September 2010.
    DOI: 10.1109/MLSP.2010.5589019 View at publisher
  • [Publication 5]: Mats Sjöberg, Jorma Laaksonen. Analysing the structure of semantic concepts in visual databases. In Proceedings of the 8th International Workshop on Self-Organizing Maps (WSOM), Espoo, Finland, 338–347, June 2011.
    DOI: 10.1007/978-3-642-21566-7_34 View at publisher
  • [Publication 6]: Mats Sjöberg, Markus Koskela, Satoru Ishikawa, Jorma Laaksonen. Large-scale visual concept detection with explicit kernel maps and power mean SVM. In Proceedings of ACM International Conference on Multimedia Retrieval (ICMR), Dallas, Texas, USA, 239–246, April 2013.
    DOI: 10.1145/2461466.2461505 View at publisher
  • [Publication 7]: Mats Sjöberg, Jorma Laaksonen. Using semantic features to detect novel visual concepts. In Proceedings of the 12th International Content Based Multimedia Indexing Workshop (CBMI), Klagenfurt, Austria, 1– 6, June 2014.
    DOI: 10.1109/CBMI.2014.6849817 View at publisher

Citation