From pixels to semantics: visual concept detection and its applications

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorLaaksonen, Jorma, Doc., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.authorSjöberg, Mats
dc.contributor.departmentTietojenkäsittelytieteen laitosfi
dc.contributor.departmentDepartment of Information and Computer Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorOja, Erkki, Prof., Aalto University, Computer Science and Engineering, Finland
dc.date.accessioned2014-10-14T09:00:26Z
dc.date.available2014-10-14T09:00:26Z
dc.date.defence2014-11-25
dc.date.issued2014
dc.description.abstractThe amount of digital visual information available in the world today is enormous, and the rate at which more is continuously generated is simply unbelievable. For example YouTube gets 100 hours of new video every minute, and Facebook more than 350 million new photos every day. At best, this represents the creativity and knowledge of millions or even billions of people, made available to the entire world thanks to the Internet. The problem is of course: how do we find the "needle" that is relevant to us in this enormous "haystack"? Web search engines such as Google and Bing are decent solutions to find textual content, but finding relevant visual content is as yet an unsolved problem. The core issue is the semantic gap between the raw visual data processed by computers, and the abstract concepts and ideas humans use to communicate. This thesis studies one approach to this problem, namely using mid-level concepts to bridge the semantic gap. These semantic concepts are e.g. objects, locations, persons or events which are relatively concrete and thus comparatively easy to associate with the raw visual data. These can then be used to formulate more abstract queries, or used to index and further organise an image or video database. An overview of semantic concept detection using machine learning techniques is presented here, together with some applications. A central issue is keeping the computational speed and efficiency at a practical level for huge amounts of visual data, while still producing accurate and relevant results. To this end, this thesis studies several fast approximative versions of the popular Support Vector Machine (SVM) algorithm, and proposes some improvements to the fast Self-Organising Map (SOM) algorithm to improve its accuracy. Several large-scale real-world experimental applications are presented including image retrieval using social network tags, video search, indoor location recognition, and semantic visualisation of large image and video databases. The empirical evidence presented in this thesis shows that while the semantic gap problem is still not solved, the semantic concept approach produces concrete improvements to real-world applications. The improvements proposed and evaluated contribute to making the machine learning algorithms faster and thus more practically useful for processing huge amounts of visual data.en
dc.description.abstractEn enorm mängd av visuell information finns tillgänglig i dagens värld, och takten med vilken ny information skapas är rent av otrolig. T.ex. YouTube får 100 timmar nytt video-material varje minut, och Facebook över 350 miljoner nya fotografier per dag. Optimistiskt sett representerar detta kreativiteten och kunskapen hos miljoner, eller t.o.m. miljarder människor, och den finns tillgänglig för hela världen tack vare Internet. Problemet är förstås: hur skall man finna "nålen" av relevant information i denna ofantligt stora "höstack"? Webbsökmotorer så som Google och Bing är bra på att hitta text-baserad information, men att hitta relevant visuell information är än så länge ett olöst problem. Problemets kärna ligger i den s.k. semantiska klyftan mellan det visuella data som datorer kan processera, och de abstrakta koncept och idéer som människor använder för att kommunicera. Den här avhandlingen behandlar en infallsvinkel till det här problemet, nämligen att använda koncept på mellannivå för att överbrygga den semantiska klyftan. Dessa semantiska koncept är t.ex. objekt, platser, personer eller händelser som är relativt konkreta och kan således förhållandevis enkelt associeras med visuell data. Dessa koncept kan sedan användas för att formulera mera abstrakta sökningar, eller användas för att indexera och organisera bild- och video-databaser. Avhandlingen innehåller en genomgång av maskininlärningsmetoder som kan användas för detektion av semantiska koncept, samt ett antal tillämpningar. Ett centralt problem är att hålla beräkningshastigheten och effektiviteten på en praktisk nivå för stora mängder visuell data, men samtidigt producera noggranna och relevanta resultat. Därför innehåller avhandlingen också en genomgång av flera snabba approximativa versioner av den populära stödvektormaskinalgoritmen (SVM), och föreslår några förbättringar till den självorganiserande kartan (SOM). Ett antal experiment presenteras som omfattar stora datamängder från verkliga användare, inklusive bildsökning med taggar från sociala nätverk, videosökning, inomhuslokalisering, samt semantisk visualisering av stora bild- och videodatabaser. De empiriska bevisen presenterade i denna avhandling visar att även om den semantiska klyftan inte är överbryggad, så bidrar den semantiska koncept-metoden konkreta förbättringar till praktiska tillämpningar. Förbättringarna som har föreslagits och evaluerats bidrar till att försnabba existerande maskininlärningsmetoder, vilket gör dem mera lämpade för att processera stora mängder visuell data.sv
dc.format.extent121 + app. 81
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-5901-3 (electronic)
dc.identifier.isbn978-952-60-5900-6 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/14197
dc.identifier.urnURN:ISBN:978-952-60-5901-3
dc.language.isoenen
dc.opnMerialdo, Bernard, Prof., Eurecom, Multimedia Communications, France
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Mats Sjöberg, Jorma Laaksonen, Timo Honkela, Matti Pöllä. Inferring semantics from textual information in multimedia retrieval. Neurocomputing, Volume 71, Issues 13-15, 2576–2586, August 2008. DOI: 10.1016/j.neucom.2008.01.029
dc.relation.haspart[Publication 2]: Markus Koskela, Mats Sjöberg, Jorma Laaksonen. Improving Automatic Video Retrieval with Semantic Concept Detection. In Proceedings of the 16th Scandinavian Conference on Image Analysis (SCIA), Oslo, Norway, 480–489, June 2009. DOI: 10.1007/978-3-642-02230-2_49
dc.relation.haspart[Publication 3]: Mats Sjöberg and Jorma Laaksonen. Optimal combination of SOM search in best-matching units and map neighborhood. In Proceedings of the 7th International Workshop on Self-Organizing Maps (WSOM), St. Augustine, Florida, USA, 281–289, June 2009. DOI: 10.1007/978-3-642-02397-2_32
dc.relation.haspart[Publication 4]: Mats Sjöberg, Markus Koskela, Ville Viitaniemi, and Jorma Laaksonen. Indoor location recognition using fusion of SVM-based visual classifiers. In Proceedings of the IEEE International Workshop on Machine Learning for Signal Processing, Kittilä, Finland, 343–348, August- September 2010. DOI: 10.1109/MLSP.2010.5589019
dc.relation.haspart[Publication 5]: Mats Sjöberg, Jorma Laaksonen. Analysing the structure of semantic concepts in visual databases. In Proceedings of the 8th International Workshop on Self-Organizing Maps (WSOM), Espoo, Finland, 338–347, June 2011. DOI: 10.1007/978-3-642-21566-7_34
dc.relation.haspart[Publication 6]: Mats Sjöberg, Markus Koskela, Satoru Ishikawa, Jorma Laaksonen. Large-scale visual concept detection with explicit kernel maps and power mean SVM. In Proceedings of ACM International Conference on Multimedia Retrieval (ICMR), Dallas, Texas, USA, 239–246, April 2013. DOI: 10.1145/2461466.2461505
dc.relation.haspart[Publication 7]: Mats Sjöberg, Jorma Laaksonen. Using semantic features to detect novel visual concepts. In Proceedings of the 12th International Content Based Multimedia Indexing Workshop (CBMI), Klagenfurt, Austria, 1– 6, June 2014. DOI: 10.1109/CBMI.2014.6849817
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries156/2014
dc.revKämäräinen, Joni, Prof., Tampere University of Technology Department of Signal Processing, Finland
dc.revQuénot, Georges, Dr., Laboratoire d'Informatique de Grenoble, France
dc.subject.keywordcomputer visionen
dc.subject.keywordmachine learningen
dc.subject.keywordconcept detectionen
dc.subject.keywordsupport vector machineen
dc.subject.keywordself-organising mapen
dc.subject.keyworddatorseendesv
dc.subject.keywordmaskininlärningsv
dc.subject.keywordkonceptdetektionsv
dc.subject.keywordstödvektormaskinsv
dc.subject.keywordsjälvorgansierande kartasv
dc.subject.otherComputer scienceen
dc.titleFrom pixels to semantics: visual concept detection and its applicationsen
dc.titleFrån pixlar till semantik: detektion av visuella koncept samt tillämpningarsv
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_64706
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526059013.pdf
Size:
11.88 MB
Format:
Adobe Portable Document Format