Using AI Foundation Models and Vector Databases for Understanding Construction Site Digital Twins
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Authors
Date
2024-08-19
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
64
Series
Abstract
This thesis investigates integrating AI foundation models and vector databases to understand digital twins better, specifically focusing on the challenges of complex indoor construction environments. The research centres around creating and evaluating a retrieval system for a challenging indoor construction site. The data were collected using the Exyn Nexys Pro, a sophisticated 3D mapping device with dual FLIR Blackfly cameras and a gimbaled LiDAR sensor. The device uses Simultaneous Localization and Mapping (SLAM) technology to track its position without GPS. Since the capture location of each image is known, insights gained from the image can be integrated into the digital twin. The retrieval system has two components: an object detector and a multimodal model to generate image and text vector embeddings, which can be stored in a vector database. The primary focus of this thesis is to evaluate the two steps of the retrieval system separately. In the object detection step, open-set detection with transformer-based large-scale foundation models is compared against fine-tuned CNN models. In the second step, different multimodal models such as CLIP, BLIP, and OpenCLIP are compared to determine if the difficult objects in the indoor dataset can be consistently retrieved. Key findings of this thesis indicate that for object detection, the large transformer-based foundation models are not yet adequate for use with a challenging dataset like this. Instead, it is more effective to train a custom CNN model. Furthermore, the retrieval results were promising enough to suggest that a vector database retrieval system can be built from the dataset to provide insights to the digital twin.Denna avhandling undersöker integrationen av AI-basmodeller och vektordatabaser för att förstå digitala tvillingar för byggarbetsplatser, med särskilt fokus på utmaningarna i komplexa inomhusmiljöer. Forskningen är centrerad kring skapandet och utvärderingen av ett söksystem designat för att hantera utmanande data som samlats från en inomhusbyggarbetsplats. Data samlades in med hjälp av Exyn Nexys Pro, en sofistikerad 3D-kartläggningsenhet utrustad med dubbla FLIR Blackfly-kameror och en gimbalmonterad LiDAR-sensor. Denna enhet använder Simultaneous Localization and Mapping (SLAM) teknologi för att hitta sin position utan GPS. Då man vet positionen för varje bild kan insikter från bilden sammanslås med en digital tvilling. Söksystemet består av två komponenter: en objektdetektor och en model som kan generera bild- och textvektorer, vilka kan sparas i en vektordatabas. Huvudfokuset för denna avhandling är att utvärdera de två stegen i söksystemet separat. I objektdetektion steget jämförs öppen vokabulär detektion med stora transformatorbaserade basmodeller med finjusterade CNN-modeller. I det andra steget jämförs olika modeller såsom CLIP, BLIP och OpenCLIP för att avgöra om de svåra objekten i inomhusdata kan hittas. Avhandlingen visar att de stora transformatorbaserade basmodellerna i objectdetektion är inte ännu tillräckligt bra för att anvädnas med utmanande data. Istället är det mer effektivt att träna en anpassad CNN-modell. Dessutom var bildsöksystemets resultat tillräckligt lovande för att föreslå att ett vektordatabasbildsökssystem kan byggas för en inomhusbyggarbetsplats för att förstå den digitala tvillingen.Description
Supervisor
Laaksonen, JormaThesis advisor
Shanmugavel, VishakarajKeywords
AI, foundational models, vector databases, digital twins