Using AI Foundation Models and Vector Databases for Understanding Construction Site Digital Twins

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-08-19

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

64

Series

Abstract

This thesis investigates integrating AI foundation models and vector databases to understand digital twins better, specifically focusing on the challenges of complex indoor construction environments. The research centres around creating and evaluating a retrieval system for a challenging indoor construction site. The data were collected using the Exyn Nexys Pro, a sophisticated 3D mapping device with dual FLIR Blackfly cameras and a gimbaled LiDAR sensor. The device uses Simultaneous Localization and Mapping (SLAM) technology to track its position without GPS. Since the capture location of each image is known, insights gained from the image can be integrated into the digital twin. The retrieval system has two components: an object detector and a multimodal model to generate image and text vector embeddings, which can be stored in a vector database. The primary focus of this thesis is to evaluate the two steps of the retrieval system separately. In the object detection step, open-set detection with transformer-based large-scale foundation models is compared against fine-tuned CNN models. In the second step, different multimodal models such as CLIP, BLIP, and OpenCLIP are compared to determine if the difficult objects in the indoor dataset can be consistently retrieved. Key findings of this thesis indicate that for object detection, the large transformer-based foundation models are not yet adequate for use with a challenging dataset like this. Instead, it is more effective to train a custom CNN model. Furthermore, the retrieval results were promising enough to suggest that a vector database retrieval system can be built from the dataset to provide insights to the digital twin.

Denna avhandling undersöker integrationen av AI-basmodeller och vektordatabaser för att förstå digitala tvillingar för byggarbetsplatser, med särskilt fokus på utmaningarna i komplexa inomhusmiljöer. Forskningen är centrerad kring skapandet och utvärderingen av ett söksystem designat för att hantera utmanande data som samlats från en inomhusbyggarbetsplats. Data samlades in med hjälp av Exyn Nexys Pro, en sofistikerad 3D-kartläggningsenhet utrustad med dubbla FLIR Blackfly-kameror och en gimbalmonterad LiDAR-sensor. Denna enhet använder Simultaneous Localization and Mapping (SLAM) teknologi för att hitta sin position utan GPS. Då man vet positionen för varje bild kan insikter från bilden sammanslås med en digital tvilling. Söksystemet består av två komponenter: en objektdetektor och en model som kan generera bild- och textvektorer, vilka kan sparas i en vektordatabas. Huvudfokuset för denna avhandling är att utvärdera de två stegen i söksystemet separat. I objektdetektion steget jämförs öppen vokabulär detektion med stora transformatorbaserade basmodeller med finjusterade CNN-modeller. I det andra steget jämförs olika modeller såsom CLIP, BLIP och OpenCLIP för att avgöra om de svåra objekten i inomhusdata kan hittas. Avhandlingen visar att de stora transformatorbaserade basmodellerna i objectdetektion är inte ännu tillräckligt bra för att anvädnas med utmanande data. Istället är det mer effektivt att träna en anpassad CNN-modell. Dessutom var bildsöksystemets resultat tillräckligt lovande för att föreslå att ett vektordatabasbildsökssystem kan byggas för en inomhusbyggarbetsplats för att förstå den digitala tvillingen.

Description

Supervisor

Laaksonen, Jorma

Thesis advisor

Shanmugavel, Vishakaraj

Keywords

AI, foundational models, vector databases, digital twins

Other note

Citation