Generative AI for identifying conflicts in construction industry documents
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Insinööritieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-08-19
Department
Major/Subject
Building Technology
Mcode
Degree programme
Master's Programme in Building Technology (CIV)
Language
en
Pages
74 + 52
Series
Abstract
The construction industry has the potential for significant advancements by utilizing knowledge from textual data such as contracts and meeting minutes in construction projects. This could be transformative as it could enhance the knowledge of industry personnel cost-effectively, streamline project management, facilitate better knowledge sharing, and boost both productivity and decision-making. However, more than 80% of this data is unstructured and typically re-quires extensive manual analysis. The emergence of large language models (LLMs) in the 2020s has transformed this process by reducing the need for manual labour. Therefore, this thesis evaluates the use of LLMs to identify conflicts in construction documents, an essential factor in improving project outcomes. Conducted under Aalto University's Building 2030 project in spring 2024, the study investigates the capabilities of LLMs in detecting conflicts in unstructured text. The study utilised authentic data from Finnish construction projects, which was preprocessed through pseudonymisation to protect sensitive information. The research examined GPT-4 to evaluate its conflict detection abilities using various approaches: standalone use, semantic search, and knowledge graph techniques. The findings reveal that although LLMs can identify certain conflicts, they frequently misclassify non-conflictual data as conflicts, demonstrating a lack of industry-specific knowledge. Neither semantic search nor knowledge graph techniques offered improvements, as they were found to be more complex and expensive. The results indicate that LLMs currently lack the reliability needed for conflict detection in construction documents without further refinement. Nonetheless, they hold potential for extracting useful information. Future work should aim to enhance LLMs' industry-specific accuracy by fine-tuning and developing better methods for managing extensive textual data. In summary, while LLMs perform well in straightforward tasks, they struggle with more complex applications like conflict identification in construction texts. This study lays groundwork for future efforts to enhance LLMs capabilities in the construction sector, which could lead to more effective and precise information management.Rakennusteollisuudessa on valtavasti kehityspotentiaalia rakennusprojektien dokumenttien kuten sopimuksien ja kokouspöytäkirjojen sisältämän tiedon hyödyntämisessä. Tiedon hyödyntäminen voisi parantaa kustannustehokkaasti alan henkilöstön tietämystä, tehdä projektinhallinnasta tehokkaampaa, helpottaa tietojen jakamista projektien välillä ja lisätä tuottavuutta sekä päätöksentekoa. Yli 80 % tästä tiedosta on jäsentelemätöntä ja vaatii tyypillisesti manuaalista käsittelyä. Suurten kielimallien (eng. Large Language Model, LLM) nopea kehitys 2020-luvulla on muuttanut tiedon käsittelyä vähentämällä manuaalisen työn tarvetta. Tämä opinnäytetyö arvioi LLM:n käyttöä ristiriitojen tunnistamisessa rakennusasiakirjoista. Tämä on olennainen tekijä projektin tulosten parantamisessa. Tutkimus suoritettiin Aalto-yliopiston Building 2030 -projektissa keväällä 2024, ja se tutki LLM:n kykyjä havaita ristiriitoja jäsentelemättömässä tekstissä. Tutkimuksessa käytettiin aitoja dokumentteja suomalaisista rakennusprojekteista. Dokumentit pseudonymisoitiin arkaluontoisten tietojen suojaamiseksi. Tutkimuksessa tarkasteltiin eri lähestymistavoilla GPT-4-mallin kykyä havaita ristiriitoja. Tavat olivat itsenäinen käyttö, semanttinen haku ja tietograafitekniikka. Tulokset osoittivat, että vaikka LLM voi tunnistaa tiettyjä ristiriitoja, usein ne luokittelevat konfliktittomat tiedot ristiriidoiksi, mikä osoittaa puutetta toimialakohtaisessa tiedossa. Lisäksi semanttinen haku tai tietograafitekniikka eivät tarjonneet parannuksia, koska ne osoittautuivat monimutkaisemmiksi ja kalliimmiksi. Tuloksien pohjalta voidaan todeta, että tutkimuksen tekohetkellä LLM:t eivät ole ilman jatkokehitystä tarpeeksi kykeneviä ristiriitojen havaitsemiseen rakennusalan dokumenteista. Siitä huolimatta ne tarjoavat huomattavan potentiaalin hyödyllisen tiedon löytämiseen dokumenteista. Tulevaisuuden työn tulisi tähdätä LLM toimialakohtaisen tarkkuuden parantamiseen hienosäätämällä sitä ja kehittämällä parempia menetelmiä tiedon analysointiin. Yhteenvetona, vaikka LLM suoriutuvat hyvin yksinkertaisissa tehtävissä, monimutkaisemmat tehtävät, kuten ristiriitojen tunnistaminen, on niille vielä liian vaikeaa. Tämä tutkimus luo pohjan tuleville tutkimuksille parantaa LLM:n kykyjä rakennusalalla, mikä voisi johtaa tehokkaampaan ja tarkempaan tiedonhallintaan.Description
Supervisor
Peltokorpi, AnttiThesis advisor
Nyqvist, RoopeKeywords
generative AI, large language models, construction industry, conflicts