aalto1 untyped-item.component.html
From unstructured data to structured insights: Developing a GenAI-driven prototype for structuring voice-based market feedback
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
Language
en
Pages
64
Series
Abstract
Voice-based market feedback often remains unstructured, making it difficult to derive actionable insights. This thesis addresses that challenge by exploring how generative AI can transform unstructured voice feedback into structured, schema-compliant data. Following a design science research methodology, a prototype was designed, developed and evaluated. The system integrates automatic speech recognition (ASR) with a large language model (LLM) and is guided by a predefined schema. It also incorporates mechanisms for self-evaluation, gap detection and iterative refinement to improve the quality and completeness of outputs.
This approach is demonstrated using audio recordings of varied quality, structure and completeness. Evaluation focuses on transcription accuracy, information extraction performance, gap detection efficacy and iterative refinement capability. Results show that contextual prompts significantly improved transcription accuracy, reducing word error rate (WER) from 7.64% to 6.17% and lowering the error rate for domain-specific terms from 19.31% to 10.17%. The self-evaluation step increased the F-score for information extraction from 89.73% to 92.53%. Furthermore, the iterative refinement mechanism achieved a 100% success rate across all test cases, indicating seamless integration of new information without loss.
These findings demonstrate the effectiveness of a generative AI-driven approach for structuring voice-based feedback and suggest that the design is generalisable to similar unstructured data contexts. The study illustrates how a design science methodology can guide the development of robust, AI-driven pipelines for deriving structured insights from unstructured voice data.
Röstbaserad marknadsfeedback förblir ofta ostrukturerad, vilket försvårar utvin-ningen av handlingsbara insikter. Denna avhandling undersöker hur generativ AI kan användas för att omvandla ostrukturerad röstfeedback till strukturerad, sche-makompatibel data. Inom ramen för en designvetenskaplig forskningsmetodik har en prototyp utvecklats som integrerar automatisk taligenkänning (ASR) med en stor språkmodell (LLM). Systemet styrs av ett definierat schema och innehåller mekan-ismer för självvärdering, identifiering av informationsluckor samt iterativ komplet-tering för att förbättra resultatens kvalitet och fullständighet.
Lösningen demonstreras med ljudinspelningar av varierande kvalitet, struktur och fullständighet. Transkriptionsnoggrannhet, prestanda i informationsutvinning, ef-fektivitet i identifiering av informationsluckor samt förmåga till iterativ komplette-ring utvärderas. Resultaten visar att kontextuella prompts avsevärt förbättrade tran-skriberingsnoggrannheten, med en sänkning av word error rate (WER) från 7,64% till 6,17%, samt en reducering av felandelen för domänspecifika termer från 19.31% till 10.17%. Självvärderingssteget ökade F-scoren för informationsutvinningen från 89,73% till 92,53%. Den iterativa kompletteringen uppnådde 100% i samtliga test-fall, vilket indikerar att ny information kunde integreras utan problem eller inform-ationsförlust.
Resultaten demonstrerar effektiviteten hos en AI-driven lösning för att strukturera röstbaserad feedback och antyder att designen kan generaliseras till likande kontex-ter. Studien visar hur en designvetenskaplig metodik kan vägleda utvecklingen av robusta, AI-baserade pipelines för att extrahera strukturerade insikter ur ostrukture-rade röstdata.