aalto1 untyped-item.component.html

From unstructured data to structured insights: Developing a GenAI-driven prototype for structuring voice-based market feedback

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

64

Series

Abstract

Voice-based market feedback often remains unstructured, making it difficult to derive actionable insights. This thesis addresses that challenge by exploring how generative AI can transform unstructured voice feedback into structured, schema-compliant data. Following a design science research methodology, a prototype was designed, developed and evaluated. The system integrates automatic speech recognition (ASR) with a large language model (LLM) and is guided by a predefined schema. It also incorporates mechanisms for self-evaluation, gap detection and iterative refinement to improve the quality and completeness of outputs. This approach is demonstrated using audio recordings of varied quality, structure and completeness. Evaluation focuses on transcription accuracy, information extraction performance, gap detection efficacy and iterative refinement capability. Results show that contextual prompts significantly improved transcription accuracy, reducing word error rate (WER) from 7.64% to 6.17% and lowering the error rate for domain-specific terms from 19.31% to 10.17%. The self-evaluation step increased the F-score for information extraction from 89.73% to 92.53%. Furthermore, the iterative refinement mechanism achieved a 100% success rate across all test cases, indicating seamless integration of new information without loss. These findings demonstrate the effectiveness of a generative AI-driven approach for structuring voice-based feedback and suggest that the design is generalisable to similar unstructured data contexts. The study illustrates how a design science methodology can guide the development of robust, AI-driven pipelines for deriving structured insights from unstructured voice data.

Röstbaserad marknadsfeedback förblir ofta ostrukturerad, vilket försvårar utvin-ningen av handlingsbara insikter. Denna avhandling undersöker hur generativ AI kan användas för att omvandla ostrukturerad röstfeedback till strukturerad, sche-makompatibel data. Inom ramen för en designvetenskaplig forskningsmetodik har en prototyp utvecklats som integrerar automatisk taligenkänning (ASR) med en stor språkmodell (LLM). Systemet styrs av ett definierat schema och innehåller mekan-ismer för självvärdering, identifiering av informationsluckor samt iterativ komplet-tering för att förbättra resultatens kvalitet och fullständighet. Lösningen demonstreras med ljudinspelningar av varierande kvalitet, struktur och fullständighet. Transkriptionsnoggrannhet, prestanda i informationsutvinning, ef-fektivitet i identifiering av informationsluckor samt förmåga till iterativ komplette-ring utvärderas. Resultaten visar att kontextuella prompts avsevärt förbättrade tran-skriberingsnoggrannheten, med en sänkning av word error rate (WER) från 7,64% till 6,17%, samt en reducering av felandelen för domänspecifika termer från 19.31% till 10.17%. Självvärderingssteget ökade F-scoren för informationsutvinningen från 89,73% till 92,53%. Den iterativa kompletteringen uppnådde 100% i samtliga test-fall, vilket indikerar att ny information kunde integreras utan problem eller inform-ationsförlust. Resultaten demonstrerar effektiviteten hos en AI-driven lösning för att strukturera röstbaserad feedback och antyder att designen kan generaliseras till likande kontex-ter. Studien visar hur en designvetenskaplig metodik kan vägleda utvecklingen av robusta, AI-baserade pipelines för att extrahera strukturerade insikter ur ostrukture-rade röstdata.

Description

Supervisor

Viitanen, Johanna

Thesis advisor

Rönnlund, Mathias

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By