Addressing Process Challenges with GraphRAG: A Problem-Centric Framework for Method Selection

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Major/Subject

Mcode

SCI3025

Language

en

Pages

2025

Series

Abstract

Artificial intelligence (AI) systems increasingly perform complex tasks, such as predicting healthcare outcomes and generating technical diagrams. A recent advancement in this field is graph retrieval-augmented generation (GraphRAG), which enhances models—including large language models (LLMs)—by integrating structured graph data to improve contextual accuracy. Despite growing interest, the absence of a systematic method for selecting among diverse GraphRAG design options hinders effective system development. This thesis introduces a problem-centric framework to guide the design of GraphRAG systems. A review of ten applications identifies twelve problem dimensions, grouped into three categories: (1) functional requirements (e.g., interpretability, accuracy), (2) data characteristics (e.g., structure, scope), and (3) operational constraints (e.g., ethical considerations, cost tolerance). These dimensions inform the development of a decision framework that links problem characteristics to suitable GraphRAG design choices. The framework consists of a flowchart-based decision process and a score-based evaluation system. The decision process spans three design stages in GraphRAG-systems: knowledge organization (structuring external data into graphs), knowledge retrieval (extracting relevant information), and knowledge integration (combining retrieved content with a generative or discriminative model). While practical validation remains future work, this framework provides a foundation for systematic, context-aware GraphRAG design. By accounting for real-world constraints alongside accuracy, it aims to reduce design ambiguity and support more effective adoption of GraphRAG-systems.

System som använder artificiell intelligens (AI) utför i allt högre grad komplexa uppgifter, såsom att förutsäga vårdresultat och generera tekniska diagram. Ett nyligt framsteg inom detta område är graph retrieval-augmented generation (GraphRAG), som förbättrar modeller – inklusive stora språkmodeller (LLM) – genom att integrera strukturerad grafdata för ökad kontextuell noggrannhet. Trots det växande intresset hindrar bristen på ett systematiskt sätt för att välja mellan olika GraphRAG-designalternativ effektiv systemutveckling. Detta kandidatarbete introducerar ett problemcentrerat ramverk för att vägleda utformningen av GraphRAG-system. En granskning av tio tillämpningar identifierar tolv problemdimensioner, grupperade i tre kategorier: (1) funktionella krav (t.ex. tolkbarhet, noggrannhet), (2) datakaraktäristika (t.ex. struktur, omfattning), och (3) operativa begränsningar (t.ex. etiska överväganden, kostnadstolerans). Dessa dimensioner lägger grunden för ett beslutsramverk som kopplar egenskaper av problem till lämpliga designval inom GraphRAG. Ramverket består av en flödesschema-baserad beslutsprocess kompletterad med ett poängbaserat bedömningssystem för att rekommendera, på ett systematiskt sätt, de mest lämpliga metoderna för ett givet problem. Beslutsprocessen omfattar tre centrala designsteg: kunskapsorganisation (hur extern data tas in och struktureras i en graf), kunskapshämtning (hur relevant information extraheras för att stödja efterföljande uppgifter) och kunskapsintegration (hur hämtat innehåll fusioneras med en generativ eller diskriminerande modell för att producera det slutliga resultatet). Även om praktisk validering återstår som ett område för framtida forskning, utgör ramverket ett teoretiskt bidrag till en systematisk och kontextmedveten utveckling av GraphRAG-system. Genom att integrera andra prestandakriterier utöver noggrannhet, syftar det till att reducera designrelaterad osäkerhet och främja en mer effektiv och ändamålsenlig implementering av dessa system.

Description

Supervisor

Rajala, Risto

Thesis advisor

Seppälä, Timo

Other note

Citation