Automated software effort prediction from project management data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

54

Series

Abstract

This thesis investigates the application of artificial intelligence and machine learning techniques to improve software project effort estimation using historical project management data at Digia's MOST unit. The research addresses the critical challenge of accurate project estimation in software development, where traditional methods often fail to account for project complexity and dynamic requirements. The study collected and analyzed historical data from 136 Jira tickets and associated GitHub repositories, focusing on Python-based automation and AI projects. Four different predictive models were implemented and evaluated: Random Forest Regression, K-Nearest Neighbors (KNN), Multi-Layer Perceptron, and a Retrieval-Augmented Generation (RAG) system. The models used software dependencies as primary features for predicting project duration. Results showed significant variation in model performance. The KNN algorithm emerged as the most reliable approach, achieving modest but consistent predictive accuracy (MSE: 5657.74, R²: 0.064 on test data) without overfitting. Random Forest suffered from severe overfitting, while the Multi-Layer Perceptron failed to learn meaningful patterns. The RAG system provided valuable contextual insights and explainable recommendations based on historical project similarities. A proof-of-concept web application was developed using React.js and Flask to demonstrate practical implementation. The research revealed critical data quality challenges, with over 85% of initial tickets requiring exclusion due to incomplete information. Key findings emphasize the importance of improved data collection practices in Jira, including consistent time logging, repository linking, and structured project documentation. The study concludes that while AI-driven estimation shows promise, success depends heavily on data quality and appropriate model selection. The research provides actionable recommendations for improving project management practices and establishes a foundation for future data-driven estimation tools in software development environments.

Tämä diplomityö tutkii tekoälyn ja koneoppimisen soveltamista ohjelmistoprojektien työmääräarvioinnin parantamiseen käyttäen historiallista projektinhallintadataa Digian MOST-yksikössä. Tutkimus käsittelee kriittistä haastetta tarkkojen projektiarvioiden tekemisessä ohjelmistokehityksessä, jossa perinteiset menetelmät eivät usein ota huomioon projektin monimutkaisuutta ja dynaamisia vaatimuksia. Tutkimuksessa kerättiin ja analysoitiin historiallista dataa 136:sta Jira-tiketeistä ja niihin liittyvistä GitHub-repositorioista, keskittyen Python-pohjaisiin automaatio- ja tekoälyprojekteihin. Neljä erilaista ennustusmallia toteutettiin ja arvioitiin: Random Forest -regressio, K-lähimmän naapurin algoritmi (KNN), monitasoinen perceptroni ja Retrieval-Augmented Generation (RAG) -järjestelmä. Mallit käyttivät ohjelmistoriippuvuuksia ensisijaisina piirteinä projektin keston ennustamiseen. Tulokset osoittivat merkittävää vaihtelua mallien suorituskyvyssä. KNN-algoritmi osoittautui luotettavimmaksi lähestymistavaksi, saavuttaen vaatimattoman mutta johdonmukaisen ennustustarkkuuden (MSE: 5657.74, R²: 0.064 testidatalla) ilman ylisovitusta. Random Forest kärsi vakavasta ylisovituksesta, kun taas monitasoinen perceptroni ei onnistunut oppimaan merkityksellisiä kuvioita. RAG-järjestelmä tarjosi arvokkaita kontekstuaalisia oivalluksia ja selitettäviä suosituksia historiallisten projektien samankaltaisuuksien perusteella. Konseptitodistus-verkkosovellus kehitettiin käyttäen React.js- ja Flask-teknologioita käytännön toteutuksen demonstroimiseksi. Tutkimus paljasti kriittisiä datan laatuongelmia, kun yli 85% alkuperäisistä tiketeistä vaati poissulkemisen puutteellisen tiedon vuoksi. Keskeiset löydökset korostavat parannettujen tiedonkeruukäytäntöjen merkitystä Jirassa, mukaan lukien johdonmukainen ajan kirjaaminen, repositorioiden linkittäminen ja jäsennetty projektidokumentaatio. Tutkimus päättelee, että vaikka tekoälyvetoinen arviointi näyttää lupaavalta, menestys riippuu suuresti datan laadusta ja sopivan mallin valinnasta. Tutkimus tarjoaa käytännöllisiä suosituksia projektinhallinnan käytäntöjen parantamiseksi ja luo perustan tuleville datavetoisille arviointityökaluille ohjelmistokehitysympäristöissä.

Description

Supervisor

Aledavood, Talayeh

Thesis advisor

Pitkänen, Lauri

Other note

Citation