Detecting digital dependence: Inferring public-sector hosting arrangements from Internet infrastructural records

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

79

Series

Abstract

Governments increasingly rely on digital infrastructures provided by companies, raising concerns about digital sovereignty and dependence on a small set of global cloud providers. This thesis asks whether the hosting providers of public-sector digital services can be inferred from publicly observable infrastructural records, and what forms of reliance such analysis reveals. A dataset of verified hosting arrangements was assembled through Freedom of Information (FOI) requests in the United Kingdom, Finland, and the Philippines, supplemented by confirmed cases of Chinese hyperscaler use. These disclosures provided a rare form of ground truth against which predictive models could be evaluated. Observable records, such as DNS records, were collected for each domain and transformed into categorical features. Whereas previous studies often relied on single-record heuristics to attribute hosting, this thesis evaluates predictive models trained with stratified cross-validation under different provider groupings. The findings show clear patterns of reliance. The UK and Finland relied heavily on Amazon Web Services and Microsoft Azure, while the Philippines retained significant self-hosting. No FOI responses indicated use of Chinese hyperscalers. Predictive models reproduced provider classifications with substantially higher accuracy than trivial baselines. Feature importance analysis further showed that accurate predictions did not hinge on a single record but instead drew on a combination of technical records across record types. The study demonstrates that public-sector hosting providers can be inferred from infrastructural records with reasonable reliability, though only under conditions of validated training data and carefully structured categories. Prediction cannot substitute institutional transparency, but it can complement it by offering systematic and scalable visibility into otherwise opaque dependencies.

Hallinnot tukeutuvat enenevissä määrin yritysten tarjoamiin digitaalisiin infrastruktuureihin, mikä herättää huolia digitaalisesta suvereniteetista ja riippuvaisuudesta pieneen joukkoon globaaleja pilvipalveluntarjoajia. Tämä diplomityö tutkii, voidaanko julkisen sektorin digitaalisten palveluiden isännöintipalveluntarjoajat ennustaa julkisesti havaittavien infrastruktuuritietojen avulla ja millaisia riippuvaisuuden kaavoja analyysi voi paljastaa. Aineisto varmistetuista isännöintijärjestelyistä koottiin tietopyyntöjen avulla Isossa-Britanniassa, Suomessa ja Filippiineillä. Sitä täydennettiin vahvistetuilla tapauksilla kiinalaisten hyperskaalareiden käytöstä. Nämä tiedot tarjosivat harvinaisen pohjatotuusaineiston, jota vasten ennustemalleja voitiin arvioida. Havaittavia tietueita kerättiin jokaisesta verkkotunnuksesta ja muunnettiin ennustemallien hyödyntämiksi kategorisiksi piirteiksi. Aiemmat tutkimukset ovat usein nojautuneet yksittäisiin tietueisiin palveluntarjoajan määrittämisessä, mutta tässä työssä arvioitiin stratifioidulla ristiinvalidoinnilla koulutettuja ennustemalleja eri palveluntarjoajaryhmittelyillä. Tulokset osoittavat selkeitä riippuvuuden kaavoja. Iso-Britannia ja Suomi olivat vahvasti keskittyneet Amazon Web Servicesiin ja Microsoft Azureen, kun taas Filippiineillä itse ylläpidetyt järjestelyt säilyivät merkittävinä. Yksikään tietopyyntövastaus ei osoittanut kiinalaisten hyperskaalareiden käyttöä. Ennustemallit kykenivät toistamaan palveluntarjoajaluokitukset huomattavasti korkeammalla tarkkuudella kuin triviaalit vertailumallit. Piirreanalyysi osoitti, että tarkkuus ei perustunut yksittäisiin tietueisiin, vaan useiden erilaisten teknisten tietueiden yhdistelmiin. Tutkimus osoittaa, että julkisen sektorin isännöintipalveluntarjoajia voidaan päätellä infrastruktuuritietojen perusteella kohtuullisella luotettavuudella, mutta vain valikoidun opetusdatan ja huolellisesti jäsenneltyjen kategorioiden olosuhteissa. Ennustaminen ei voi korvata institutionaalista läpinäkyvyyttä, mutta se voi täydentää sitä tarjoamalla systemaattisen ja skaalautuvan näkyvyyden muuten läpinäkymättömiin ilmiöihin.

Description

Supervisor

Lehdonvirta, Vili

Thesis advisor

Lehdonvirta, Vili
Kässi, Otto

Other note

Citation