Sentence embeddings in topic modeling: Analysing news articles through cybersecurity concepts

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorTakko, Tuomas
dc.contributor.advisorKaski, Kimmo
dc.contributor.authorPykälä, Lauri
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorLampinen, Jouko
dc.date.accessioned2023-01-22T18:00:47Z
dc.date.available2023-01-22T18:00:47Z
dc.date.issued2023-01-16
dc.description.abstractEmerging cybersecurity threats warrant a rethinking of effective countermeasures at the strategic level. Treating technology as isolated from geopolitics carries the risk of neglecting the vital role that mutual trust sustains in the security of critical infrastructure like 5G networks. National cybersecurity strategies serve a dual purpose. Primarily, they are guidelines for tackling practical concerns. Moreover, they can inform the public about the necessity of the compromise between liberty and security. Mass media have a vital role as the ‘fourth branch of government’ in framing the public debate around potentially controversial policies. Hundreds of articles published between 2011 and 2020 by the Finnish public service media company include mentions of Huawei, a Chinese telecommunications company entangled in a debate of cybersecurity, geopolitics and technologies. Computational text analysis is a toolkit to facilitate qualitative research on corpuses that are too large for manual analysis. One widely adopted approach, known as topic modelling, is based on analyzing statistical patterns of co-occurring words to obtain higher-level themes. Modern language models are trained on enormous volumes of textual data to become capable of ‘filling in the blanks’ for new sentences. As an intermediate step, numerical representations of text called embeddings are produced. Repurposing sentence embeddings from such models is being investigated as an alternative approach to topic modeling. In this thesis, embeddings from a BERT type language model were computed for all sentences in the Yle news dataset that mentioned Huawei. The 768-dimensional sentence vectors were projected into lower-dimensional representations using UMAP. A graphical interface was developed to explore the 2D vectors as scatter plots, and the corresponding 5D ones were clustered with HDBSCAN. This visualization was interactively probed to fine-tune the collection of parameters in order to obtain interpretable groupings of sentences. Keyword lists were compiled for each cluster using a version of TF-IDF to describe each sentence clusters’ characteristic nouns, verbs and adjectives. A workflow based on thematic analysis was developed to refine the computational results into conceptual abstractions. The cluster keywords were categorized, based on which three general themes were then found. Themes included allegations of misconduct levied at the company and their responses to them, discussion of the telecommunications market as well as coverage of products from a consumer perspective. The significance of these themes is discussed in relation to the background concepts from cybersecurity strategies.en
dc.description.abstractUudenlaiset kyberturvallisuuden uhkakuvat edellyttävät tehokkaita vastatoimia, strategiselta tasolta alkaen. Teknisiin ratkaisuihin keskittyminen erillään geopoliittisista riskeistä sivuuttaa kauppakumppanien välisen luottamuksen merkityksen kriittisen infrastruktuurin, kuten 5G-verkkojen turvaajana. Kansallisilla kyberturvallisuusstrategoilla on kaksoisrooli. Ensisijaisesti ne toimivat käytännön toimien ohjaajina. Tämän lisäksi strategiat toimivat suuren yleisön informointitarkoituksessa kysymyksissä, jotka liittyvät vapauden ja turvallisuuden välisten kompromissien hakemiseen. Joukkoviestimillä on tärkeä tehtävä ‘neljäntenä valtiomahtina’ julkisen keskustelun kehystämisessä kiistanalaisten kysymysten ympärillä. Sadat Yleisradion vuosina 2011 - 2020 julkaisemat artikkelit sisältävät viittauksia Huaweihin. Kyseinen kiinalainen tietoliikennealan yritys on kyberturvallisuuden, geopolitiikan ja teknologian keskustelun keskiössä. Laskennallinen tekstianalyysi on työkalupakki, joka mahdollistaa määrällisen tutkimuksen suurille aineistoille, joiden manuaalinen analysointi on poissuljettua. Eräs yleisesti käytetty menetelmä, aihemallinnus, perustuu yhdessä esiintyvien sanojen tilastollisten lainalaisuuksien laskentaan ja ylemmän tason teemojen koostamiseen. Uusimmat kielimallit koulutetaan valtavilla tekstiaineistoilla, tehtävänään ‘täyttää puuttuva kohta’ myös aineiston ulkopuoliselle materiaalille. Välivaiheenaan mallit tuottavat teksteistä numeerisia vektoreita eli upotteita. Näiden upotteiden hyödyntämistä on tutkittu vaihtoehtoisena lähestymistapana aihemallinnukseen. Yleisradio-aineistoon sisältyneet Huaweihin liittyvät uutistekstit syötettiin BERT-tyyppiseen kielimalliin. Näin saadut 768-ulotteiset lauseupotusvektorit projisoitiin pienempiulotteisiksi UMAP:lla ja klusteroitiin HDBSCAN:lla. Työssä kehitettiin myös graafinen käyttöliittymä lauseupotusten tutkimiseen kaksiulotteisina sirotekuvaajina. Visualisaation avulla hienosäädettiin algoritmien säätöarvoja tulkittavien lauseryhmittelyjen muodostamiseksi. Lauseryhmille laskettiin avainsanalistat sanaluokittain TF-IDF-menetelmällä. Lisäksi kehitettiin temaattiseen analyysiin perustuva työnkulku laskennallisten tulosten jalostamiseksi ylemmän tason teemoiksi. Lauseryhmistä löytyi kolme yleisteemaa. Teemoihin kuuluivat Huaweita kohtaan esitetyt väärinkäytössyytökset sekä yrityksen reaktiot niihin, yleinen keskustelu tietoliikennemarkkinoiden kilpailutilanteesta sekä matkaviestintuotteiden kuluttajalähtöinen esittely. Näitä teemoja analysoitiin suhteessa kansallisten kyberturvallisuusstrategoiden avainkäsitteisiin.fi
dc.format.extent59
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/119122
dc.identifier.urnURN:NBN:fi:aalto-202301221476
dc.language.isoenen
dc.programmeMaster’s Programme in Life Science Technologiesfi
dc.programme.majorComplex Systemsfi
dc.programme.mcodeSCI3060fi
dc.subject.keywordtopic modelen
dc.subject.keywordsentence embeddingen
dc.subject.keywordnatural language processingen
dc.subject.keywordcybersecurityen
dc.titleSentence embeddings in topic modeling: Analysing news articles through cybersecurity conceptsen
dc.titleLauseupotukset aihemalleissa: Uutisartikkelien analysointi kyberturvallisuuskäsitteiden kauttafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
master_Pykälä_Lauri_2023.pdf
Size:
4.75 MB
Format:
Adobe Portable Document Format