Sentence embeddings in topic modeling: Analysing news articles through cybersecurity concepts
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
SCI3060
Degree programme
Language
en
Pages
59
Series
Abstract
Emerging cybersecurity threats warrant a rethinking of effective countermeasures at the strategic level. Treating technology as isolated from geopolitics carries the risk of neglecting the vital role that mutual trust sustains in the security of critical infrastructure like 5G networks. National cybersecurity strategies serve a dual purpose. Primarily, they are guidelines for tackling practical concerns. Moreover, they can inform the public about the necessity of the compromise between liberty and security. Mass media have a vital role as the ‘fourth branch of government’ in framing the public debate around potentially controversial policies. Hundreds of articles published between 2011 and 2020 by the Finnish public service media company include mentions of Huawei, a Chinese telecommunications company entangled in a debate of cybersecurity, geopolitics and technologies. Computational text analysis is a toolkit to facilitate qualitative research on corpuses that are too large for manual analysis. One widely adopted approach, known as topic modelling, is based on analyzing statistical patterns of co-occurring words to obtain higher-level themes. Modern language models are trained on enormous volumes of textual data to become capable of ‘filling in the blanks’ for new sentences. As an intermediate step, numerical representations of text called embeddings are produced. Repurposing sentence embeddings from such models is being investigated as an alternative approach to topic modeling. In this thesis, embeddings from a BERT type language model were computed for all sentences in the Yle news dataset that mentioned Huawei. The 768-dimensional sentence vectors were projected into lower-dimensional representations using UMAP. A graphical interface was developed to explore the 2D vectors as scatter plots, and the corresponding 5D ones were clustered with HDBSCAN. This visualization was interactively probed to fine-tune the collection of parameters in order to obtain interpretable groupings of sentences. Keyword lists were compiled for each cluster using a version of TF-IDF to describe each sentence clusters’ characteristic nouns, verbs and adjectives. A workflow based on thematic analysis was developed to refine the computational results into conceptual abstractions. The cluster keywords were categorized, based on which three general themes were then found. Themes included allegations of misconduct levied at the company and their responses to them, discussion of the telecommunications market as well as coverage of products from a consumer perspective. The significance of these themes is discussed in relation to the background concepts from cybersecurity strategies.Uudenlaiset kyberturvallisuuden uhkakuvat edellyttävät tehokkaita vastatoimia, strategiselta tasolta alkaen. Teknisiin ratkaisuihin keskittyminen erillään geopoliittisista riskeistä sivuuttaa kauppakumppanien välisen luottamuksen merkityksen kriittisen infrastruktuurin, kuten 5G-verkkojen turvaajana. Kansallisilla kyberturvallisuusstrategoilla on kaksoisrooli. Ensisijaisesti ne toimivat käytännön toimien ohjaajina. Tämän lisäksi strategiat toimivat suuren yleisön informointitarkoituksessa kysymyksissä, jotka liittyvät vapauden ja turvallisuuden välisten kompromissien hakemiseen. Joukkoviestimillä on tärkeä tehtävä ‘neljäntenä valtiomahtina’ julkisen keskustelun kehystämisessä kiistanalaisten kysymysten ympärillä. Sadat Yleisradion vuosina 2011 - 2020 julkaisemat artikkelit sisältävät viittauksia Huaweihin. Kyseinen kiinalainen tietoliikennealan yritys on kyberturvallisuuden, geopolitiikan ja teknologian keskustelun keskiössä. Laskennallinen tekstianalyysi on työkalupakki, joka mahdollistaa määrällisen tutkimuksen suurille aineistoille, joiden manuaalinen analysointi on poissuljettua. Eräs yleisesti käytetty menetelmä, aihemallinnus, perustuu yhdessä esiintyvien sanojen tilastollisten lainalaisuuksien laskentaan ja ylemmän tason teemojen koostamiseen. Uusimmat kielimallit koulutetaan valtavilla tekstiaineistoilla, tehtävänään ‘täyttää puuttuva kohta’ myös aineiston ulkopuoliselle materiaalille. Välivaiheenaan mallit tuottavat teksteistä numeerisia vektoreita eli upotteita. Näiden upotteiden hyödyntämistä on tutkittu vaihtoehtoisena lähestymistapana aihemallinnukseen. Yleisradio-aineistoon sisältyneet Huaweihin liittyvät uutistekstit syötettiin BERT-tyyppiseen kielimalliin. Näin saadut 768-ulotteiset lauseupotusvektorit projisoitiin pienempiulotteisiksi UMAP:lla ja klusteroitiin HDBSCAN:lla. Työssä kehitettiin myös graafinen käyttöliittymä lauseupotusten tutkimiseen kaksiulotteisina sirotekuvaajina. Visualisaation avulla hienosäädettiin algoritmien säätöarvoja tulkittavien lauseryhmittelyjen muodostamiseksi. Lauseryhmille laskettiin avainsanalistat sanaluokittain TF-IDF-menetelmällä. Lisäksi kehitettiin temaattiseen analyysiin perustuva työnkulku laskennallisten tulosten jalostamiseksi ylemmän tason teemoiksi. Lauseryhmistä löytyi kolme yleisteemaa. Teemoihin kuuluivat Huaweita kohtaan esitetyt väärinkäytössyytökset sekä yrityksen reaktiot niihin, yleinen keskustelu tietoliikennemarkkinoiden kilpailutilanteesta sekä matkaviestintuotteiden kuluttajalähtöinen esittely. Näitä teemoja analysoitiin suhteessa kansallisten kyberturvallisuusstrategoiden avainkäsitteisiin.Description
Supervisor
Lampinen, JoukoThesis advisor
Takko, TuomasKaski, Kimmo