A worldwide database of companies is an invaluable resource for many professionals such as mergers and acquisitions (M\&A) analysts, investment bankers, private equity investors, consultants, and large enterprises. The use of web-scraping technologies to source information from the Internet is an efficient approach for building such a database, but this requires the ability to recognize which websites in the vast data set belong to the same organization. This thesis addresses the problem of grouping websites by the owner organization in web-scale data set of 170+ million websites.
The thesis aims to uncover effective features, zero-shot models, and feature extraction methods that could then be combined in a scalable way to achieve highly accurate results on web-scale data. To do this, a literature review is first conducted to explore previous findings in related areas. Then, features and methods uncovered as part of the literature review are compared using a data set of 265 companies and 652 websites for which the correct clustering is known. The methods explored include structural data from the website, image comparison methods, and language modeling. Finally, a model is built that combines the best methods from the comparative study. The precision of the final model is then evaluated on a sample of the results achieved after running the model on web-scale data.
The literature review uncovers multiple usable methods and models. Research on directly similar problems appears to be sparse; there is research on recognizing owner entities from websites, as well as research on record linkage in databases, but no research combining the two on a data set of similar magnitude. The empirical results in this thesis reveal favicon similarities as well as organization names extracted by LLM prompting to be powerful features for uncovering websites owned by the same entity. Furthermore, the results show that feature extraction and comparison with pre-trained zero-shot models is a powerful and highly scalable method. The best model achieves homogeneity of 0.997 and completeness of 0.980 in the validation data set consisting of 652 websites, and the final clustering pipeline achieves precision 97% in web-scale data.Maailmanlaajuinen yritystietokanta on tärkeä resurssi monilla aloilla, kuten yrityskaupoissa, investoinneissa, pääomasijoittamisessa sekä markkinatutkimuksessa. Verkkodatan louhinta on tehokas tapa tämänkaltaisen yritystietokannan rakentamisessa, mutta vaatii tavan tunnistaa, mitkä verkkosivut kuuluvat samalle yritykselle tai organisaatiolle. Tämä opinnäytetyö keskittyy ratkaisemaan tämän verkkosivujen ryhmittelyongelman laajalle, yli 170 miljoonan verkkosivuston tietoaineistolle.
Opinnäyte tutkii datan piirteitä, piirteiden erotuksen metodeita sekä esikoulutettuja koneoppimismalleja, jotka yhdistämällä luodaan tarkka ja skaalautuva metodi verkkosivujen ryhmittelyyn. Tätä varten ensiksi tehdään kirjallisuuskatsaus, joka tutkii laajasti erilaisia kirjallisuudesta hyödynnettyjä metodeja ja verkkosivujen piirteitä. Tämän jälkeen tehdään vertaileva tutkimus eri metodien ja piirteiden tehokkuudesta hyödyntäen 652 verkkosivun ja 265 yrityksen merkittyä ainestoa. Metodeita, joita vertaillaan, ovat esimerkiksi verkkosivun rakennepohjainen data, kuvantunnistusmetodit sekä kielimallinnus. Lopuksi luodaan malli, joka yhdistää edellisessä vaiheessa parhaiksi havaitut metodit. Lopullisen mallin osumatarkkuus testataan vielä ottamalla satunnaisotos mallin tuottamista tuloksista ja tarkistamalla se käsin.
Kirjallisuuskatsauksessa löydettiin paljon hyödyllisiä metodeja ja malleja, joskin saman aiheen tutkimus vaikuttaa vähäiseltä. Tutkimusta verkkosivujen omistajaorganisaatioiden tunnistamisesta sekä tietueiden yhdistamisestä tietokannoissa löytyy, kuten myös verkkosivujen ryhmittelystä esimerkiksi aiheen mukaan. Kuitenkaan verkkosivujen ryhmittelystä omistajaorganisaation mukaan koko internetin kattavalla aineistolla ei löytynyt aiempaa tutkimusta. Opinnäytteen empiiriset tulokset näyttävät, että verkkosivukuvakkeiden vertailu sekä organisaationimien erottaminen suurilla kielimalleilla ovat tehokkaita metodeja verkkosivujen ryhmittelyyn yrityksittäin. Lisäksi tulokset näyttävät, että esikoulutetut koneoppimismallit toimivat ja skaalautuvat hyvin erilaisten piirteiden vertailussa. Paras malli saavuttaa 0.997 yhtenäisyyden ja 0.980 täydellisyyden 652 verkkosivun aineistolla, ja lopullisella yli 170 miljoonan verkkosivun aineistolla malli saavuttaa 97 % osumatarkkuuden.