Experimentation Process and Experiment Design in A/B Testing Teams: A Case Study in B2C E-commerce

Perustieteiden korkeakoulu | Master's thesis





Software and Service Engineering



Master's Programme in Computer, Communication and Information Sciences




This thesis investigates what development processes are used by A/B testing teams to develop online controlled experiments. In addition, this thesis investigates the process for choosing an experiment design, the duration of online controlled experiments, and how experiment duration affects the development process. In online controlled experiments, such as A/B tests, two different versions of a software feature are pitted against each other to see which is the most effective based on some important metric. A/B tests can be used to gather data to make datadriven decisions. Continuous experimentation, which is a process of conducting controlled experiments in a cycle, has been gaining popularity as companies have been moving towards data-driven development processes. To answer the research questions, seven interviews were conducted to gather data about how different teams design, implement, measure, and analyse A/B tests. Data about the decisions regarding experiment design and experiment duration was also collected. The results of the interviews were analysed and a common framework for A/B test development was created, which contains the common roles, activities, meetings, and artifacts of the A/B test development processes. These, as well as the results regarding the duration of experiments and experiment design choices, were compared to previously existing literature regarding online controlled experimentation and continuous experimentation models. The common A/B test development framework consisted of four key roles with specific responsibilities and duties. The development process consisted of three main activities and the testing process for each experiment consisted of six subactivities. Throughout the experimentation process, three different types of artifacts were created. The duration of an experiment typically was 2 weeks at the lowest and 3 months at the highest. Durations between 2 to 4 weeks were the most common. The duration of an experiment was not seen to influence the A/B testing process. A/B tests were the most common type of experiment design used, followed by A/B/N tests and multivariate tests. Simpler experiment designs were preferred due to the increased data requirements, effort, and analysis challenges encountered when using more complex experiment designs.

Tässä työssä tutkitaan, millaisia kehitysprosesseja A/B-testauskehitysryhmät käyttävät kehittäessään A/B testejä. Tämän lisäksi tutkitaan koetyypin valintaprosessia, A/B testien kestoa ja kuinka A/B testin kesto vaikuttaa kehitysprosessiin. A/B-testeissä ohjelmiston ominaisuuden kaksi eri versiota asetetaan vastakkain, jotta nähdään, kumpi on tehokkaampi jonkin tärkeän mittarin perusteella. A/B-testejä voidaan käyttää tietojen keräämiseen, jotta voidaan tehdä tietoon perustuvia päätöksiä. Jatkuvassa kokeilussa A/B testejä kehitetään jatkuvasti iteraatioittain koko ohjelmistokehitysprosessin aikana. Jatkuva kokeilu on kasvattanut suosiotaan, yritysten siirtyessä dataan perustuviin kehitysprosesseihin. Tutkimuskysymyksiin vastaamiseksi suoritettiin seitsemän haastattelua, joissa kerättiin tietoa eri A/B-testauskehitysryhmien suunnittelu-, toteutus-, mittaus- ja analysointiprosesseista. Näiden lisäksi kerättiin tietoja koetyyppipäätöksestä ja A/B testin kestoa koskevista päätöksistä. Haastattelujen tulokset analysoitiin ja työssä luotiin A/B-testien kehittämiselle yhteinen kehityskehys, jossa tunnistetaan A/B-testien kehittämisprosessien yhteiset roolit, prosessivaiheet, kokoukset ja prosessivaiheiden tulokset. Näitä ja tuloksia A/B testien kestoista ja tuloksia koetyyppipäätöksistä verrattiin aiemmin olemassa olleeseen kirjallisuuteen A/B testauksesta ja jatkuvan kokeilun malleihin. Yhteinen A/B-testien kehityskehys koostui neljästä keskeisestä roolista, joilla oli omat vastuualueet ja tehtävät. Kehitysprosessi koostui kolmesta päävaiheesta ja kunkin kokeen testausprosessi koostui kuudesta osavaiheesta. Prosessin aikana luotiin myös kolme erityyppistä artefaktia. Yhden testin kesto oli tyypillisesti alimmillaan 2 viikkoa ja ylimmillään 3 kuukautta. Yleisesti testit kestivät noin 2–4 viikkoa. Testin kestolla ei nähty olevan vaikutusta A/B-testausprosessiin. A/B-testit olivat yleisin käytetty koetyyppi. Toiseksi yleisimmät olivat A/B/N-testit ja kolmanneksi yleisimmät olivat multivariate-testit. Yksinkertaisempia koetyyppejä suosittiin, koska monimutkaisemmat koetyypit vaativat enemmän dataa, työtä ja olivat analysoinnin kannalta haastavampia.



Fagerholm, Fabian

Meriläinen, Roosa


continuous experimentation, A/B testing, split testing, software engineering

