A/B-testing er en avgjørende metode som brukes til å optimalisere nettsteder og applikasjoner, slik at bedrifter kan sammenligne to versjoner av en nettside eller app for å finne ut hvilken som gir best resultater. Å forstå nøkkelberegningene og terminologien som er involvert i A/B-testing er avgjørende for å tolke resultatene nøyaktig. I denne artikkelen vil vi undersøke viktige A/B-testmålinger og terminologi, inkludert p-verdi, konfidensintervall, ensidige og tosidige tester, z-score, observert styrke, variant, kontrollgruppe, inkrementell inntekt, konverteringsfrekvens og Bayesiansk beregning.
Nøkkelverdier for A/B-testing og terminologi
1. Variant
En variant refererer til en av versjonene som testes i en A/B-test. Vanligvis kalles den eksisterende versjonen kontrollen, og den nye versjonen er varianten.
Eksempel: I en A/B-test av en landingsside er versjon A (den nåværende siden) kontrollen, og versjon B (det nye designet) er varianten.
2. Kontrollgruppe
Kontrollgruppen er gruppen av brukere som eksponeres for originalversjonen (kontroll) i en A/B-test. Den fungerer som en grunnlinje for å sammenligne ytelsen til varianten.
Eksempel: Hvis 10,000 5,000 brukere besøker et nettsted, kan 5,000 XNUMX se kontrollsiden (kontrollgruppen), og XNUMX XNUMX kan se variantsiden.
3. Inkrementell inntekt
Inkrementell inntekt refererer til den ekstra inntekten som genereres som et resultat av endringer gjort under en A/B-test. Det hjelper med å vurdere den økonomiske effekten av testen.
Eksempel: Hvis variantsiden øker den gjennomsnittlige bestillingsverdien med USD 5 og det gjøres 1,000 ekstra kjøp, er den inkrementelle inntekten USD 5,000.
4. Konverteringsfrekvens
Konverteringsfrekvens er prosentandelen av brukere som fullfører en ønsket handling, for eksempel å foreta et kjøp eller registrere seg for et nyhetsbrev, av det totale antallet besøkende.
Eksempel: Hvis 100 av 1,000 besøkende foretar et kjøp, er konverteringsfrekvensen 10 %.
5. P-verdi
P-verdien måler sannsynligheten for at den observerte forskjellen mellom to variasjoner oppsto ved en tilfeldighet. En lavere p-verdi (typisk mindre enn 0.05) indikerer at den observerte forskjellen er statistisk signifikant.
Eksempel: Anta at en A/B-test sammenligner to versjoner av en landingsside. Versjon A har en konverteringsfrekvens på 5 %, og versjon B har en konverteringsfrekvens på 7 %. Hvis p-verdien er 0.03, er det en 3 % sjanse for at den observerte forskjellen oppsto ved en tilfeldighet, noe som indikerer en signifikant forskjell mellom de to versjonene.
6. Konfidensintervall
Konfidensintervallet gir et område der den sanne effektstørrelsen forventes å ligge, med et visst nivå av konfidens (vanligvis 95 %). Det hjelper med å vurdere påliteligheten til testresultatene.
Eksempel: I den samme A/B-testen kan 95 % konfidensintervallet for forskjellen i konverteringsfrekvens være [1 %, 3 %]. Dette betyr at vi er 95 % sikre på at den sanne forskjellen i konverteringsfrekvenser ligger mellom 1 % og 3 %.
7. Ensidige og tosidige tester
En ensidig test vurderer retningen av effekten (f.eks. om versjon B er bedre enn versjon A), mens en tosidig test vurderer om det er noen forskjell i begge retninger.
Eksempel på ensidig test: Tester om versjon Bs konverteringsfrekvens er høyere enn versjon A.
Eksempel på tosidig test: Tester om det er noen forskjell mellom konverteringsratene til versjon A og versjon B, uavhengig av retning.
8. Z-score
Z-skåren måler hvor mange standardavvik et element er fra gjennomsnittet. I A/B-testing brukes den til å bestemme betydningen av den observerte forskjellen mellom to variasjoner. Vanlige konfidensnivåer og deres z-score-ekvivalenter:
- Konfidensintervall 95 %
- Tosidig Z-score: 1.96
- Ensidig Z-score: 1.65
- Konfidensintervall 99 %
- Tosidig Z-score: 2.58
- Ensidig Z-score: 2.33
- Konfidensintervall 90 %
- Tosidig Z-score: 1.64
- Ensidig Z-score: 1.28
Eksempel: Hvis z-skåren for forskjellen i konverteringsfrekvenser mellom versjon A og versjon B er 2.5, indikerer det at forskjellen er 2.5 standardavvik fra gjennomsnittet, noe som tyder på en statistisk signifikant forskjell.
9. Observert kraft
Observert makt refererer til sannsynligheten for at testen korrekt avviser nullhypotesen når det er en sann effekt. Høyere observert effekt indikerer en høyere sannsynlighet for å oppdage en sann forskjell.
Eksempel: I en A/B-test med en observert styrke på 0.8 (80 %) er det 80 % sjanse for å oppdage en sann forskjell mellom variasjonene hvis en eksisterer.
10. Bayesiansk beregning
Bayesiansk beregning innebærer å bruke Bayes' teorem for å oppdatere sannsynlighetsestimatet for en hypotese etter hvert som ytterligere bevis blir anskaffet. I A/B-testing gir det et sannsynlig rammeverk for å ta beslutninger basert på dataene.
Eksempel: Ved å bruke Bayesianske metoder kan du bestemme sannsynligheten for at en variant er bedre enn kontrollen gitt de observerte dataene, i stedet for å stole utelukkende på tradisjonelle p-verdier.
11. Frekvensstatistikk
Frekvensstatistikk er en tradisjonell tilnærming innen hypotesetesting som fokuserer på frekvensen eller andelen av data. Den er avhengig av faste datasett og inkluderer ikke forkunnskaper eller sannsynlighetsfordelinger.
Eksempel: I en frekventistisk tilnærming til A/B-testing vil du bruke p-verdier og konfidensintervaller for å bestemme betydningen av testresultatene, uten å inkludere tidligere sannsynligheter.
Praktiske eksempler
Eksempel 1: A/B-test for e-postkampanje
Et selskap ønsker å teste to e-postemnelinjer for å se hvilken som resulterer i høyere åpningsrater.
- Emnelinje A: 25 % åpen rate
- Emnelinje B: 28 % åpen rate
- P-verdi: 0.02 (indikerer en signifikant forskjell)
- Konfidensintervall: [2 %, 5 %] (95 % sikkerhet for at den sanne forskjellen i åpne rater er mellom 2 % og 5 %)
- Z-score: 2.33 (antyder en statistisk signifikant forskjell)
- Observert kraft: 0.85 (85 % sjanse for å oppdage en sann forskjell)
Eksempel 2: A/B-test for destinasjonsside for nettsted
Et e-handelsnettsted tester to destinasjonssidedesign for å finne ut hvilke som fører til flere kjøp.
- Design A: 4 % konverteringsfrekvens
- Design B: 5 % konverteringsfrekvens
- P-verdi: 0.045 (indikerer en signifikant forskjell)
- Konfidensintervall: [0.5 %, 1.5 %] (95 % sikkerhet for at den sanne forskjellen i konverteringsfrekvenser er mellom 0.5 % og 1.5 %)
- Z-score: 2.01 (antyder en statistisk signifikant forskjell)
- Observert kraft: 0.78 (78 % sjanse for å oppdage en sann forskjell)
A / B-testing er et kraftig verktøy for å optimalisere digitale opplevelser, og å forstå nøkkelberegningene og terminologien er avgjørende for nøyaktig tolkning. Switas vet hvordan man oppfører seg effektivt A / B-tester, som sikrer at virksomheter kan ta datadrevne beslutninger for å forbedre ytelsen og gir pålitelig og handlingskraftig innsikt som driver vekst og suksess.