A/B-testning är en avgörande metod som används för att optimera webbplatser och applikationer, vilket gör att företag kan jämföra två versioner av en webbsida eller app för att avgöra vilken som ger bättre resultat. Att förstå nyckelmåtten och terminologin som ingår i A/B-testning är avgörande för att tolka resultaten korrekt. I den här artikeln kommer vi att undersöka viktiga A/B-testmått och terminologi, inklusive p-värde, konfidensintervall, ensidiga och tvåsidiga tester, z-poäng, observerad effekt, variant, kontrollgrupp, inkrementell intäkt, omvandlingsfrekvens och Bayesiansk beräkning.
Viktiga A/B-testningsmått och terminologi
1. Variant
En variant avser en av versionerna som testas i ett A/B-test. Vanligtvis kallas den befintliga versionen för kontroll, och den nya versionen är varianten.
Exempelvis: I ett A/B-test av en målsida är version A (den nuvarande sidan) kontrollen och version B (den nya designen) varianten.
2. Kontrollgrupp
Kontrollgruppen är den grupp användare som exponeras för originalversionen (kontroll) i ett A/B-test. Den fungerar som en baslinje för att jämföra variantens prestanda.
Exempelvis: Om 10,000 5,000 användare besöker en webbplats kan 5,000 XNUMX se kontrollsidan (kontrollgruppen) och XNUMX XNUMX kan se variantsidan.
3. Inkrementella intäkter
Inkrementell intäkt avser den extra intäkt som genereras till följd av ändringar som gjorts under ett A/B-test. Det hjälper till att bedöma den ekonomiska effekten av testet.
Exempelvis: Om variantsidan ökar det genomsnittliga beställningsvärdet med 5 USD och ytterligare 1,000 5,000 köp görs, är den inkrementella intäkten XNUMX XNUMX USD.
4. Omvandlingsfrekvens
Omvandlingsfrekvens är procentandelen användare som slutför en önskad åtgärd, som att göra ett köp eller registrera sig för ett nyhetsbrev, av det totala antalet besökare.
Exempelvis: Om 100 av 1,000 10 besökare gör ett köp är konverteringsgraden XNUMX %.
5. P-värde
P-värdet mäter sannolikheten att den observerade skillnaden mellan två variationer inträffade av en slump. Ett lägre p-värde (typiskt mindre än 0.05) indikerar att den observerade skillnaden är statistiskt signifikant.
Exempelvis: Anta att ett A/B-test jämför två versioner av en målsida. Version A har en konverteringsfrekvens på 5 % och version B har en konverteringsfrekvens på 7 %. Om p-värdet är 0.03, finns det en 3% chans att den observerade skillnaden inträffade av en slump, vilket indikerar en signifikant skillnad mellan de två versionerna.
6. Konfidensintervall
Konfidensintervallet ger ett intervall inom vilket den verkliga effektstorleken förväntas ligga, med en viss nivå av konfidens (vanligtvis 95%). Det hjälper till att bedöma tillförlitligheten av testresultaten.
Exempel: I samma A/B-test kan konfidensintervallet på 95 % för skillnaden i konverteringsfrekvens vara [1 %, 3 %]. Det betyder att vi är 95 % säkra på att den verkliga skillnaden i konverteringsfrekvens ligger mellan 1 % och 3 %.
7. Ensidiga och tvåsidiga tester
Ett ensidigt test bedömer effektens riktning (t.ex. om version B är bättre än version A), medan ett dubbelsidigt test bedömer om det finns någon skillnad i endera riktningen.
Exempel på ensidigt test: Testar om version B:s omvandlingsfrekvens är högre än version A:s.
Exempel på dubbelsidigt test: Testar om det finns någon skillnad mellan omvandlingsfrekvenserna för version A och version B, oavsett riktning.
8. Z-Score
Z-poängen mäter hur många standardavvikelser ett element är från medelvärdet. I A/B-testning används den för att bestämma signifikansen av den observerade skillnaden mellan två variationer. Vanliga konfidensnivåer och deras motsvarigheter till z-poäng:
- Konfidensintervall 95 %
- Tvåsidig Z-poäng: 1.96
- Ensidig Z-poäng: 1.65
- Konfidensintervall 99 %
- Tvåsidig Z-poäng: 2.58
- Ensidig Z-poäng: 2.33
- Konfidensintervall 90 %
- Tvåsidig Z-poäng: 1.64
- Ensidig Z-poäng: 1.28
Exempelvis: Om z-poängen för skillnaden i omvandlingsfrekvens mellan version A och version B är 2.5, indikerar det att skillnaden är 2.5 standardavvikelser från medelvärdet, vilket tyder på en statistiskt signifikant skillnad.
9. Observerad effekt
Observerad makt hänvisar till sannolikheten att testet korrekt förkastar nollhypotesen när det finns en sann effekt. Högre observerad effekt indikerar en högre sannolikhet för att upptäcka en sann skillnad.
Exempelvis: I ett A/B-test med en observerad styrka på 0.8 (80%), finns det en 80% chans att upptäcka en sann skillnad mellan variationerna om en sådan finns.
10. Bayesisk beräkning
Bayesiansk beräkning innebär att man använder Bayes teorem för att uppdatera sannolikhetsuppskattningen för en hypotes när ytterligare bevis förvärvas. I A/B-testning ger det en probabilistisk ram för att fatta beslut baserat på data.
Exempelvis: Med hjälp av Bayesianska metoder kan du bestämma sannolikheten för att en variant är bättre än kontrollen givet de observerade data, snarare än att enbart förlita sig på traditionella p-värden.
11. Frekventistisk statistik
Frekventistisk statistik är ett traditionellt tillvägagångssätt inom hypotestestning som fokuserar på frekvensen eller andelen data. Den förlitar sig på fasta datamängder och innehåller inte förkunskaper eller sannolikhetsfördelningar.
Exempelvis: I ett frekventistiskt tillvägagångssätt för A/B-testning skulle du använda p-värden och konfidensintervall för att bestämma betydelsen av testresultaten, utan att inkludera tidigare sannolikheter.
Praktiska exempel
Exempel 1: A/B-test för e-postkampanj
Ett företag vill testa två e-postämnesrader för att se vilken som leder till högre öppningsfrekvens.
- Ämnesrad A: 25% öppen kurs
- Ämnesrad B: 28% öppen kurs
- P-värde: 0.02 (indikerar en signifikant skillnad)
- Konfidensintervall: [2%, 5%] (95% konfidens för att den verkliga skillnaden i öppna kurser är mellan 2% och 5%)
- Z-poäng: 2.33 (vilket tyder på en statistiskt signifikant skillnad)
- Observerad effekt: 0.85 (85 % chans att upptäcka en verklig skillnad)
Exempel 2: A/B-test för webbplatsens målsida
En e-handelswebbplats testar två målsidesdesigner för att avgöra vilka som leder till fler köp.
- Design A: 4 % konverteringsfrekvens
- Design B: 5 % konverteringsfrekvens
- P-värde: 0.045 (indikerar en signifikant skillnad)
- Konfidensintervall: [0.5 %, 1.5 %] (95 % konfidens för att den verkliga skillnaden i konverteringsfrekvens är mellan 0.5 % och 1.5 %)
- Z-poäng: 2.01 (vilket tyder på en statistiskt signifikant skillnad)
- Observerad effekt: 0.78 (78 % chans att upptäcka en verklig skillnad)
A / B-testning är ett kraftfullt verktyg för att optimera digitala upplevelser, och att förstå dess nyckeltal och terminologi är avgörande för korrekt tolkning. Switas vet hur man beter sig effektivt A / B-test, vilket säkerställer att företag kan fatta datadrivna beslut för att förbättra sina prestationer och ger tillförlitliga och handlingsbara insikter som driver tillväxt och framgång.