Testy A/B to kluczowa metoda optymalizacji stron internetowych i aplikacji, umożliwiająca firmom porównanie dwóch wersji strony internetowej lub aplikacji w celu ustalenia, która działa lepiej. Zrozumienie kluczowych wskaźników i terminologii związanej z testami A/B jest niezbędne do dokładnej interpretacji wyników. W tym artykule przyjrzymy się ważnym metrykom i terminologii testów A/B, m.in wartość p, przedział ufności, testy jednostronne i dwustronne, wynik z, moc obserwowana, wariant, grupa kontrolna, przychód przyrostowy, współczynnik konwersji i obliczenia bayesowskie.

Kluczowe wskaźniki i terminologia testów A/B

1. Wariant

Wariant oznacza jedną z wersji testowanych w teście A/B. Zazwyczaj istniejąca wersja nazywana jest kontrolką, a nowa wersja jest wariantem.

Przykład: W teście A/B strony docelowej wersja A (bieżąca strona) jest kontrolą, a wersja B (nowy projekt) jest wariantem.

2. Grupa kontrolna

Grupa kontrolna to grupa użytkowników, która miała kontakt z wersją pierwotną (kontrolą) w teście A/B. Służy jako punkt odniesienia do porównania wydajności wariantu.

Przykład: Jeśli witrynę odwiedzi 10,000 5,000 użytkowników, 5,000 może zobaczyć stronę kontrolną (grupa kontrolna), a XNUMX może zobaczyć stronę wariantu.

 

Przychody-przyrostowe.png
Źródło: https://getrecast.com/incrementality/

 

3. Przychody przyrostowe

Przychód przyrostowy odnosi się do dodatkowego przychodu wygenerowanego w wyniku zmian wprowadzonych podczas testu A/B. Pomaga w ocenie skutków finansowych testu.

Przykład: Jeśli strona wariantowa zwiększy średnią wartość zamówienia o 5 USD i dokonanych zostanie 1,000 dodatkowych zakupów, przyrostowy przychód wyniesie 5,000 USD.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Współczynnik konwersji

Współczynnik konwersji to odsetek użytkowników, którzy wykonali pożądaną akcję, taką jak dokonanie zakupu lub zapisanie się do newslettera, w stosunku do całkowitej liczby odwiedzających.

Przykład: Jeśli 100 na 1,000 odwiedzających dokona zakupu, współczynnik konwersji wynosi 10%.

5. Wartość P

Wartość p mierzy prawdopodobieństwo, że zaobserwowana różnica między dwiema zmianami pojawiła się przez przypadek. Niższa wartość p (zazwyczaj mniejsza niż 0.05) wskazuje, że obserwowana różnica jest istotna statystycznie.

Przykład: Załóżmy, że w teście A/B porównuje się dwie wersje strony docelowej. Wersja A ma współczynnik konwersji 5%, a wersja B ma współczynnik konwersji 7%. Jeśli wartość p wynosi 0.03, istnieje 3% szans, że zaobserwowana różnica wystąpiła przypadkowo, co wskazuje na istotną różnicę między obiema wersjami.

 

formuła-przedziału ufności.jpg

 

6. Przedział ufności

Przedział ufności zapewnia zakres, w którym oczekuje się, że będzie mieścić się rzeczywista wielkość efektu, przy pewnym poziomie ufności (zwykle 95%). Pomaga ocenić wiarygodność wyników testu.

Przykład: w tym samym teście A/B 95% przedział ufności dla różnicy współczynników konwersji może wynosić [1%, 3%]. Oznacza to, że mamy 95% pewności, że prawdziwa różnica we współczynnikach konwersji wynosi od 1% do 3%.

7. Testy jednostronne i dwustronne

Test jednostronny ocenia kierunek efektu (np. czy wersja B jest lepsza od wersji A), podczas gdy test dwustronny ocenia, czy istnieje jakakolwiek różnica w którymkolwiek kierunku.

Przykład testu jednostronnego: Testuje, czy współczynnik konwersji wersji B jest wyższy niż wersji A.
Przykład testu dwustronnego: Testuje, czy istnieje jakakolwiek różnica między współczynnikami konwersji wersji A i wersji B, niezależnie od kierunku.

 

1_FCakTCjZtmuADgbSNwYudA.jpg

 

8. Wynik Z

Wynik z mierzy, ile odchyleń standardowych ma dany element od średniej. W testach A/B służy do określenia istotności zaobserwowanej różnicy między dwiema odmianami. Typowe poziomy ufności i ich odpowiedniki w wyniku Z:

  • Przedział ufności 95%
    • Dwustronny wynik Z: 1.96
    • Jednostronny wynik Z: 1.65
  • Przedział ufności 99%
    • Dwustronny wynik Z: 2.58
    • Jednostronny wynik Z: 2.33
  • Przedział ufności 90%
    • Dwustronny wynik Z: 1.64
    • Jednostronny wynik Z: 1.28

Przykład: Jeżeli wskaźnik Z dla różnicy współczynników konwersji między wersją A i wersją B wynosi 2.5, oznacza to, że różnica jest oddalona o 2.5 odchylenia standardowego od średniej, co sugeruje różnicę istotną statystycznie.

9. Obserwowana moc

Moc obserwowana odnosi się do prawdopodobieństwa, że ​​test prawidłowo odrzuci hipotezę zerową, gdy występuje prawdziwy efekt. Wyższa obserwowana moc wskazuje na większe prawdopodobieństwo wykrycia prawdziwej różnicy.

Przykład: W teście A/B z obserwowaną mocą 0.8 (80%) istnieje 80% szans na wykrycie prawdziwej różnicy między zmianami, jeśli taka istnieje.

 

formuła-bayesian.png
Źródło: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Obliczenia bayesowskie

Obliczenia bayesowskie polegają na użyciu twierdzenia Bayesa w celu aktualizacji oszacowania prawdopodobieństwa hipotezy w miarę uzyskania dodatkowych dowodów. W testach A/B zapewnia probabilistyczne ramy umożliwiające podejmowanie decyzji na podstawie danych.

Przykład: Stosując metody Bayesa, można określić prawdopodobieństwo, że jeden wariant jest lepszy od kontroli, biorąc pod uwagę obserwowane dane, zamiast polegać wyłącznie na tradycyjnych wartościach p.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
Źródło: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Statystyka częstościowa

Statystyka częstościowa to tradycyjne podejście do testowania hipotez, które koncentruje się na częstotliwości lub proporcji danych. Opiera się na ustalonych zestawach danych i nie uwzględnia wcześniejszej wiedzy ani rozkładów prawdopodobieństwa.

Przykład: W podejściu częstym do testów A/B do określenia istotności wyników testu używa się wartości p i przedziałów ufności, bez uwzględniania wcześniejszych prawdopodobieństw.

Praktyczne przykłady

Przykład 1: Test A/B kampanii e-mailowej

Firma chce przetestować dwa tematy wiadomości e-mail, aby sprawdzić, który z nich zapewnia wyższy współczynnik otwarć.

  • Temat A: 25% współczynnik otwarć
  • Temat B: 28% współczynnik otwarć
  • Wartość P: 0.02 (co wskazuje na znaczącą różnicę)
  • Przedział ufności: [2%, 5%] (95% pewności, że prawdziwa różnica w wskaźnikach otwarć wynosi od 2% do 5%)
  • Wynik Z: 2.33 (co sugeruje różnicę istotną statystycznie)
  • Obserwowana moc: 0.85 (85% szans na wykrycie prawdziwej różnicy)
Przykład 2: Test A/B strony docelowej witryny

Witryna e-commerce testuje dwa projekty stron docelowych, aby określić, który z nich prowadzi do większej liczby zakupów.

  • Projekt A: Współczynnik konwersji 4%
  • Projekt B: Współczynnik konwersji 5%
  • Wartość P: 0.045 (co wskazuje na znaczącą różnicę)
  • Przedział ufności: [0.5%, 1.5%] (95% pewności, że prawdziwa różnica we współczynnikach konwersji wynosi od 0.5% do 1.5%)
  • Wynik Z: 2.01 (co sugeruje różnicę istotną statystycznie)
  • Obserwowana moc: 0.78 (78% szans na wykrycie prawdziwej różnicy)

Testy A / B to potężne narzędzie do optymalizacji doświadczeń cyfrowych, a zrozumienie jego kluczowych wskaźników i terminologii ma kluczowe znaczenie dla dokładnej interpretacji. Świtaś wie, jak działać skutecznie Testy A / B, zapewniając przedsiębiorstwom możliwość podejmowania decyzji w oparciu o dane w celu zwiększenia ich wydajności, a także dostarczając wiarygodnych i przydatnych spostrzeżeń, które napędzają rozwój i sukces.