Testy A/B to kluczowa metoda optymalizacji stron internetowych i aplikacji, umożliwiająca firmom porównanie dwóch wersji strony internetowej lub aplikacji w celu ustalenia, która działa lepiej. Zrozumienie kluczowych wskaźników i terminologii związanej z testami A/B jest niezbędne do dokładnej interpretacji wyników. W tym artykule przyjrzymy się ważnym metrykom i terminologii testów A/B, m.in wartość p, przedział ufności, testy jednostronne i dwustronne, wynik z, moc obserwowana, wariant, grupa kontrolna, przychód przyrostowy, współczynnik konwersji i obliczenia bayesowskie.
Kluczowe wskaźniki i terminologia testów A/B
1. Wariant
Wariant oznacza jedną z wersji testowanych w teście A/B. Zazwyczaj istniejąca wersja nazywana jest kontrolką, a nowa wersja jest wariantem.
Przykład: W teście A/B strony docelowej wersja A (bieżąca strona) jest kontrolą, a wersja B (nowy projekt) jest wariantem.
2. Grupa kontrolna
Grupa kontrolna to grupa użytkowników, która miała kontakt z wersją pierwotną (kontrolą) w teście A/B. Służy jako punkt odniesienia do porównania wydajności wariantu.
Przykład: Jeśli witrynę odwiedzi 10,000 5,000 użytkowników, 5,000 może zobaczyć stronę kontrolną (grupa kontrolna), a XNUMX może zobaczyć stronę wariantu.
3. Przychody przyrostowe
Przychód przyrostowy odnosi się do dodatkowego przychodu wygenerowanego w wyniku zmian wprowadzonych podczas testu A/B. Pomaga w ocenie skutków finansowych testu.
Przykład: Jeśli strona wariantowa zwiększy średnią wartość zamówienia o 5 USD i dokonanych zostanie 1,000 dodatkowych zakupów, przyrostowy przychód wyniesie 5,000 USD.
4. Współczynnik konwersji
Współczynnik konwersji to odsetek użytkowników, którzy wykonali pożądaną akcję, taką jak dokonanie zakupu lub zapisanie się do newslettera, w stosunku do całkowitej liczby odwiedzających.
Przykład: Jeśli 100 na 1,000 odwiedzających dokona zakupu, współczynnik konwersji wynosi 10%.
5. Wartość P
Wartość p mierzy prawdopodobieństwo, że zaobserwowana różnica między dwiema zmianami pojawiła się przez przypadek. Niższa wartość p (zazwyczaj mniejsza niż 0.05) wskazuje, że obserwowana różnica jest istotna statystycznie.
Przykład: Załóżmy, że w teście A/B porównuje się dwie wersje strony docelowej. Wersja A ma współczynnik konwersji 5%, a wersja B ma współczynnik konwersji 7%. Jeśli wartość p wynosi 0.03, istnieje 3% szans, że zaobserwowana różnica wystąpiła przypadkowo, co wskazuje na istotną różnicę między obiema wersjami.
6. Przedział ufności
Przedział ufności zapewnia zakres, w którym oczekuje się, że będzie mieścić się rzeczywista wielkość efektu, przy pewnym poziomie ufności (zwykle 95%). Pomaga ocenić wiarygodność wyników testu.
Przykład: w tym samym teście A/B 95% przedział ufności dla różnicy współczynników konwersji może wynosić [1%, 3%]. Oznacza to, że mamy 95% pewności, że prawdziwa różnica we współczynnikach konwersji wynosi od 1% do 3%.
7. Testy jednostronne i dwustronne
Test jednostronny ocenia kierunek efektu (np. czy wersja B jest lepsza od wersji A), podczas gdy test dwustronny ocenia, czy istnieje jakakolwiek różnica w którymkolwiek kierunku.
Przykład testu jednostronnego: Testuje, czy współczynnik konwersji wersji B jest wyższy niż wersji A.
Przykład testu dwustronnego: Testuje, czy istnieje jakakolwiek różnica między współczynnikami konwersji wersji A i wersji B, niezależnie od kierunku.
8. Wynik Z
Wynik z mierzy, ile odchyleń standardowych ma dany element od średniej. W testach A/B służy do określenia istotności zaobserwowanej różnicy między dwiema odmianami. Typowe poziomy ufności i ich odpowiedniki w wyniku Z:
- Przedział ufności 95%
- Dwustronny wynik Z: 1.96
- Jednostronny wynik Z: 1.65
- Przedział ufności 99%
- Dwustronny wynik Z: 2.58
- Jednostronny wynik Z: 2.33
- Przedział ufności 90%
- Dwustronny wynik Z: 1.64
- Jednostronny wynik Z: 1.28
Przykład: Jeżeli wskaźnik Z dla różnicy współczynników konwersji między wersją A i wersją B wynosi 2.5, oznacza to, że różnica jest oddalona o 2.5 odchylenia standardowego od średniej, co sugeruje różnicę istotną statystycznie.
9. Obserwowana moc
Moc obserwowana odnosi się do prawdopodobieństwa, że test prawidłowo odrzuci hipotezę zerową, gdy występuje prawdziwy efekt. Wyższa obserwowana moc wskazuje na większe prawdopodobieństwo wykrycia prawdziwej różnicy.
Przykład: W teście A/B z obserwowaną mocą 0.8 (80%) istnieje 80% szans na wykrycie prawdziwej różnicy między zmianami, jeśli taka istnieje.
10. Obliczenia bayesowskie
Obliczenia bayesowskie polegają na użyciu twierdzenia Bayesa w celu aktualizacji oszacowania prawdopodobieństwa hipotezy w miarę uzyskania dodatkowych dowodów. W testach A/B zapewnia probabilistyczne ramy umożliwiające podejmowanie decyzji na podstawie danych.
Przykład: Stosując metody Bayesa, można określić prawdopodobieństwo, że jeden wariant jest lepszy od kontroli, biorąc pod uwagę obserwowane dane, zamiast polegać wyłącznie na tradycyjnych wartościach p.
11. Statystyka częstościowa
Statystyka częstościowa to tradycyjne podejście do testowania hipotez, które koncentruje się na częstotliwości lub proporcji danych. Opiera się na ustalonych zestawach danych i nie uwzględnia wcześniejszej wiedzy ani rozkładów prawdopodobieństwa.
Przykład: W podejściu częstym do testów A/B do określenia istotności wyników testu używa się wartości p i przedziałów ufności, bez uwzględniania wcześniejszych prawdopodobieństw.
Praktyczne przykłady
Przykład 1: Test A/B kampanii e-mailowej
Firma chce przetestować dwa tematy wiadomości e-mail, aby sprawdzić, który z nich zapewnia wyższy współczynnik otwarć.
- Temat A: 25% współczynnik otwarć
- Temat B: 28% współczynnik otwarć
- Wartość P: 0.02 (co wskazuje na znaczącą różnicę)
- Przedział ufności: [2%, 5%] (95% pewności, że prawdziwa różnica w wskaźnikach otwarć wynosi od 2% do 5%)
- Wynik Z: 2.33 (co sugeruje różnicę istotną statystycznie)
- Obserwowana moc: 0.85 (85% szans na wykrycie prawdziwej różnicy)
Przykład 2: Test A/B strony docelowej witryny
Witryna e-commerce testuje dwa projekty stron docelowych, aby określić, który z nich prowadzi do większej liczby zakupów.
- Projekt A: Współczynnik konwersji 4%
- Projekt B: Współczynnik konwersji 5%
- Wartość P: 0.045 (co wskazuje na znaczącą różnicę)
- Przedział ufności: [0.5%, 1.5%] (95% pewności, że prawdziwa różnica we współczynnikach konwersji wynosi od 0.5% do 1.5%)
- Wynik Z: 2.01 (co sugeruje różnicę istotną statystycznie)
- Obserwowana moc: 0.78 (78% szans na wykrycie prawdziwej różnicy)
Testy A / B to potężne narzędzie do optymalizacji doświadczeń cyfrowych, a zrozumienie jego kluczowych wskaźników i terminologii ma kluczowe znaczenie dla dokładnej interpretacji. Świtaś wie, jak działać skutecznie Testy A / B, zapewniając przedsiębiorstwom możliwość podejmowania decyzji w oparciu o dane w celu zwiększenia ich wydajności, a także dostarczając wiarygodnych i przydatnych spostrzeżeń, które napędzają rozwój i sukces.