Il test A/B è un metodo cruciale utilizzato per ottimizzare siti Web e applicazioni, poiché consente alle aziende di confrontare due versioni di una pagina Web o di un'app per determinare quale funziona meglio. Comprendere le metriche chiave e la terminologia coinvolta nei test A/B è essenziale per interpretare i risultati in modo accurato. In questo articolo esamineremo importanti metriche e terminologia dei test A/B, tra cui valore p, intervallo di confidenza, test unilaterale e bilaterale, punteggio z, potenza osservata, variante, gruppo di controllo, entrate incrementali, tasso di conversione e calcolo bayesiano.

Metriche e terminologia chiave dei test A/B

1. Variant

Una variante si riferisce a una delle versioni testate in un test A/B. In genere, la versione esistente è denominata controllo e la nuova versione è la variante.

Esempio: In un test A/B di una pagina di destinazione, la versione A (la pagina corrente) è il controllo e la versione B (il nuovo design) è la variante.

2. Gruppo di controllo

Il gruppo di controllo è il gruppo di utenti esposti alla versione originale (controllo) in un test A/B. Serve come base per confrontare le prestazioni della variante.

Esempio: Se 10,000 utenti visitano un sito Web, 5,000 potrebbero vedere la pagina di controllo (gruppo di controllo) e 5,000 potrebbero vedere la pagina variante.

 

Entrate incrementali.png
Fonte: https://getrecast.com/incrementality/

 

3. Entrate incrementali

Le entrate incrementali si riferiscono alle entrate aggiuntive generate a seguito delle modifiche apportate durante un test A/B. Aiuta a valutare l'impatto finanziario del test.

Esempio: Se la pagina della variante aumenta il valore medio dell'ordine di $ 5 e vengono effettuati 1,000 acquisti aggiuntivi, le entrate incrementali saranno $ 5,000.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Tasso di conversione

Il tasso di conversione è la percentuale di utenti che completano un'azione desiderata, come effettuare un acquisto o iscriversi a una newsletter, rispetto al numero totale di visitatori.

Esempio: Se 100 visitatori su 1,000 effettuano un acquisto, il tasso di conversione è del 10%.

5. Valore P

Il valore p misura la probabilità che la differenza osservata tra due variazioni sia avvenuta per caso. Un valore p inferiore (tipicamente inferiore a 0.05) indica che la differenza osservata è statisticamente significativa.

Esempio: Supponiamo che un test A/B confronti due versioni di una landing page. La versione A ha un tasso di conversione del 5% e la versione B ha un tasso di conversione del 7%. Se il valore p è 0.03, c'è una probabilità del 3% che la differenza osservata sia avvenuta per caso, indicando una differenza significativa tra le due versioni.

 

intervallo-di-confidenza-formula.jpg

 

6. Intervallo di confidenza

L’intervallo di confidenza fornisce un intervallo entro il quale ci si aspetta che si trovi la reale dimensione dell’effetto, con un certo livello di confidenza (di solito il 95%). Aiuta a valutare l'affidabilità dei risultati del test.

Esempio: nello stesso test A/B, l'intervallo di confidenza del 95% per la differenza nei tassi di conversione potrebbe essere [1%, 3%]. Ciò significa che siamo sicuri al 95% che la vera differenza nei tassi di conversione sia compresa tra l'1% e il 3%.

7. Test unilaterali e bilaterali

Un test unilaterale valuta la direzione dell'effetto (ad esempio, se la versione B è migliore della versione A), mentre un test bilaterale valuta se c'è qualche differenza in entrambe le direzioni.

Esempio di test unilaterale: Verifica se il tasso di conversione della versione B è superiore a quello della versione A.
Esempio di test bilaterale: Verifica se esiste qualche differenza tra i tassi di conversione della Versione A e della Versione B, indipendentemente dalla direzione.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Punteggio Z

Il punteggio z misura quante deviazioni standard un elemento dista dalla media. Nei test A/B viene utilizzato per determinare la significatività della differenza osservata tra due variazioni. Livelli di confidenza comuni e loro equivalenti nel punteggio z:

  • Intervallo di confidenza 95%
    • Punteggio Z bilaterale: 1.96
    • Punteggio Z unilaterale: 1.65
  • Intervallo di confidenza 99%
    • Punteggio Z bilaterale: 2.58
    • Punteggio Z unilaterale: 2.33
  • Intervallo di confidenza 90%
    • Punteggio Z bilaterale: 1.64
    • Punteggio Z unilaterale: 1.28

Esempio: Se il punteggio z per la differenza nei tassi di conversione tra la Versione A e la Versione B è 2.5, indica che la differenza è di 2.5 deviazioni standard dalla media, suggerendo una differenza statisticamente significativa.

9. Potenza osservata

Il potere osservato si riferisce alla probabilità che il test rifiuti correttamente l’ipotesi nulla quando c’è un effetto vero. Un potere osservato più elevato indica una maggiore probabilità di rilevare una vera differenza.

Esempio: In un test A/B con una potenza osservata di 0.8 (80%), c'è una probabilità dell'80% di rilevare una vera differenza tra le variazioni, se ne esiste una.

 

bayesiano-formula.png
Fonte: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Calcolo bayesiano

Il calcolo bayesiano prevede l'utilizzo del teorema di Bayes per aggiornare la stima della probabilità di un'ipotesi man mano che vengono acquisite prove aggiuntive. Nei test A/B, fornisce un quadro probabilistico per prendere decisioni basate sui dati.

Esempio: Utilizzando i metodi bayesiani, è possibile determinare la probabilità che una variante sia migliore del controllo in base ai dati osservati, anziché fare affidamento esclusivamente sui tradizionali valori p.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
Fonte: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Statistiche frequentiste

La statistica frequentista è un approccio tradizionale nella verifica delle ipotesi che si concentra sulla frequenza o sulla proporzione dei dati. Si basa su set di dati fissi e non incorpora conoscenze precedenti o distribuzioni di probabilità.

Esempio: In un approccio frequentista al test A/B, utilizzeresti i valori p e gli intervalli di confidenza per determinare la significatività dei risultati del test, senza incorporare le probabilità a priori.

Esempi pratici

Esempio 1: test A/B della campagna e-mail

Un'azienda desidera testare due righe di oggetto dell'e-mail per vedere quale si traduce in tassi di apertura più elevati.

  • Oggetto A: Tasso di apertura 25%
  • Oggetto B: Tasso di apertura 28%
  • Valore P: 0.02 (che indica una differenza significativa)
  • Intervallo di confidenza: [2%, 5%] (confidenza del 95% che la vera differenza nei tassi di apertura sia compresa tra il 2% e il 5%)
  • Punteggio Z: 2.33 (suggerendo una differenza statisticamente significativa)
  • Potenza osservata: 0.85 (85% di possibilità di rilevare una vera differenza)
Esempio 2: test A/B della pagina di destinazione del sito web

Un sito Web di e-commerce testa due design di pagine di destinazione per determinare quale porta a più acquisti.

  • Progettazione A: Tasso di conversione 4%
  • Progetto B: Tasso di conversione 5%
  • Valore P: 0.045 (che indica una differenza significativa)
  • Intervallo di confidenza: [0.5%, 1.5%] (confidenza del 95% che la differenza effettiva nei tassi di conversione sia compresa tra 0.5% e 1.5%)
  • Punteggio Z: 2.01 (suggerendo una differenza statisticamente significativa)
  • Potenza osservata: 0.78 (78% di possibilità di rilevare una vera differenza)

A / B testing è uno strumento potente per ottimizzare le esperienze digitali e comprenderne le metriche e la terminologia chiave è fondamentale per un'interpretazione accurata. Switas sa come condurre una condotta efficace A / B test, garantendo che le aziende possano prendere decisioni basate sui dati per migliorare le proprie prestazioni e fornendo informazioni affidabili e utilizzabili che guidano la crescita e il successo.