Pengujian A/B adalah metode penting yang digunakan dalam mengoptimalkan situs web dan aplikasi, memungkinkan bisnis membandingkan dua versi halaman web atau aplikasi untuk menentukan mana yang berkinerja lebih baik. Memahami metrik dan terminologi utama yang terlibat dalam pengujian A/B sangat penting untuk menafsirkan hasil secara akurat. Dalam artikel ini, kita akan memeriksa metrik dan terminologi pengujian A/B yang penting, termasuk nilai p, interval kepercayaan, pengujian satu sisi dan dua sisi, skor z, daya observasi, varian, grup kontrol, pendapatan tambahan, tingkat konversi, dan perhitungan Bayesian.

Metrik dan Terminologi Pengujian A/B Utama

1. Varian

Varian mengacu pada salah satu versi yang sedang diuji dalam pengujian A/B. Biasanya, versi yang ada disebut kontrol, dan versi baru disebut varian.

Contoh: Dalam pengujian A/B laman landas, Versi A (laman saat ini) adalah kontrolnya, dan Versi B (desain baru) adalah variannya.

2. Kelompok Kontrol

Grup kontrol adalah grup pengguna yang diekspos ke versi asli (kontrol) dalam pengujian A/B. Ini berfungsi sebagai dasar untuk membandingkan kinerja varian.

Contoh: Jika 10,000 pengguna mengunjungi situs web, 5,000 orang mungkin melihat halaman kontrol (grup kontrol), dan 5,000 orang mungkin melihat halaman varian.

 

Pendapatan tambahan.png
Sumber: https://getrecast.com/incrementality/

 

3. Pendapatan Tambahan

Pendapatan tambahan mengacu pada pendapatan tambahan yang dihasilkan sebagai akibat dari perubahan yang dilakukan selama pengujian A/B. Ini membantu dalam menilai dampak finansial dari tes tersebut.

Contoh: Jika halaman varian meningkatkan nilai pesanan rata-rata sebesar $5 dan dilakukan 1,000 pembelian tambahan, pendapatan tambahannya adalah $5,000.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Tingkat konversi

Tingkat konversi adalah persentase pengguna yang menyelesaikan tindakan yang diinginkan, seperti melakukan pembelian atau mendaftar buletin, dari jumlah total pengunjung.

Contoh: Jika 100 dari 1,000 pengunjung melakukan pembelian, tingkat konversinya adalah 10%.

5. Nilai-P

Nilai p mengukur probabilitas bahwa perbedaan yang diamati antara dua variasi terjadi secara kebetulan. Nilai p yang lebih rendah (biasanya kurang dari 0.05) menunjukkan bahwa perbedaan yang diamati signifikan secara statistik.

Contoh: Misalkan pengujian A/B membandingkan dua versi laman landas. Versi A memiliki tingkat konversi sebesar 5%, dan Versi B memiliki tingkat konversi sebesar 7%. Jika nilai p adalah 0.03, terdapat kemungkinan 3% bahwa perbedaan yang diamati terjadi secara kebetulan, yang menunjukkan perbedaan yang signifikan antara kedua versi.

 

rumus-interval-kepercayaan.jpg

 

6. Interval Keyakinan

Interval kepercayaan memberikan kisaran di mana ukuran efek sebenarnya diperkirakan berada, dengan tingkat kepercayaan tertentu (biasanya 95%). Ini membantu menilai keandalan hasil tes.

Contoh: Dalam pengujian A/B yang sama, interval kepercayaan 95% untuk perbedaan rasio konversi mungkin [1%, 3%]. Artinya, kami yakin 95% bahwa perbedaan rasio konversi sebenarnya terletak antara 1% dan 3%.

7. Tes Satu Sisi dan Dua Sisi

Pengujian satu sisi menilai arah pengaruhnya (misalnya, apakah Versi B lebih baik daripada Versi A), sedangkan pengujian dua sisi menilai apakah terdapat perbedaan pada salah satu arah.

Contoh Tes Satu Sisi: Menguji apakah rasio konversi Versi B lebih tinggi daripada Versi A.
Contoh Uji Dua Sisi: Menguji apakah ada perbedaan antara tingkat konversi Versi A dan Versi B, apa pun arahnya.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Skor Z

Skor-z mengukur berapa banyak standar deviasi suatu elemen dari mean. Dalam pengujian A/B, ini digunakan untuk menentukan signifikansi perbedaan yang diamati antara dua variasi. Tingkat kepercayaan umum dan skor z yang setara:

  • Interval kepercayaan 95%
    • Skor Z Dua Sisi: 1.96
    • Skor Z Satu Sisi: 1.65
  • Interval kepercayaan 99%
    • Skor Z Dua Sisi: 2.58
    • Skor Z Satu Sisi: 2.33
  • Interval kepercayaan 90%
    • Skor Z Dua Sisi: 1.64
    • Skor Z Satu Sisi: 1.28

Contoh: Jika skor z untuk perbedaan tingkat konversi antara Versi A dan Versi B adalah 2.5, hal ini menunjukkan bahwa perbedaannya adalah 2.5 standar deviasi dari rata-rata, yang menunjukkan adanya perbedaan yang signifikan secara statistik.

9. Kekuatan yang Diamati

Kekuatan yang diamati mengacu pada probabilitas bahwa pengujian tersebut dengan benar menolak hipotesis nol ketika terdapat efek yang benar. Kekuatan observasi yang lebih tinggi menunjukkan kemungkinan yang lebih tinggi untuk mendeteksi perbedaan yang sebenarnya.

Contoh: Dalam pengujian A/B dengan kekuatan observasi sebesar 0.8 (80%), terdapat peluang 80% untuk mendeteksi perbedaan sebenarnya di antara variasi jika ada.

 

formula-bayesian.png
Sumber: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Perhitungan Bayesian

Perhitungan Bayesian melibatkan penggunaan teorema Bayes untuk memperbarui estimasi probabilitas suatu hipotesis seiring dengan diperolehnya bukti tambahan. Dalam pengujian A/B, ini memberikan kerangka probabilistik untuk membuat keputusan berdasarkan data.

Contoh: Dengan menggunakan metode Bayesian, Anda dapat menentukan probabilitas bahwa satu varian lebih baik daripada kontrol berdasarkan data observasi, dibandingkan hanya mengandalkan nilai p tradisional.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
Sumber: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Statistik yang Sering

Statistik frequentist adalah pendekatan tradisional dalam pengujian hipotesis yang berfokus pada frekuensi atau proporsi data. Hal ini bergantung pada kumpulan data tetap dan tidak memasukkan pengetahuan sebelumnya atau distribusi probabilitas.

Contoh: Dalam pendekatan frequentist pada pengujian A/B, Anda akan menggunakan nilai p dan interval kepercayaan untuk menentukan signifikansi hasil pengujian, tanpa memasukkan probabilitas sebelumnya.

Contoh Praktis

Contoh 1: Tes A/B Kampanye Email

Sebuah perusahaan ingin menguji dua baris subjek email untuk melihat mana yang menghasilkan tingkat pembukaan yang lebih tinggi.

  • Baris Subjek A: 25% tingkat terbuka
  • Baris Subjek B: 28% tingkat terbuka
  • Nilai-P: 0.02 (menunjukkan perbedaan yang signifikan)
  • Interval Keyakinan: [2%, 5%] (keyakinan 95% bahwa perbedaan sebenarnya dalam tarif terbuka adalah antara 2% dan 5%)
  • Skor-Z: 2.33 (menunjukkan perbedaan yang signifikan secara statistik)
  • Kekuatan yang Diamati: 0.85 (85% kemungkinan mendeteksi perbedaan sebenarnya)
Contoh 2: Pengujian A/B Laman Landas Situs Web

Situs web e-niaga menguji dua desain laman landas untuk menentukan mana yang menghasilkan lebih banyak pembelian.

  • Desain A: 4% tingkat konversi
  • Desain B: 5% tingkat konversi
  • Nilai-P: 0.045 (menunjukkan perbedaan yang signifikan)
  • Interval Keyakinan: [0.5%, 1.5%] (keyakinan 95% bahwa perbedaan sebenarnya dalam rasio konversi adalah antara 0.5% dan 1.5%)
  • Skor-Z: 2.01 (menunjukkan perbedaan yang signifikan secara statistik)
  • Kekuatan yang Diamati: 0.78 (78% kemungkinan mendeteksi perbedaan sebenarnya)

Pengujian A / B adalah alat yang ampuh untuk mengoptimalkan pengalaman digital, dan memahami metrik dan terminologi utamanya sangat penting untuk interpretasi yang akurat. Switas tahu bagaimana berperilaku efektif Tes A / B, memastikan bahwa bisnis dapat mengambil keputusan berdasarkan data untuk meningkatkan kinerja mereka dan memberikan wawasan yang andal dan dapat ditindaklanjuti guna mendorong pertumbuhan dan kesuksesan.