A/Bテストは、ウェブサイトやアプリケーションの最適化に用いられる重要な手法であり、企業はウェブページやアプリの2つのバージョンを比較して、どちらがパフォーマンスが良いかを判断することができます。A/Bテストに関係する主要な指標と用語を理解することは、結果を正確に解釈するために不可欠です。この記事では、A/Bテストの重要な指標と用語について検討します。 p値、信頼区間、片側検定と両側検定、Zスコア、観測検出力、バリアント、コントロールグループ、増分収益、コンバージョン率、ベイズ計算.
主要な A/B テストの指標と用語
1. バリアント
バリアントとは、A/B テストでテストされるバージョンの 1 つを指します。通常、既存のバージョンはコントロールと呼ばれ、新しいバージョンはバリアントと呼ばれます。
例: ランディング ページの A/B テストでは、バージョン A (現在のページ) がコントロールであり、バージョン B (新しいデザイン) がバリアントです。
2. コントロールグループ
コントロール グループとは、A/B テストで元のバージョン (コントロール) に公開されるユーザーのグループです。バリアントのパフォーマンスを比較するためのベースラインとして機能します。
例: 10,000 人のユーザーが Web サイトにアクセスした場合、5,000 人がコントロール ページ (コントロール グループ) を表示し、5,000 人がバリアント ページを表示する可能性があります。
3. 増分収益
増分収益とは、A/B テスト中に加えられた変更の結果として生成される追加収益を指します。これは、テストの財務的影響を評価するのに役立ちます。
例: バリエーション ページによって平均注文額が 5 ドル増加し、さらに 1,000 件の購入が行われた場合、増分収益は 5,000 ドルになります。
4 変換速度
コンバージョン率とは、訪問者総数のうち、購入やニュースレターの登録など、目的のアクションを完了したユーザーの割合です。
例: 100 人の訪問者のうち 1,000 人が購入した場合、コンバージョン率は 10% になります。
5. P値
p 値は、0.05 つのバリエーション間で観察された差が偶然に発生した確率を測定します。p 値が低い場合 (通常 XNUMX 未満)、観察された差は統計的に有意であることを示します。
例: A/B テストでランディング ページの 5 つのバージョンを比較するとします。バージョン A のコンバージョン率は 7%、バージョン B のコンバージョン率は 0.03% です。p 値が 3 の場合、観察された差が偶然に発生した可能性は XNUMX% あり、XNUMX つのバージョン間に大きな差があることを示します。
6. 信頼区間
信頼区間は、ある一定の信頼水準(通常95%)。テスト結果の信頼性を評価するのに役立ちます。
例: 同じ A/B テストで、コンバージョン率の差の 95% 信頼区間は [1%, 3%] になる場合があります。これは、コンバージョン率の実際の差が 95% から 1% の間であると 3% 確信していることを意味します。
7. 片側検定と両側検定
片側検定では効果の方向(バージョン B がバージョン A より優れているかどうかなど)を評価し、両側検定ではいずれかの方向に違いがあるかどうかを評価します。
片側検定の例: バージョン B のコンバージョン率がバージョン A より高いかどうかをテストします。
両側検定の例: 方向に関係なく、バージョン A とバージョン B のコンバージョン率に違いがあるかどうかをテストします。
8. Zスコア
Z スコアは、要素が平均から何標準偏差離れているかを測定します。A/B テストでは、2 つのバリエーション間で観察された差の重要性を判断するために使用されます。一般的な信頼レベルとそれに相当する Z スコア:
- 信頼区間 95%
- 両側Zスコア: 1.96
- 片側Zスコア: 1.65
- 信頼区間 99%
- 両側Zスコア: 2.58
- 片側Zスコア: 2.33
- 信頼区間 90%
- 両側Zスコア: 1.64
- 片側Zスコア: 1.28
例: バージョン A とバージョン B のコンバージョン率の差の Z スコアが 2.5 の場合、その差は平均から 2.5 標準偏差離れていることを示しており、統計的に有意な差があることを示しています。
9. 観測された電力
観測された検出力とは、真の効果がある場合に検定が帰無仮説を正しく棄却する確率を指します。観測された検出力が高いほど、真の差を検出する可能性が高くなります。
例: 観測された検出力が 0.8 (80%) の A/B テストでは、バリエーション間に真の違いが存在する場合、それを検出する確率は 80% です。
10. ベイズ計算
ベイズ計算では、ベイズの定理を使用して、追加の証拠が得られるにつれて仮説の確率推定を更新します。A/B テストでは、データに基づいて決定を下すための確率的フレームワークを提供します。
例: ベイズ法を使用すると、従来の p 値のみに頼るのではなく、観測されたデータに基づいて、あるバリアントがコントロールよりも優れている確率を判断できます。
11. 頻度主義統計
頻度主義統計は、データの頻度または割合に重点を置いた仮説検定の従来のアプローチです。固定されたデータ セットに依存し、事前の知識や確率分布は考慮されません。
例: A/B テストに対する頻度主義アプローチでは、事前確率を考慮せずに、p 値と信頼区間を使用してテスト結果の重要性を判断します。
実例
例 1: メールキャンペーンの A/B テスト
ある企業は、2 つの電子メールの件名をテストして、どちらの件名の開封率が高くなるかを確認したいと考えています。
- 件名A: 開封率25%
- 件名B: 開封率28%
- P値: 0.02(有意差を示す)
- 信頼区間: [2%, 5%] (開封率の実際の差は95%から2%の間であるという5%の信頼度)
- Z スコア: 2.33(統計的に有意な差を示唆)
- 観測された電力: 0.85 (真の差異を検出する確率 85%)
例2: ウェブサイトのランディングページのA/Bテスト
電子商取引のウェブサイトでは、2 つのランディング ページ デザインをテストして、どちらがより多くの購入につながるかを判断します。
- デザインA: 4%のコンバージョン率
- デザインB: 5%のコンバージョン率
- P値: 0.045(有意差を示す)
- 信頼区間: [0.5%、1.5%](コンバージョン率の実際の差は95%から0.5%の間であるという1.5%の信頼度)
- Z スコア: 2.01(統計的に有意な差を示唆)
- 観測された電力: 0.78 (真の差異を検出する確率 78%)
A / Bテスト はデジタル体験を最適化するための強力なツールであり、その主要な指標と用語を理解することは正確な解釈に不可欠です。Switasは効果的な実施方法を知っています。 A / Bテスト企業がデータに基づいた意思決定を行ってパフォーマンスを向上できるようにし、成長と成功を促進する信頼性の高い実用的な洞察を提供します。