ABテストのやり方と成功の秘訣【仮説の立て方からKPIの選択まで】Booking. com ディレクター直伝。セミナーダイジェスト

2022年5月12日のウェビナーでは、Booking.comのプロダクトマネージメントディレクター、ファブリジオ・サルザノ氏にご登壇いただきました。

セミナーでは、サルザノさんに、ABテストとは何かから、サンプルサイズ、実施するタイミング、どのようにKPIを選択すればよいかまで、ABテストを成功に導くための実践的なポイントを伝授いただきました。また、ABテストの実施が難しい状況下であっても、ユーザーのインサイトを得るためにどのような代替的なアプローチを選択すればよいかについて「エビデンス・ピラミッド」という考え方もご紹介いただきました。

今回はそのダイジェストをご紹介します。

1 ABテストとはなにか、なぜ実施するのか
2 ABテストを構成する5つの要素とは
3 ABテストをするべきでないとき
4 ABテストができないときの代替策
5 エビデンス・ピラミッドとは
6 Q&Aセッション
7 登壇者プロフィール
8 無料ダウンロード

ABテストとはなにか、なぜ実施するのか

ABテストは、ある機能やその変更についてユーザーがどのように考えているか、好きなのか嫌いなのかを定量的に迅速に把握するための方法です。

なぜABテストをするのかについては、様々な理由があります。ここでは3つの主な理由を紹介します。まず、第一に、誰も未来を予測することはできないからです。第二に、学びと意思決定プロセスを民主化するためです。ABテストの結果を事業に携わっている人に共有することで、事業の成長を加速することができます。第三は、前進的な学習を可能にするためです。前進的な学習とは、ABテストによって変化や変更を細かく見ることで、なにがうまくいき、なにがうまくいかなかったのかを把握し、次のステップへ進むことができます。

ABテストを構成する5つの要素とは

ABテストを実施するとき以下の5つの構成要素を考える必要があります。

仮説
KPI
テストのタイプ
テストのセットアップ
実施期間、サンプルサイズ

5つの構成要素について順に説明していきます。

仮説

ABテストを実施するにあたって「適切な」仮説を設定する必要があります。「適切」な仮説を立てるには、次の4つのポイントを押さえなければなりません。

何を変えたいと思っているのか（どのような機能を変えたいのか、開発しているのか）
誰がその変化にさらされるのか （どのようなユーザーか）
ユーザーにどのような影響や効果を及ぼすと考えているのか （ユーザーの行動はどのように変化するのか）
変化の影響をどのように測定するか（なにをKPIとするのか、KPI変化の望ましい方向はなにか）

具体的な例をあげてみましょう。

何を変えたいと思っているのか：各ページにショッピングカートを設置するという新機能の追加
誰がその変化にさらされるのか：ユーザーのうち、サイトへのリピーター
ユーザーにどんな影響や効果を及ぼすと考えているのか：一度利用したり、ブックマークしたホテルを簡単に見つけることができるようになる
変化の影響をどのように測定するか：予約者数の増加、複数滞在先の予約数の増加、カートインタラクションの増加をKPIとして測定する

KPI

KPI（Key Performance Indicator：重要業績評価指標）には3つの要素があります。

1次的KPI（ビジネスに直結するもの）
2次的またはサポートKPI（プロダクトの利用率など行動に関するもの）
ヘルススコア（システムへの影響に関するもの）（注）

（注）ヘルススコアとはユーザーが自社のプロダクト利用を継続するかどうかを測る指標。

まず、1次的なKPIとしては、企業のビジネスに直結するような指標をKPIとしましょう。次に、変化にさらされる対象者の行動を測定するようなものを2次的またはサポートKPIとして設定しましょう。最後のヘルススコアに関しては、必ずしもいつも含める必要はありませんが、変化がシステムにどのような影響を与えているのか、予期していない影響が出ていないか確認するために含めています。

重要なことは、上記のすべてを定義するだけでなく、経営陣など意思決定者も含む関係者でKPIについて合意を得てからABテストを実施することです。また、一度設定したKPIを簡単に変更しないことも大切です。

具体的な例をあげてみましょう。

1次的KPI：オンラインの予約者数
2次的またはサポートKPI：カートにアクセスしたユーザー数
ヘルススコア：アップタイム（コンピューターやシステムが稼働している時間）、ページロードの時間

テストタイプ

一般的には3つのタイプのABテストがあります。

優越性テスト : 変化によって改善を期待する場合
非劣性テスト : 変化によって現在より悪くなることはないことを期待する場合、または想定範囲内のコストであれば変化を受け入れるという場合
同等性テスト：変化によって良くもなく悪くもないことを期待する場合

例えば、法律的に何か変更を加えなければならない場合や、戦略的にパートナーと協働するために変更を実施する場合などは非劣性テストを選択します。そうでない場合は、基本的には優越性テストの実施となります。

テストのセットアップ

ここでは、どのくらいの変化（パターン）をテストしたいのか、どのくらいのユーザセグメント（グループ）を追跡したいのかを決定します。

テストを設定する際に留意しておきたいことが2点あります。それは、有意水準が低い場合、勝者パターンが本当の勝者ではない可能性が高いという偽陽性が生じることを意識しておくことと、テストができるから実施するのではなく意思決定のためにテストを設計するということです。

テスト実施期間、サンプルサイズ

テストの実施期間が短すぎる場合は、偽陽性を含め正しい結果が得られない場合があります。また、KPIへの影響を観察するには、何人のユーザーをテスト対象とする必要があるかを初めに計算しなければなりません。データは多ければ多いほど良いというわけではありません。サンプルサイズは、テスト前に必ず計算し最小値で実施するとよいでしょう。

ABテストをするべきでないとき

ここまでABテストについて話しましたが、ABテストをするべきでないときがあります。例えば、以下のような場合はABテストを実施するべきではありません。

ユーザーへの負荷が大きすぎる場合
- 例えば、BtoBユーザーの場合、すでに慣れたユーザーインターフェースに変更を加えるとビジネスに大きな影響を与えてしまうことがあります。
テストのためのテストとなっている場合
- 明確な仮説もなく、テスト結果をどのように使うかも考えていない場合など、意思決定の手段としてABテストを使用しない場合はテストを実施しないほうがよいでしょう。
ダークパターンをテストする場合
- 例えば、ユーザーから重要な情報を隠す、など道徳的に反する変更についてはABテストを実施しないほうがよいでしょう。

図6ABテストを実施すべきでないとき — ▲図7：ABテストを実施すべきでないとき

ABテストができないときの代替策

ABテストは、常に実施できるわけではありません。例えば、以下のような場合にはABテストは実施できません。

ABテストプラットフォームがなかったり、テスト費用が高すぎる場合
対象となるユーザー数が少ない（サンプル数が少ない）場合
テストを行うプロダクトがまだない場合
ABテストに適した変化ではない場合（まれではあるがAとBで機能を共有しているなど）

こうした場合どのように対応すればよいか、エビデンス・ピラミッドという考え方をご紹介します。

エビデンス・ピラミッドとは

エビデンスピラミッドでは、上層に行くほどエビデンスの質が高くなり、下の層にいくほど技術に関する投資費用が少なくてすみます。ピラミッドのどの位置を選ぶかが、みなさんの選択肢となります。エビデンスの質とコスト、両方を視野にいれて選択しなければなりません。

具体的には、エビデンス・ピラミッド左にあるピンクの矢印はエビデンスの質を、ピラミッド右にあるグリーンの矢印は技術投資にかかるコストを指しています。また、ピラミッド上部の層から順に、「メタレビュー」「ランダムテスト」「コホートリサーチ」「ケースリサーチ」「専門家の意見」となっています。

例えば、Booking.comのABテストは「ランダムテスト」の層に該当します。この層で留意すべきことは、一度のテストでは1つの変更についてテストすること、また迅速に実施し学びを得ること、継続的に反復して実施すること、最後に偽陽性に注意することです。

その1つ下の層である「コホートリサーチ」は、例えばユーザーリサーチインタビューが該当します。ここで留意すべきことは、介入せず観察のみを実施することと、ランダム化しないため相関関係は確認できても、因果関係は確認できないことです。

次の「ケースリサーチ」は、カスタマーサービスへの問い合わせやゲストレビューの分析が該当します。ここでも「コホートリサーチ」と同様、介入せず観察のみを実施することと、ランダム化はしません。

最下層の「専門家の意見」は、皆さん自身含め、ビジネスやその道の専門家に意見を伺う場合が該当します。費用はかかりませんが、バイアスが強い可能性があることに留意しましょう。これは、導入として採用する方法であって、最後に実施するものではありません。

ABテストのプラットフォームは一般的に高価で実装できないこともあります。このエビデンス・ピラミッドが教えてくれることは、ABテストができなくとも様々な手法があり、エビデンスの質やコストを勘案し、また各層の手法を組み合わせることができるということです。ABテストをいきなり実装せずとも、ほかの手法でエビデンスをそろえた後に、ABテストを実装できることを覚えておいてください。

Q&Aセッション

－－－ABテストで有意差が出ない場合はどのように対処していますか。

A：有意性が出ない場合は、いくつか対応できることがあります。まず1つは、テストのセットアップに問題がないのかを確認することです。あとは、仮説を見直したり、関連性のあるユーザーに対してテストがちゃんと実施されているかを確認したりもします。長期的にどのKPIをみるのが適切か確認することをディスカバリーメトリクスと呼んでいますが、いろいろなKPIを再度確認していくことも考えられます。

例えば、ショッピングカートをヘッダーのポジションに設置する場合、クリック数が増えると予想したとしましょう。機能やユーザー行動で問題がないことを確認したにも関わらず、クリック数が増加しなかった場合、カートのポジションを変えて目立つところに置いたり、Call To Action（CTA：Webサイトの訪問者を具体的な行動に誘導する方法）に変えたり、ユーザーに直接お知らせすることも考えられます。こうした場合、イタレーションを実施し、その都度チェックをして、ユーザーのインサイトを得ていくというプロセスも必要になります。

－－－偽陽性についてもう少し詳しく教えてください。ABテストの結果について偽陽性だとどのように判断するのでしょうか？

A：偽陽性は、先ほどのショッピングカードの例で話しますと、仮説で想定したとおり予約者数が増えるという結果が出たものの、実際にはそのような影響がないという場合を指します。反対に偽陰性というもあり、テストでは影響がないと判断されたものの、実際は影響があるという場合を指します。数学的な理由もあり、偽陽性のほうが偽陰性よりも多く現れる傾向にあります。偽陽性を判断するのは難しいのですが、判断する数式があり偽陽性の可能性の大きさを計算することができます。

例えば、先ほどのショッピングカートの例の場合、ポジションを変更して同じような結果が出るか確認したり、また信頼区間の設定を変更するということも考えられます。例えば、通常90％の信頼区間を設定することが多いのですが、95％や99％にして、偽陽性の確率を減らすということが考えられます。ただし、これは一方でテストの難易度を上げてしまいます。みなさんには偽陽性についてあまり恐れを感じてほしくないと思います。偽陽性という場合があるということだけ認識していただければよいかと思います。

－－－ABテストよりバンディットアルゴリズムのほうが優れているという説明を聞いたことがありますが、どう思われますか？

A：機械学習のエキスパートではないのであくまで１つの意見として聞いてください。私の理解では、バンディットアルゴリズムではユーザーを動的にパターンに振り分けていきます。例えば先ほどのショッピングカートの例では、うまくいっていると思われるパターンにより多くのユーザーを振り分け、うまくいっていないパターンを廃止するというような形です。バンディットアルゴリズムがABテストよりも優れているかというと、個人的にはそうではないと思います。なぜなら、バンディットアルゴリズム自体、ABテストなしでは実施できないからです。

－－－ABテストを実施したいと思っているのですが、KPIをなかなか1つに定めることができません。適切なKPIを定めるために何かコツはありますか？

A：これは本日お話した1次KPIが定まらないということだと思います。実際は、複数のKPIを設定することも可能です。しかし、複数のKPIを設定した場合は意思決定がさらに複雑になってしまうことが予想されます。KPIは意思決定に直接関与していることが大事であり、企業や事業の目的に関連づいている必要があります。ただし、場合によっては、開発しているプロダクトが企業や事業のKPIから離れていることもあるでしょう。こうした場合は、KPIマッピング、KPIチェーン、KPIツリーといったものを作成し、事業KPIが自分たちが関わっているプロダクトのKPIとつながっているかを確認することも一つの方法です。

また、例えば、Booking.comの場合、宿泊施設の数がゼロだと売上もゼロになっていまうので在庫（掲載している宿泊施設の数）と売り上げは関連があるのですが、売上というKPIと関係がある在庫をKPIにするということも考えられます。こうしたKPIをProxy KPI（Proxyは”代わり”の意味）と呼んでいるのですが、こうした方法でKPIを設定することも考えられます。

－－－エビデンスピラミッドの一番上にあるメタレビューとはどのような手法でしょうか？

A：メタレビューについては、エビデンス・ピラミッドを完成させるという意味で掲載しました。メタレビューは、ランダムなABテストを複数実施するということです。実施している会社は本当にわずかだと思います。例えば、画像をうめ込むことで売上があがるという仮説を立て、複数のABテストをもとに売上が上がったかを判断するような場合です。つまり、メタビューは10個など複数のABテストを類似の仮説をもとに実施することを指します。なぜ、複数のABテストを実施するのかについては、先ほどお話した偽陽性をできるだけ防ぐという観点からテストの質を上げ、しっかりした結論を導くためと言えます。