「相関関係」と「因果関係」プロダクト分析で理解すべき両者の違い

Archana Madhavan

Instructional Designer

people reacted
2 -minute Read,

Posted on 9月 21, 2022

相関関係と因果関係は同時に存在することが可能ですが、相関関係があるからと言って因果関係があるわけではありません。本記事では、テストによって因果関係を検証する方法を紹介します。

因果関係と相関関係

因果関係と相関関係は同時に存在するものです。しかし、相関関係があるからと言って必ずしも因果関係があるわけではありません。

相関関係と因果関係は、一見、似ています。しかし、両者は似て非なるものです。

両者の違いを認識しなければ不要な機能に無駄な労力を費やしてしまうことになります。裏を返すと、正しく違いを理解しておけば、ユーザーに愛されるプロダクトを作ることができるようになります。

今回は、デジタルプロダクトの構築に加え、ユーザー行動の理解に関する「相関関係」と「因果関係」に焦点を当てます。プロダクトマネジャー、データサイエンティスト、アナリストこそ、ぜひ本記事を読んでみてください。プロダクト成長のための適切なインサイトを活用したい時、本記事の内容が役に立つはずです。

本記事では、下記のポイントを扱います。

  • まずは「相関関係と因果関係が違うものだ」と理解する
  • 相関関係と因果関係の違い
  • 因果関係のテストに使用できる2つのソリューション

相関関係と因果関係の違いとは?

因果関係と相関関係は同時に存在できます。しかし、相関関係は因果関係とイコールではありません。

因果関係は、行動Aが結果Bを引き起こす場合の関係性です。

一方、相関関係はもっとシンプルで、「行動Aは行動Bに関係するが、どちらかがもう一方の行動を引き起こすとは限らない」という関係性のことを指します。

因果関係と相関関係 天候の例

上記の図では、アイスクリームが欲しくなることと日焼けすることには相関関係があります。この2つの事象は関連しているからです。しかし、どちらの事象も実際にはもう一方の事象を引き起こしていません。その代わりに、両方の事象は、何か別のもの、つまり「日差しが強い」という事象によって引き起こされています。

相関関係と因果関係がしばしば混同されるのは、たとえパターンが存在しなくても、関連を見つけたがる人間の心理のせいかもしれません。2つの変数が非常に密接に関連し、一方が他方に依存しているように見える場合、そこに因果関係があるように捏造してしまうのが人間です。

目の前で2つの事象が同時に起こっているように見えても、単純に因果関係を仮定することはできません。観察しているつもりが結果を創作しがちなこと、事象の関連には考慮されていない多くの可能性があることがその理由です。

たとえば、「BがAを引き起こしている。」という事実があるとします。

  1. AとBは相関しているが、実はCが原因である。
  2. AとB以外の別の変数が関与している。AはBを引き起こすが、Dが起こることでもBが引き起こされる。
  3. 連鎖反応がある。AがEを引き起こし、EがBを引き起こす(しかし、AがBを引き起こすことを見ているので、Eに気づかず、AとBに因果関係があると思い込んでしまう)

1つの事象に対しても、これらの可能性が隠されていることがあります。つまり、因果関係を決定づけるのは非常に難しいことなのです。

プロダクトアナリティクスにおける相関関係と因果関係の例

プロダクトを分析していると「『特定のユーザーの行動や動作が特定の結果をもたらす』という因果関係が見つかった」と思うかもしれません。

たとえば、モバイルアプリの新バージョンをリリースしたとします。そして、「アプリ内で他のユーザーとつながる行動は、プロダクトのユーザーリテンションと関連しているはずだ」と仮定します。そして、ユーザーが「コミュニティ」に参加できる新機能の開発をプロダクトチームに依頼しました。

新しいコミュニティ機能をリリースしてから1ヶ月後、全ユーザーの20%程度がコミュニティ機能を利用しています。そして、実際にコミュニティ機能がユーザーのリテンションに影響を与えるかどうかを確認するため、無作為に選んだユーザーで2つの同規模のコホートを作成しました。一方のコホートにはコミュニティに参加したユーザーを、もう一方のコホートにはコミュニティに参加しなかったユーザーのみを集めました。

分析の結果、驚きの事実が判明しました。少なくとも1つのコミュニティに参加したユーザーは、平均的なユーザーよりもはるかに高いリテンションを維持していたのです。

コミュニティに参加したユーザーの90%近くがユーザー登録した初日にプロダクトに戻ってきていますが、参加しなかったユーザーの場合は50%程度でした。登録から7日目には、コミュニティに参加した人のリテンションが60%、参加しなかった人のリテンションは18%になっています。

リテンションチャート

ユーザーリテンションは、Amplitudeを使えば数クリックで確認できます。
リテンションチャートはデモ環境から無料で体験できるようになっています。ログインすれば無料でチャートを触れるので、ぜひ体験してみてください。

Amplitudeデモアカウント

ここで立ち止まってみましょう。理性的な方なら、コミュニティに参加することでリテンションが上がるかどうかを結論づけるのには、まだ十分な情報がないと感じているでしょう。

現時点でわかっているのは、「コミュニティへの参加」と「ユーザーリテンション」が相関しているということだけです。

因果関係と相関関係 プロダクト
この例では、コミュニティへの参加と定着率の向上には相関関係がありますが、その両方を引き起こす第三の要因がある可能性の存在が否定されていません。

プロダクトにおける因果関係の有無をテストする方法

因果関係は偶然に起こるものではありません。2つの変数を 「原因と結果 」として関連付けることは、非常におもしろいことです。

しかし、しっかりとした分析や確認をせずに決めつけてしまうと、「因果関係があるように見えて実はない」という誤検知を引き起こす可能性があります。誤検知は、従属変数と独立変数の関係を広範囲に渡って検証していない場合によく起こりがちです。

誤検知が発生すると、分析者は「原因(ユーザーの行動)と結果の関連性を理解している」と思い込んでしまいます。ですが、そう思い込むとプロダクトの分析をする上で問題が起こることがあります。

たとえば、「特定のキーアクティベーションイベントが長期的なユーザーリテンションにつながる」ことがわかっていたとします。しかし、厳密なテストを行わないと、間違った仮説に基づいて重要な決定を行ってしまう危険性があります。そこで、テストが必要となるのです。

因果関係を明らかにするテストの重要性

因果関係を明らかにするには、厳密なテストが必要です。相関関係が見つかったら「他の変数を制御し、その差を測定する」テストを行うことで、因果関係を検証することができます。

プロダクトとの因果関係を特定するためのテストや分析には次の2つがあります。

  • 仮説検証
  • A/B/n実験

1. 仮説検証

もっとも基本的な仮説検証では、H0(帰無仮説)とH1(一次仮説)を設定します。また、二次仮説、三次仮説を設定することもあります。

帰無仮説には、一次仮説と逆の仮説を設定します。その理由は、一次仮説を100%確実に証明することはできませんが(最も近くても99%)、帰無仮説を反証することは可能だからです。

一次仮説は、あなたが研究している対象の因果関係を指し示すものです。一次仮説では、独立変数と従属変数を特定する必要があります。

まずH1を作成し、その反対を特定してH0としましょう。H1では、独立変数と従属変数の間に期待される関係を明らかにする必要があります。たとえば、アプリ内のコミュニティ参加がリテンションに与える影響の例を取ると、独立変数はコミュニティへの参加で、従属変数はリテンションです。つまり、H1の仮説は下記のように設定できます。

H1: ユーザーが登録してから最初の1か月にプロダクト内のコミュニティに参加した場合、そのユーザーは1年以上顧客であり続ける

次に、H1 を否定して帰無仮説を立てます。

H0:アプリ内コミュニティへの参加とユーザーリテンションに関連性はない

この検証の目的は、異なる仮説の間に実際にどのような違いがあるかを観察することです。統計的に有意に帰無仮説を棄却できれば(理想的には95%以上の信頼度で)、独立変数と従属変数の関係の理解に近づきます。上記の例では、(結果に影響を与える可能性のある交絡変数を調整しながら)コミュニティに参加することでより高いリテンション率を得ることができ、帰無仮説を棄却できた場合に「コミュニティとユーザーリテンションの間に何らかの関係がある」と結論づけることができます。

この仮説を検証するには、予想される原因(独立変数または曝露変数)と結果(従属変数または結果変数)の関係を正確に反映する方程式を作成します。その方程式に曝露変数の値を差し込むと、実際に観測されたデータが反映された結果を一貫して返してくれるなら、そこには因果関係があると言えるのかもしれません。

仮説検証を使用すべき場面

仮説検証は、2つの変数間に実際に関係が存在するかどうかを識別したいときに役立ちます。仮説検証を行う際には事例証拠(逸話や風聞などの形式的でない証拠、主観が入ったもの)を見ないようにしなければなりません。

過去のデータから経時的な変化を見る、縦断的な分析を行いたい場合があるとします。たとえば、プロダクト発売時のファーストアダプターが最大のプロモーターであるかどうか、仮説検証によって調査することが可能です。紹介のパターンを調べたり、プロダクトの発売との関係を時系列で比較したりすることもできます。

また、データのスナップショットを分析するクロスセクション分析も可能です。これは、ある期間のトレンドの変化ではなく、特定の曝露(特定の因子にさらされたもの)と結果の影響を調べる場合に役立ちます。休日特有のプロモーションと売上との関係を調べたい時などが例として挙げられます。

2. A/B/nテスト

A/B/nテストは、相関関係から因果関係を明らかにすることができる方法です。それぞれの変数に注目し、1つずつ変数を変えてみて、何が起こるか見てみましょう。結果が一貫して同じ傾向で変化していれば、違いを生み出す変数を見つけたことになります。

A/Bテスト
あるプロダクトにおいて、コミュニティへの参加がリテンションの向上につながることを証明したい場合、結果に影響を与える可能性のある他の変数をすべて排除する必要があります。例えば、ユーザーがコミュニテイ参加以外のジャーニーを歩むことで、最終的にリテンションに影響を与えた可能性もあります。

因果関係を検証するには、「ユーザーがコミュニティに参加すること」と「アプリを長期間使用すること」の間に直接的な関連性があることを見出さなければなりません。

たとえば、オンボーディングフローから始めてみましょう。サインアップする1,000人のユーザーを2つのグループに分けます。半分は最初のサインアップ時に強制的にコミュニティに参加させ、もう半分は参加させません。そして30日間テストを行い、2つのグループ間のリテンション率を比較します。

もし、強制的にコミュニティに参加させられたグループの方が相対的にリテンションが高いことがわかれば、コミュニティへの参加と定着の間に因果関係があることを確認するための証拠を手に入れたことになります。なぜコミュニティがリテンションを高めるのかを理解するために、この関係はさらに掘り下げる価値があると思われます。

このようなテストがA/Bテストです。こうしたテストを行わない限り、因果関係を確定することはできません。

A/B/nテストを使用すべき場面

A/B/nテスト、またはスプリットテストは、異なるバリエーション(キャンペーン、プロダクト機能、またはコンテンツ戦略など)の影響を比較する場合に最適です。たとえば、プロダクトのオンボーディングフローのスプリットテストでは、次のような特定の特性に基づいて、さまざまな戦略のパフォーマンスを比較することができます。

  • コピーのバリエーション
  • 画像(Stock Photoなのか、オリジナルのイラストなのか)
  • サインアップフォームの自動入力機能の有無
  • サインアップフォームの項目の数

複数のプロダクトのオンボーディングバリエーションを実行した後、その結果を見て、離脱率、コンバージョン、そしてリテンションなどの指標を比較することができます。

プロダクトを持続的に成長させるには正しい相関関係のもと行動する

私たちは、常に自分の周りにあるパターンを探しており、目に見えるものを説明できるようになることを無意識のうちに目的としてしまう傾向にあります。しかし、因果関係が明確に特定できない限りは、相関関係しか見えていないと考えるべきです。

常識的に考えて関連しているように見える事象も、明確な直接的関係が証明されない限り、因果関係があるとは言い切れません。また、因果関係と相関関係が同時に存在することはあっても、相関関係は因果関係とイコールではないのです。

必ずしも、因果関係を常に明らかにする必要はありません。本文で紹介したように、因果関係を解明しようと思うと膨大な労力がかかります。そのため、因果関係ではなく相関関係に基づいてアクションを取ることをおすすめします。

プロダクトにおける真の相関関係を見極められるようになれば、ユーザーエンゲージメントやリテンションに対する取り組みの優先順位付けがうまくいくようになります。Amplitudeならユーザーの行動とコンバージョンや収益の相関関係を数クリックで導くことが可能です。因果関係は解明せずとも相関関係に基づくことで、データに裏付けられたスピーディーなアクションを取ることができるようになります。

Amplitudeに何ができるのかもっと知りたいか方や、プロダクトの成長の中でもリテンションを重視している方・課題を感じている方は「リテンション向上の虎の巻」をぜひダウンロードしてみてください。

因果関係と相関関係の違いを把握しておけば、リテンションへの理解もはるかに深まります。ぜひ、「リテンション向上の虎の巻」を下記バナーからダウンロードし、貴社のリテンション戦略にご活用いただければと思います。

Retention playbook banner

Archana Madhavan

Archana is an Instructional Designer on the Customer Education team at Amplitude. She develops educational content and courses to help Amplitude users better analyze their customer data to build better products.

その他の Archana

ベストプラクティス

product-led-growth-worksheet-preview
ベストプラクティス people reacted

ドコモ「d払い」の市場戦略を具現化する「データの民主化」

2 -minute Read

世界中のプロダクトリーダーが一堂に会する大型カンファレンス「Amplify 2022」が2022年5月に米ラスベガスで開催されました。日本からは、NTTドコモのウォレットサービス部長の田原 務氏が登壇し、「Why and How to Democratize Terabytes of Data」と題して講演しました。本稿では田原氏が語った「d払いを取り巻く環境とAmplitudeの活用方法」と、NTTドコモがAmplitudeを選んだ3つの理由や、導入成果についてレポートします。