Tom.notes();

Computer Scienceや読書のメモ

データ分析の力 因果関係に迫る思考法

 

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

 

 

 

はじめに

  • 因果関係の見極め方に焦点を当てたデータ分析.
  • 情報通信革命によって,多くの人が容易に良いデータ(ネタ)を手に入れることができるようになった.しかし,同時に「データをどのような角度で切るのか」というセンスや思考法を身に付けないと,せっかくのネタを生かす分析はできない.
  • グーグルは,ウェブサイトの文字の色と閲覧者数の因果関係を分析することで利益を伸ばした.
  • ウーバーは,価格と消費者行動の因果関係を見極めることで,タクシードライバーの数と利用者数を最適化できる方法を取り入れている.
  • データ分析の究極の目的は,「何かを行うこと(X)が結果(Y)にどのような影響を及ぼしたのか」という因果関係の解明に行き着くことが多い.

 

第1章 なぜデータから因果関係を導くのは難しいのか

  • XがYに影響したと結論づけているけれど,他の要因Vも影響している可能性があるから.
  • 「因果関係」は,XとYが相互に関係しているだけの「相関関係」とは全く異なる.
  • 他の要因Vが影響していないということを立証することは困難.
  • ビジネスや政策評価,新聞やテレビなどの報道において,「因果関係」と「相関関係」が混同されている場面は非常に多い.
  • 本当にそれが要因なのか,と冷静に考える必要がある.
  • データの観測数が増えたからといって,バイアスの問題は解決しない.

 

第2章 現実の世界で「実際に実験をしてしまう」 - ランダム化比較試験(RCT)

  • 因果関係をデータ分析によって明らかにする最良の方法はRCTである.
  • 因果関係を導くのが難しいのは,「もしも」のデータが存在しないから.
  • RCTとABテストは同義.RCTのことをビジネス分野では,AとBという2つのグループを比較するという意味で,ABテスト(A/B testing)という.
  • ランダムなグループ分けをすることで得られる最も重要な点は,ある程度多くのサンプル数が存在すれば,2つのグループが統計的には同質の集団になるということ.
  • データ分析を行う際に重要なのは,分析や結果の透明性であり,分析者以外にも説得力のある説明ができること.
  • RCTを行うにあたって大切なことは3つ.1つ目は,「適切なグループ分けをする」ということ.2つ目は,「グループ分けは必ずランダム(無作為)に行う」ということ.3つ目は,「各グループに十分なサンプル数を充てる」ということ.
  • サンプル数が多いほど,偶発的な理由(誤差)によって平均値が大きく変化してしまう可能性は小さくなる.逆に,サンプル数が少ないと,偶発的な理由によって平均値が大きく変化してしまう.このような状況のことを統計用語では,「統計的に有意な差であるといえない状況」という.

 

第3章 「境界線」を賢く使うRDデザイン

  • 対数を使って縦軸を表現することの利点は「対数と対数の差はパーセント変化に近似する」ということ.例えば,対数差で0.1というのは,近似的に約10%の伸びを意味している.
  • RDデザインの鉄則は2つ.1つ目は,「境界線」を境に1つの要素(X)のみが「非連続的に」変化する状況を見つけ出すこと.2つ目は,境界線付近でX以外の要素が非連続的に変化していないかのチェックを行うこと.
  • RDデザインは,境界線付近でのデータに対しての因果関係しか主張できないため,実験参加者全体への因果関係を主張できるRCTに比べて有用性にかける場合がある.

 

第4章 「階段状の変化」を賢く使う集積分

  • 積分析の鉄則は 2つ.1つ目は,何らかのインセンティブ(商品の価格や割引,所得税などの税金,政府からの補助金など)が階段上であることを分析に利用できないか検討すること.2つ目は,階段状で変化するのは分析で明らかにしたい要素(X)だけであり,他の要素は階段の境界点付近で非連続的に変化しないことを確かめる.
  • RDデザイン同様,境界線付近でのデータに対しての因果関係しか主張できないため,実験参加者全体への因果関係を主張できるRCTに比べて有用性にかける場合がある.
  • 自然実験の強みは,既に存在するデータを上手く利用して因果関係を分析できるため,RCTに比べてコストがかからないということ.

 

第6章 実践編:データ分析をビジネスや政策形成に生かすためには?

  • シリコンバレーでは,日常的にRCTを使ったビジネス戦略分析が行われている.
  • 検索エンジンを提供する会社は,検索結果ページに出てくる広告料で収益を上げている.そのため,収入の鍵となるのはどれだけ多くの人が検索ページを訪れてくれるかと,訪れた人がどれだけの確率で広告をクリックしてくれるか.
  • グーグルは,検索エンジンを利用した人に対して,41種類の青色からランダムに選んだ青色を見せ,どの青色が最も多くのクリックを生むかを分析した.
  • オバマ前大統領の問題意識は以下のようなものだった.政策担当者の多くは,どれだけの予算を自分の部署の政策に支出できたかという「支出の大きさ」を主眼とした政策形成をしている.しかし今後は,政策がどれだけの効果(雇用創出,環境汚染改善など)を生み出したかという「政策効果の大きさ」を物差しとして政策形成を行っていくべきである──.
  • オバマ前大統領や評議委員は,「単に数字やデータを示すこと=エビデンス」ではないということを非常に大切にしている.その理由は,Xという政策がYという結果にどう影響したかという因果関係を科学的に示すデータ分析こそが,政策形成に必要であるため.
  • データ分析をビジネス戦略や政策形成に生かすための鍵は2つある.1つ目は,データ分析専門家とデータ分析を利用する立場の方々とで,パートナーシップ(協力関係)を築くこと.2つ目は,データへのアクセスを可能な限り開かれた形にすること(政府が持つ詳細な行政データを分析者に利用させる体制を整える).
  • データ分析では,「コンピュータにデータが上がってくる前の段階含めたスキルや経験」が重要.
  • 税込価格の表示でも,税抜価格の表示でも,最終的にレジで支払う金額は全く同じであるにもかかわらず,税込価格の表示は売上を8%も下げた.つまり,「消費税などの費用を消費者は正しく計算できていない」ということになる.
  • タクシー料金は需要と供給の関係によって変動するべきだという考え方もできる.供給(ドライバーの数)に比べて需要(利用者の数)が少ないときは価格が安くなり,逆の場合は価格が高くなることによって,需要と供給のバランスをとるという発想.
  • 消費者にサービスを提供する企業にとって非常に重要になるのが,消費者の需要曲線の形状.需要曲線とは「価格の上げ下げによって,利用者の数がどれだけ変わるか?」という情報を提供してくれるもの.需要曲線を知ることは,企業にとっては利益を最大化するための戦略に不可欠.
  • 価格が上がれば,利用者数が減るというのは直感的に分かるが,ウーバーのデータを用いたRDデザインで,「どのくらい減るのか」を数量的に発見できたことがウーバーのビジネス戦略にとって有用だった.

    f:id:tom0930:20180218150951j:plain

  • RCTなどの科学的な方法で因果関係を示すことの実務的な利点は,イデオロギーなどを超えた,データ分析の結果に基づく政策議論ができることだと考えられる.
  • 日本でも,企業や政府機関とデータ分析専門家のパートナーシップが始まっており,今後は様々な分野へと拡大していくと予想される.

 

第7章 上級編:データ分析の不完全性や限界を知る

  • データ自体に問題がある場合は優れた分析手法でも解決は難しい .
  • 例えば,①データ測定に問題があり,数値が正しく測定されていない.②観測値に大量の欠損値が見られる.③本来はあらゆる世帯から取得すべきデータが,非常に偏ったサンプルからしか取れていない.
  • 分析結果の「外的妥当性(分析結果が,分析で使われたサンプル以外にも適用できるか)」という問題.
  • RCTや自然実験で発見された因果関係が,分析のサンプル以外の主体にも適用できるかどうかは慎重な議論が必要.外的妥当性の問題は,経済学の研究上でも最先端の問題の1つであり議論が続いている.
  • 「出版バイアス」により,データ分析者やデータ分析のパートナーの意に沿わない結果は世の中に出てきにくい,という問題が生じる.