Tom.notes();

Computer Scienceや読書のメモ

統計学が最強の学問である

 

統計学が最強の学問である

統計学が最強の学問である

 

 

第1章 なぜ統計学が最強の学問なのか?

  • どんな分野の議論においても,データを集めて分析することで,最速で最善の答えを出すことができる.
  • データを分析せずに勘と経験だけに基づく議論を重ねるのは,時間のムダ.
  • ITの進化により,データ量の多さや計算の複雑さは,ほとんど問題にならなくなった.

 

第2章 サンプリングが情報コストを激減させる

  • 対処しきれない量のデータが存在する際に,適切なサンプリングさえすれば,必要な情報を得るためのコストが激減する.
  • ビッグデータに関心のあるビジネスマンは,しばしばビッグデータをビッグなままで扱うことにしか目が行かない.

 

第3章 誤差と因果関係が統計学のキモである

  • データを「集計」するだけでは意味がない.
  • 因果関係を明らかにし,次の行動につなげなくてはならない.
  • 「実際には何の差もないのに誤差や偶然によって,たまたまデータのような差が生じる確率」のことをp値という.
  • データから「何かわからないか」という漠然とした問いではなく,そのようなデータのうち,何が,どのような関係で利益とつながっているのか,が重要.

 

第4章 「ランダム化」という最強の武器

  • データの取り方を工夫する.
  • 「A/Bテスト」「ランダム化比較実験」の強力さ.
  • ランダム化比較実験が強力な理由は,「人間が制御しうる何物についても,その因果関係を分析できるから」
  • 法則性がない試行 → ランダム
  • 失敗の許されない判断をするのであれば,何らかの形でランダム化比較実験ができないか,を考えると良い.
  • 統計学が最強の学問なのは,汎用性の高さにある.(政治・教育・経営・スポーツなど)
  • 「観察」とは,対象を詳細に見たり測定したりして,そこから何かの真実を明らかにすること.
  • 「実験」とは,さまざまに条件を変えたうえで,対象を見たり測定したりして,そこから何らかの真実を明らかにする行為.
  • ランダム化比較実験がなければ,人類は「誤差のある現象」を科学的に扱うことはできなかった.
  • 「リンゴを落とせば加速しながら落下する」という現象ほど毎回同じようにうまくいくわけではない.
    → 誤差があるから.
  • 「誤差」への3つのアプローチ
    1. 実際のデータをまったく扱わず,ただ仮設やこういう事例がありました,という話だけをもとにして理論を組み立てる方法.
    2. うまくいった事例のみを結果として報告する方法.
    3. ランダム化を用いて,因果関係を確率的に表現しようとする方法.
  • 「ランダム化」と「ランダムサンプリング」は混同しやすい用語として区別しなければいけないが,ランダムにすることで推定結果の誤差が制御できる,というのは両者に共通した特徴である.
  • ランダム化してしまえば,比較したい両グループの諸条件が平均的にほぼ揃う.
  • 諸条件をランダム化してしまえば,平均的に比較したい両グループ間で同じになる.
  • ランダムにして,継続的にデータを集める.
    → より確実に「正しい判断」へと近づける.
  • ランダムとは,人間の意思が入り込まないこと.
    → 「確率的」ともいう.
  • 私たちにできることは,まずランダムさによって運を天に任すことであり,そして統計解析によって,その天の思し召しに耳を傾けることだけなのである.

 

第5章 ランダム化ができなかったらどうするか?

  • データ間の関係性を記述する,あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析という考え方.
  • 重要なのは,「実際の関係性」と「理論上の関係性」の違い.
  • 「平均値への回帰」
    → 実際のデータは,理論上の推測よりも「平均値に近づく」.
  • この世のすべての現象は,「バラつき」を持っている.
  • 「オリンピックの魔物」は,「平均値への回帰」.
  • バラつきを持つ現象に対する理論的な予測は,それほどうまくいかない.
    → きちんとデータをとって回帰分析を行い,関係性を分析する必要がある.
  • 「無制限にデータを得ればわかるはずの,真に知りたい値」を真値と呼ぶ.
    → たまたま得られたデータから計算された統計量が,どの程度の誤差で真値を推定しているかを数学的に整理することで,無限にデータを集めることなく,適切な判断を下せる.
  • 重回帰分析は,説明変数すなわち予測したい結果に影響する要因が複数ある状況へ拡張された回帰分析.
  • 現実にある目に見えない因果関係の「よく表している代替物」を,回帰分析によって作るから「回帰分析モデル」というわけである.

 

おわりに

  • 統計学の素晴らしいところは,「最善」への道を最も速く確実に示してくれるところ,ではないか.