Tom.notes();

Computer Scienceや読書のメモ

データサイエンス「超」入門

はじめに

  • 本書のメインテーマは「データの読み方」
  • データの特徴を理解して,背景に隠されている事象に思いを馳せて,データに違和感を覚え,ときには現場に足を運び,データが何を表現しているかを読み解く作業が「データを読む」という行為.
  • データの読み方を通じて,データへの理解,データの扱い方,データを分析する着眼点を身につける.

00. バイアスだらけの私にリテラシー

  • 「データの読み方」を鍛えるのに一番手っ取り早いのは,データを疑ってかかることであり,究極的に言えば人間の判断・行動を疑うこと.
  • リテラシーとは,適切に読み取り,適切に分析し,適切に表現する力.インプット,思考,アウトプットの3つを合わせてリテラシーと呼ぶ.どれが欠けていてもいけない.
  • 目に見える範囲だけで判断してはいけない.背景を読み取らなければいけない.
  • 「分析」には大きく分けて3つの型がある.課題発見型,課題解決型,結果検証型.
  • 解くべき問題を間違えれば,その後の分析は何の意味もない.
  • 分析とは個人の感想ではなく,物事を分解して「なぜ」を考える方法.そのためには,「数字」で表現するのが一番良い.

02. なぜネットと新聞・テレビで支持率がこんなに違うのか

  • 自分たちの信じたい数字が絶対で,それ以外の数字は「不正」だと信じて疑わない姿勢は,ネットでも新聞でも共通.
  • 調査をするには,聞く場所,聞き方,素性などに注意を払う必要がある.
  • ネットと新聞・テレビなどのマスコミで世論調査の結果が違うのは,こうしたバイアスが取り除けているか否かではないか.
  • 母集団から一部を抜き出した標本は,「味噌汁の味見」と同じ.
  • 何ら偏っていない,真の精緻な世論調査はどこにあるのか.そんなものどこにもなくて,なるべく偏っていない数字探しに,皆さん苦心しているというのが実際.

03. 結局,アベノミクスで景気は良くなったのか

  • 全体で見るとOKだけど,一つ一つを細かく見るとNGというのは,データ分析として考えれば,どこかで矛盾が起きているのに,全体をOKだと錯覚していると考えられる.
  • GDPという指標自体が日本全体の景気動向を表しきれていないのではないか.
  • GDPは経済の量を計測するが,質は計測できない.単に,国内で使われたお金の総額であり,生活の質とは何ら関係ない.

06. 人手不足なのにどうして給料は増えないのか

  • 人手不足の可能性の1つとして,人手が足りないのではなく,今まで10人必要だった仕事を2人少ない8人で対応していた仕組みに限界が現れた,と見えなくもない.
  • 企業がより多くの労働者を求めている=経済に活気がある,と考えるのが一般的だが,データから見ると,そうとは言えない業種がある.

07. 海外旅行,新聞,酒,タバコ...若者の◯◯離れは正しいのか

  • ある時点を切り出して,他と相対比較せず「高い!」「低い!」と言うのは個人の感覚に過ぎない.
  • 人口が減っているだけで割合は変わっていない.

08. 地球温暖化を防ぐために,私たちが今できることは何か

  • 回帰分析とは,簡単に言うとあるデータのモデル化(数式で表現すること)を行い,あるデータから別のデータを予測する分析手法の1つ.
  • そもそも「平均気温」は,地球温暖化を評価するための正しい指標なのだろうか.

10. 生活水準が下がり始めたのか,エンゲル係数急上昇の謎

  • 自分がイメージする範囲で数字を当てはめるから,勝手な想像が膨らむ.それこそが「バイアス」.
  • 私たちは往々にして,難しい事象に解りやすい答えを求めがち.様々な要因が密接に絡まって,結果として数%上昇した.

おわりに

  • 普段から接しているデータへの違和感,データ自体をそのまま受け入れる危うさ,何よりデータを読む私たちが抱えているバイアス.
  • データを触る前に,データについて考える.「このデータは正しいのか」「このデータは現実を反映しているのか」

関連記事

tom0930.hatenablog.com

tom0930.hatenablog.com

tom0930.hatenablog.com

tom0930.hatenablog.com

tom0930.hatenablog.com