Tom.notes();

Computer Scienceや読書のメモ

情報可視化 データ分析・活用のためのしくみと考えかた

 

情報可視化 データ分析・活用のためのしくみと考えかた

情報可視化 データ分析・活用のためのしくみと考えかた

 

 

はじめに

  • 本書では,「データ,情報は大量にあるものの,それに含まれる価値あるもの,自分にとって必要なものに気づけない」という現状を解決するために,人間にとって複雑・大規模でわかりにくいものを,視覚的にわかりやすく伝える技術・手法としての「可視化(視覚化)」を対象としている.
  • 処理結果を分析し,そこから知見を得て,アクションにつなげる作業は分析者である人間が行う必要がある.
  • 分析スキルが専門家だけのものではなく,リテラシーの一つとして当たり前のものとなるためには,可視化の果たす役割は非常に大きい.
  • 見える化」が大事といわれていても,価値あるデータや傾向に気づくためには,データ空間やその分析結果をどう見せるか,といった点が重要である.

 

第1章 情報可視化の基礎知識

1.1 可視化とは

  • 可視化(Visualization),あるいは視覚化や見える化という言葉には,以下の2通りの意味が考えられる.
    ・見えないものを見えるようにする
    ・見えにくいものを見やすくする
  • 工学分野においては後者の意味で使われることが多く,大量のデータや情報を利用者にわかりやすく提示するための技術を指す.
  • 人の認知能力を超えるような大量の情報を詰め込んだり,誤った解釈を誘うような提示をしてしまわないように注意を払う必要がある.
  • 可視化というと,単にデータをグラフィカルに提示すれば良いと誤解されている場合もあるが,それは正しい理解ではない.あくまでも,データから読み取れる情報を伝えたい相手(利用者)に適切に伝えるための手法が可視化である.
  • すべてのデータを見せるよりも,取捨選択をして提示するほうが効果的な場合もある.
  • センサなどにより従来取得不可能だったデータの収集が可能になるとともに,記憶装置の大容量化・低コスト化によって,データを廃棄することなく大規模に蓄積可能になったことなどが,可視化技術の普及の背景にある.
  • さらに,計算機の性能が向上し,大規模なデータを処理し,コンピュータグラフィックスとして表示するのが容易になったことで,可視化技術が利用しやすいものとなっている.

 

1.2 情報可視化と科学的可視化

  • 可視化の研究は,情報可視化と科学的可視化に大別される.
  • 本書で解説する情報可視化は,主にビジネスデータやテキストデータを対象とする場合が多い.
  • 情報可視化は,本質的に空間的ではないデータや情報を目に見える形式に変換する.
  • 科学的可視化が対象とするデータは主に2次元や3次元のデータ.
  • 科学的可視化では描画すべき構造に関する情報がデータ内に本質的に内在しているのに対し,情報可視化ではそのような本質的構造をもたないデータを対象とする点で異なる.

 

1.3 オーバービューとフォーカス

  • 最初にオーバービューを概観し,ズームやフィルターを適用した後,必要に応じて詳細を確認する.
  • 外れ値は平均値などの統計量に大きな影響を与えるため,分析の際に取り除く必要がある.
  • オーバービューによって外れ値の存在に気づき,その詳細にアクセスすることは,データ分析において有効な支援となりうる.

 

1.5 視覚変数

  • RGB色空間では,赤,緑,青それぞれの色だけに限れば,色の変化は連続的であるが,それらを合成して得られる色の変化は,数値の変化に対し連続的になるとは限らない.
  • このような場合,HSV色空間を用いる.色相(hue),明度(value, intensity),彩度(saturation)の3属性で色を表現する.
  • データ値と色の対応関係を定めたものをカラーマップという.

 

第2章 さまざまな可視化手法

2.3 統計グラフ

  • ヒストグラムにおいて,データをいくつの区間に分割するか(階級数)が定かではない場合の目安として,以下の公式がよく知られている.
    $k = 1 + \log_2 n$
    ここで,$n$はデータ数である.たとえば$n=255$のとき,$k=9$となるため,9区間程度に分割すれば良いことになる.
  • 分布の要約を表現する特徴量として,「代表値」と「ばらつき」が挙げられる.
  • データのばらつきに関する指標としては,標準偏差,四分位値がある.
  • 四分位値は,データを値の昇順に並べたとき,全体の25%,75%の位置にくるデータ値であり,それぞれ第1四分位値,第3四分位値とよぶ.
  • 代表値やばらつきに関する指標を組み合わせたデータ分布の要約提示の代表的なものとして以下があげられる.
    ・2数要約:平均値$+$標準偏差
    ・3数要約:中央値$+$四分位値
    ・5数要約:中央値$+$四分位値$+$最大・最小値

    f:id:tom0930:20181123180413j:plain

 

第3章 情報可視化システム

3.1 情報可視化システムの開発

  • ストーリーテリングにおいて重要な点は,ビューの作り手が読み取ってほしいことを,ビューを見る人に正しく伝えることにある.
  • 探索的データ分析は,データから新たな知見や仮説を得る目的で行われる作業であり,データの分布傾向などといったオーバービューの把握,詳細な情報へのアクセスなどから構成される.
  • ユーザが操作をしながらデータを理解し,必要なデータにアクセスできることが求められる.
  • 情報可視化システムを開発するにあたってまず考えなくてはならないのは,「何を可視化するか」,「どのように可視化するか」の2点である.対象とするデータに関して何を確認したいかにより,元データから構造を抽出するために行う前処理,および適した可視化方法を検討するところから始まる.

 

3.2 探索的データ分析支援のための情報可視化