データ分析入門( 4 )

33
1 デデデデデデデ4 デ4デ デデデデデデデデデデデデデデデ デデデデ

Upload: faunia

Post on 05-Jan-2016

60 views

Category:

Documents


0 download

DESCRIPTION

データ分析入門( 4 ). 第 4 章 グラフ表現とわかりやすさの工夫 廣野元久. 本章の概要. データから情報を読み取るためにはグラフで表現するのが分かりやすい グラフは直感的で分かりやすい 難しい理屈はいらない グラフ化のポイント 何を強調するのかを決め どんなグラフを利用するのかを決めよう 目的別に様々なグラフの紹介 グラフ化のポイント. 1. いろいろなグラフと グラフの構成要素. 1.1 棒グラフ 例 ) 頻度の違いを名義尺度のカテゴリーで分類 1.2 折れ線グラフ - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: データ分析入門( 4 )

1

データ分析入門( 4 )

第 4 章 グラフ表現とわかりやすさの工夫

廣野元久

Page 2: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 2/33

本章の概要

データから情報を読み取るためにはグラフで表現するのが分かりやすい

グラフは直感的で分かりやすい難しい理屈はいらない

グラフ化のポイント何を強調するのかを決めどんなグラフを利用するのかを決めよう

目的別に様々なグラフの紹介グラフ化のポイント

Page 3: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 3/33

1. いろいろなグラフと グラフの構成要素

1.1 棒グラフ例 ) 頻度の違いを名義尺度のカテゴリーで分類

1.2 折れ線グラフ例 ) 量的データを時点による変化の動きを確認

1.3 円グラフ例 ) 頻度データの割合を名義尺度のカテゴリーで分

1.4 帯グラフ 例 ) 頻度データの割合を順序尺度のカテゴリーで分

類    

Page 4: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 4/33

1. いろいろなグラフと グラフの構成要素

グラフデータから直感的に情報を読み取る情報伝達の有効な手段 ( 視覚から入る )

グラフの持つべき要件見ただけでデータの持っている内容が分かる誤解を生じないように表されている誰がやっても , 見ても間違いが少ない   

Page 5: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 5/33

1. いろいろなグラフと グラフの構成要素

グラフの使いこなし表現したい内容に応じたグラフを選ぶ ( 基礎 )グラフで強調する部分をきちんと表現 ( 応用 )

グラフの目的状況把握のため比較のため推移変化を把握するため関連を調べるため

など

Page 6: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 6/33

演習問題 (p42)

VTR 普及期に行った調査消費者がどのような時期に 1 台目の VTRを購入したか

何を表現し , どんなグラフを作るか

購入時期 人数1.1984 3 ( -)年 月以前 イノベータ 51

2.1984 4 1986 3 ( )年 月~ 年 月 初期採用者 156

3.1986 4 1897 3 ( )年 月~ 年 月 多数採用者 300

4.1987 4 1988 3 ( )年 月~ 年 月 採用遅滞者 75

Page 7: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 7/33

1.0  データの集計表 , 数値データ

細部にわたって詳細に記述してあっても訴える力が弱く , 注意しないと重要な情報を見逃してしまう

グラフ化して焦点を絞ろう料理で言うと ,--- どんなパスタを作ろうか

トマトソース , バジルペースト , 生うに , 鳥 肉のミモモンチ ,

ピーマン , パプリカ , トマト , バジル , にんにく , 玉葱

購入時期 人数1.1984 3 ( -)年 月以前 イノベータ 51

2.1984 4 1986 3 ( )年 月~ 年 月 初期採用者 156

3.1986 4 1897 3 ( )年 月~ 年 月 多数採用者 300

4.1987 4 1988 3 ( )年 月~ 年 月 採用遅滞者 75

Page 8: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 8/33

1.1 棒グラフ

横軸に採用時期棒の長さが採用者数に対応

0

50

100

150

200

250

300

350

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

)(人

採用者数

基線はゼロが基本カテゴリーの順番に意味を持たせる場合にはその順番に , そうでなければ , 頻度の多い順に並べ換えると見良い

忘れずに ( テキスト参照 )

軸の説明目盛や単位分かりやすい凡例タイトルと図番号図 4.1 :棒グラフ

Page 9: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 9/33

1.2 折れ線グラフ

図 4.2 :折れ線グラフ

横軸に採用時期ポイントが採用者数に対応ポイントとポイントの間を線で結ぶ

時点間の比較人数の推移を強調

カテゴリーの順番に意味 ( 多くの場合は時点 ) がある場合に , その推移変化を把握するために有効なグラフ横軸がカテゴリーの場合は破線 , 数値の場合は実線が基本

0

50

100

150

200

250

300

350

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

)(人

採用者数

Page 10: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 10/33

1.3 円グラフ

3.多数採用者51%

4.採用遅滞者13%

1.イノベータ9%

2.初期採用者27%

1.イノベータ2.初期採用者3.多数採用者4.採用遅滞者

扇形の面積が採用者数に対応全体を 1(100% )としたときの割合が一目でわかる

図 4.3 :円グラフ基線は 12 時の位置に置くと見やすいカテゴリーの順番に意味がない場合は頻度 ( 割合 ) の多いものから並べ換えると見やすい

Page 11: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 11/33

1.4 帯グラフ

0 100 200 300 400 500 600

採用者数

)(人

1.イノベータ2.初期採用者3.多数採用者4.採用遅滞者

長方形の面積が採用者数に対応全体を 1(100% )としたときの割合を表す場合と ,

頻度で表す場合がある

図 4.4 :帯グラフカテゴリーの順番に意味がない場合は頻度 ( 割合 ) の多いものから並べ換えると見やすい

Page 12: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 12/33

2 やや複雑なデータの表現

項目が複数ある場合のグラフによる表現をしてみよう

カテゴリー 高い やや高い 妥当 安い-イノベータ 28 10 12 1

初期採用者 42 45 54 15

多数採用者 51 48 156 45

採用遅滞者 9 11 36 19

表 4.2 :購入時期ごとの価格感評価

何を表現し , どんなグラフを作るか

Page 13: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 13/33

2.0クロス表 ( 分割表 )

購入時期と価格感という 2 つの変量のカテゴリーをクロス( 分割 ) して ,組合せた , 頻度の表をクロス表と呼ぶクロス表の目的は 1 つの変量で分類して ,残りの変量の分布を比較する

購入時期により分類して ,価格感の違いを調べる価格感のいだき方により分類して , 購入時期の違いを調べる上と下では , 目的が異なるからグラフの表現が変わるかも知れない ?

表 4.2 :購入時期ごとの価格感評価カテゴリー 高い やや高い 妥当 安い

-イノベータ 28 10 12 1

初期採用者 42 45 54 15

多数採用者 51 48 156 45

採用遅滞者 9 11 36 19

Page 14: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 14/33

2.1 グラフの並置 ( 購入時期で分類 )

まず , 単純にグループごとにグラフを作り , 並べてみる

図 4.6 : 4 つの折れ線グラフによる表現頻度の違いに着目している場合には ,縦軸のスケールは統一する

1.イノベータ

020406080

100120140160

高い やや高い 妥当 安い

2.初期採用者

020406080

100120140160

高い やや高い 妥当 安い

3.多数採用者

020406080

100120140160

高い やや高い 妥当 安い

4.採用遅滞者

020406080

100120140160

高い やや高い 妥当 安い

Page 15: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 15/33

2.1 グラフの並置 ( 購入時期で分類 )

まず , 単純にグループごとにグラフを作り , 並べてみる 高い

020406080

100120140160

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

やや高い

020406080

100120140160

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

妥当

020406080

100120140160

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

やや高い

020406080

100120140160

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

図 4.5‘ : 4 つの棒グラフによる表現頻度の違いに着目している場合には ,縦軸のスケールは統一する

Page 16: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 16/33

2.1 グラフの並置 ( 割合を比較する )

まず , 単純にグループごとにグラフを作り , 並べてみる 1.イノベータ

高い

やや高い

妥当

安い

2.初期採用者

高い

やや高い

妥当

安い

3.多数採用者

高い

やや高い

妥当

安い

4.採用遅滞者

高い

やや高い

妥当

安い

図 4.7 : 4 つの円グラフによる表現

分類するカテゴリー数が

多いとみずらい

Page 17: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 17/33

2.2  一覧性を備えたグラフ( 1)

比較のために複数のグラフに目を走らせる代わりに 1 つの複合グラフにまとめよう

0

20

40

60

80

100

120

140

160

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

)(人

高いやや高い妥当安い

図 4.8 :一覧性を備えたグラフ

Page 18: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 18/33

2.2  一覧性を備えたグラフ( 2)

複数の折れ線を 1 つのグラフにまとめると ,一覧性が高く , 分布を比較しやすい

0

20

40

60

80

100

120

140

160

1.イノベータ 2.初期採用者 3.多数採用者 4.採用遅滞者

)(人

高いやや高い妥当安い

図 4.9 :まとめたグラフ

Page 19: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 19/33

2.2  一覧性を備えたグラフ( 3)

ドーナッツグラフは一覧性は確保できるが 内側と外側では外側が強調されやすい

高いやや高い妥当安い

図 4.10 :ドーナッツグラフ

Page 20: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 20/33

2.2  一覧性を備えたグラフ( 4)

割合だけを比較したいなら , 帯グラフの並置が分かりやすい

0% 20% 40% 60% 80% 100%

1.イノベータ

2.初期採用者

3.多数採用者

4.採用遅滞者

高いやや高い妥当安い

図 4.11 :帯グラフの並置

Page 21: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 21/33

2.2  一覧性を備えたグラフ( 4)

高い

やや

高い

妥当

安い

1.イ

ノベ

ータ

2.初

期採

用者

3.多

数採

用者

4.採

用遅

滞者

0

20

40

60

80

100

120

140

160

1.イノベータ2.初期採用者3.多数採用者4.採用遅滞者

図 4.12 :立体 (3D) 棒グラフ

3D 棒グラフは , 情報の損失が少ないが ,かえって分かりずらくなることもある生 は高級な食材であウニるが , パスタに用いるには注意が必要で , 誤ると , とっても下品な味になる

Page 22: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 22/33

Excel と JMP で追試をしてみよう

このデータを Excel に取り込んで追試をしてみよう。

カテゴリー 高い やや高い 妥当 安い 計イノベーター 28 10 12 1 51初期採用者 42 45 54 15 156多数採用者 51 48 156 45 300採用遅延者 9 11 36 19 75

計 130 114 258 80 582

Page 23: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 23/33

JMP のテーブル機能で積み重ねられたデータ

JMP のテーブルメニューを使うと列の積み重ねなどテーブル操作が可能

Page 24: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 24/33

2.3  カテゴリーどうしの結びつきを

強調したグラフ ( 対応分析 )

初期採用者

高い

-イノベータ

やや高い

妥当多数採用者

安い

採用遅滞者

- 2

- 1.5

- 1

- 0.5

0

0.5

1

1.5

2

- 1.5 - 1 - 0.5 0 0.5 1 1.5 2 2.5 1第 軸

2第 軸

採用時期価格感

図 4.13 :双対尺度法によるグラフ

対応分析は多変量解析の手法である

Page 25: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 25/33

3. 分かりやすさの工夫

かくし味を有効に使おうタラコパスタにかくし味として , 茶を少々加コブえるとタラコパスタにパンチが効いて美味しい

グラフもただ通り一辺倒に作るのではなく ,分析者がちょっとした工夫を付け加えることで , 分析者の主張が相手に伝わりやすい

Page 26: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 26/33

演習問題 (p52)

伊藤 ,松本 ,吉岡さんの車の好みを比較しよう

車種 伊藤さん 松本さん 吉岡さんMR2 6.2 8.9 2.1

カローラ 7.3 8.4 3.4

クラウン 8.5 7.4 4.4

コロナ 7.5 8.6 3.5

サーフ 9.3 6.2 5.4

セリカ 6.4 9.5 2.3

セル シオ 8.6 7.3 4.5

プラド 9.1 6.5 5.2

表 4.3 :いろいろな車種についての好み

今度の変量は多い

分析の目的は (1)回答者の好みのパターンは ? (2)車種のそれぞれはどのように好まれているか ? などなど・・・

Page 27: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 27/33

3.1 並べかえによる分かりやすさの向上

0

2

4

6

8

10

MR2

セリカ

サーフ

プラド

セルシオ

クラウン

カローラ

コロナ

伊藤さん松本さん吉岡さん

0

2

4

6

8

10

MR2

カローラ

クラウン

コロナ

サーフ

セリカ

セルシオ

プラド

伊藤さん松本さん吉岡さん

図 4.14 :レーダーチャート 図 4.15 :並べかえた レーダーチャート

スポーツカー

RV

高級

ファミリー

Page 28: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 28/33

3.2 データの質的情報と量的情報

(伊藤 ,吉岡 ) と松本の車の好みが違いそう ---->質的な結論 (反応のパターン )

配点の付け方も(伊藤 ,松本 ) と吉岡では違う ---> 量的な結論 (回答者の評価の厳しさ )アンケート調査では ,回答者のパターンと回答者の評点のつけ方の違いに要注意 !!!

目的によってはデータ分析において ,回答者の評価の厳しさを揃えることがある ( 表の行方向の標準化 )

Page 29: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 29/33

サイエンス領域のグラフ

Page 30: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 30/33

4 まとめ

グラフは ,相手に自分の主張を伝える強力な道具

道具をうまく使いこなす (包丁を食材別に使いこなすよ うに )

自分になじんだ道具にしよう ( ちょっとした工夫が説得 力を増す )

手を加えすぎて ,  かえって難解にならないように注意

Page 31: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 31/33

おまけカメラデザインの評価

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

小さ

く見え

るリズ

ミカル

な華奢

な嫌

いな

カジュア

ルな

よそ

よそ

しい

古風

なあ

りふ

れた

華や

かな

使い

にくそ

うな洗練

された

アダ

ルト向

きな

飽き

のこ

ない

高価

な力

強い

厚く見

える 形容詞

スコア

の平均

-2-1.5-1-0.500.511.522.53

平均

の差

AデザインBデザイン

廣野( 1998);MA研の実習から カメラデザインの評価:品質管理誌 11月号

Page 32: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 32/33

宿題のデータ:水質調査

Excel または JMP に カット & ペーストしなさい

AA水質 A水質 B水質 C水質北海道 14 4 11 0東北 56 33 25 0関東 30 49 47 2中部 75 108 19 0近畿 46 58 12 0中国 42 24 7 0四国 15 21 3 1九州 75 41 21 0計 353 338 145 3

Page 33: データ分析入門( 4 )

第 4  章 グラフ表現とわかりやすさの工夫 廣野元久 &高橋行雄 33/33

宿題のデータ: J リーグ

Excel または JMP に カット & ペーストしなさい

ジュビロ ヴュルディ ガンバ コンサドーレ磐田 川崎 大阪 札幌

A ( )記者 読売新聞・大阪 1 位 5 位 10 位 17 位B ( )記者毎日新聞・東京 1 位 12 位 10 位 16 位C ( )記者 報知新聞・東京 3 位 6 位 13 位 14 位D ( )記者 スポーツニッポン・大阪 3 位 6 位 2 位 17 位E ( )記薯毎日新聞・大阪 4 位 9 位 5 位 18 位F ( )記者 スポーツニッポン・東京 2 位 9 位 15 位 17 位G ( )記者 報知新聞・大阪 2 位 12 位 8 位 17 位H ( )記者 読売新聞・東京 2 位 5 位 13 位 16 位