2016年12月18日aitc女子会...

102
R 入門編 2016 12 18 AITC女子会 「データ分析勉強会第7回& 交流会」資料 1.01版(公開用PDF) 1

Upload: aitcjp

Post on 24-Jan-2017

77 views

Category:

Internet


0 download

TRANSCRIPT

R 入門編

2016年12月18日AITC女子会 「データ分析勉強会第7回&交流会」資料 1.01版(公開用PDF)

1

はじめに 本資料作成に当たり本日の講師が所属している日科技連

SQiPコミュニティ 関東メトリクス・データ分析勉強会のR関係資料を参考にしています。https://sites.google.com/site/kantometrics/home

上記勉強会サイトに記載されている情報ならびに資料の内容を一部または全面的

に引用していますので、資料の著作権は部分的に上記勉強会サイトの作成者に

帰属します。

ただし、一部の画像等の著作権は原著作者が所有しています。

また、この資料の情報や資料を用いて行う一切の行為についていかなる責任も負い

ません。被った被害・損失に対してもいかなる場合でも一切の責任を負いません。

2

勉強会へ参加を希望される方へソフトウェアメトリクス、品質管理、統計分析等に興味をお持ちの方の参加を歓迎いたします。

勉強会に参加希望される方へ(ML参加のお誘い)

オフラインで交流できない期間用に、ML(メーリングリスト、Googleグループ利用)を設けてい

ます。

MLに参加すると、勉強会の情報が優先的に入手できるようになります。

お申込みは勉強会にて申し出て頂くか、以下のグループに参加申請してください。

http://groups.google.com/group/kanto-metrics?hl=ja

たとえば、こういった話題は、ぜひMLをお使いください。

*****************

★自己紹介

気が向いた方は、自己紹介メールでもして頂けるとうれしいです。

例えば、以下辺りを紹介して頂けると良いと思います。

・ご自身とデータ分析の関わり

・勉強会を知ったきっかけ

など

3

無料のお勉強情報 おススメ:データ分析勉強会サイト

https://sites.google.com/site/kantometrics/home

4

5

次回の予告2017年新春お年玉企画 1月21日土曜

有料の統計データ分析研修を数多く持つデータ分析勉強会主宰の小池先生が、AITC女子会向けに特別講義していただけます!データ分析、統計分析を学ぶ絶好のチャンス!

小池氏より:オーソドックスに基本中の基本をみっちりやります。1日掛けてやる内容のおいしいところだけダイジェストにして構成しました。---------------------ソフトウェアメトリクス統計分析入門

数学の知識などは一切不要です。現場エンジニア目線の直観的で易しい解説と実践的な演習で、明日からバリバリ統計分析を使えるようになります。

1.なぜソフトウェアメトリクス分析に統計手法が必要か2.データの良否を判定したい3.得られたデータの差異を客観的に検証したい

"R"とは? R言語の慣用的な呼び方

統計解析向け言語・開発実行環境

基礎的な統計学の知識が必要

CRANからの一元的配信◦ The Comprehensive R Archive Network

CRANの読み方は「しーらん」派と「くらん」派でわかれるそうです。

◦ オープンソース、マルチプラットフォーム対応

6

“R”の利用環境について Rを単体起動した”R Console”はCUIで初学者が使用するのは熟練がいりそう

利用者のタイプに合わせてRの利用環境を拡張するのがおススメ

Rのプログラミング知識より手っ取り早くデータを統計的に分析したい方向けR Commander が使いやすいです

Rのプログラミングを本格的にやりたいR Studio の使用がお勧めです

7

R + R Commander

R言語プログラミングの知識が無くてもできます

Rを使って統計の基礎を復習しながら簡単なデータ分析をしてみよう

8

Rを起動する Rの起動は管理者権限で実行する

マウス右クリック→“管理者として実行“

9

プロパティ設定→互換性“管理者としてこのプログラムを実行する“

Rの演習環境を設定する Rの作業ディレクトリを設定する

10

ファイル→ディレクトリの変更...

作業用ディレクトリ設定C:¥R¥data

Rcmdrを起動する Rcmdrを起動する◦ [パッケージ]-[パッケーパッケージの読み込み…]から起動する 一覧から「Rcmdr」を選択して[OK]ボタンをクリックする

◦ コマンドで起動 library(Rcmdr)

11

Rcmdrを起動する Rcmdrを再起動する◦ 間違ってRcmdrを終了させてしまったら Commander()

Rcmdrを解放する◦ あんまり使うことはないと思いますが… detach("package:Rcmdr", unload=TRUE)

12

Rcmdrを起動する

13

Rcmdrのメニュー概説 [データ]◦ データセットを扱うためのメニュー

[統計量]◦ 統計量算出、検定、分析、モデル適合(回帰分析)

[グラフ]◦ 各種グラフの描画

[モデル]◦ モデル適合結果に対する診断等

[分布]◦ 各種分布に基づく計算、描画

[ツール]◦ R/Rcmdr用のパッケージ選択、オプション設定

14

Rcmdrのメニュー概説 [統計量] [要約] 各種統計量の算出、および、統計量に対する検定

[分割表]分割表に対する検定

[平均]平均値に対する検定

[比率]比率に対する検定

[分散]分散に対する検定

[ノンパラメトリック検定]

◦ ノンパラメトリックな検定

[次元解析]

◦ 主成分分析、因子分析、クラスタ分析等の多変量解析

[モデルへの適合]

◦ 回帰分析関係

統計量とは?(Wikipedia)要約統計量:標本の性質を表すもの順序統計量:大小の順番で表すもの検定統計量:検定に利用するための

これらを算出するのが[統計量]メニュー青色のメニューは全て検定に関わるもの

15

標本から仮説の正しさを判定することを統計的仮説検定

Rcmdrのメニュー概説 [グラフ]

[色パレット]

◦ 利用する色を変更する

[インデックスプロット…]

[ヒストグラム…]

[密度推定…]

[幹葉表示…]

[箱ひげ図…]

[QQプロット…]

----------

[散布図…]

[散布図行列…]

› [折れ線グラフ…]

› [条件付き散布図]

› [平均値のプロット…]

› [ドットチャート]

----------

› [棒グラフ…]

› [円グラフ…]

----------

› [3次元グラフ…]

› [グラフをファイルに保存]

16

R Commanderのサンプルデータを使ってデータ分析

17

利用するデータセットについて データセット iris(Edgar Anderson's Iris Data)

◦ 別名:フィッシャーのあやめのデータ

北米に生息する菖蒲の萼片と花弁に関するデータ

◦ データ項目はSepal(しーぱる)と

Petal(ぺたる)

Sepal.Length : 萼片の長さ

Sepal.Width : 萼片の幅

Petal.Length : 花弁の長さ

Petal.Width : 花弁の幅

Species : 菖蒲の種類(品種)

setosa

versicolor

virginica

出典:http://biostor.org/reference/11559

Sepal

Petal

18

データの読み込み Rcmdrでサンプルデータを読み込む

◦ [データ]-[パッケージ内のデータ]-[アタッチされたパッケージからデータセットを読み込む…]を実行する

◦ 「dataset」-「iris」を選択し[OK]ボタンを押下する

◦ または、[データセット名を入力]欄に「iris」と入力して[OK]ボタンを押下する

◦ または

data(iris)

19

データ全体を眺めてみる Rcmdrでデータが読み込まれたことを確認する

◦ Rcmdrの画面上部「データセット:」の部分に「iris」と表示されている

◦ [iris]ボタンでデータセットの

選択が可能(複数読み込んだ

場合)

◦ [データセットを表示]ボタンを

押下して左図のような「iris」

ウィンドウが表示される

20

グラフを眺めてみる [グラフ] ヒストグラムデータの分布傾向を確認するためによく利用されます

[グラフ]-[ヒストグラム]を実行する

「Petal.Length」を選択し[OK]ボタンを押下する

21

グラフを眺めてみる [グラフ] ヒストグラム

横軸

データをある一定の範囲ごとに分けた各区間、階級

縦軸

各区間に入るデータの個数、度数、頻度

例)左図のようなふた山型のヒストグラムになった場合、母集団の異なるデータが混在していると考えられる要因を突き止め層別をし、ヒストグラムを作り直す必要がある

22

グラフを眺めてみる [グラフ] ヒストグラム(層別)母集団の異なるデータ混在の影響を層別してグラフ化することで取り除く[グラフ]-[ヒストグラム]を実行する

「Petal.Length」を選択し、[層別のプロット]ボタンを押下する層別変数 [Species]を選んでOK押下する

23

グラフを眺めてみる [グラフ] ヒストグラム(層別)

層別=種類別に分けてグラフからデータの傾向を眺める

24

グラフを眺めてみる [グラフ] 箱ひげ図(boxplot)◦ データの分布傾向(バラツキ)を確認するためによく利用されます

25

箱ひげ図の見方

26

𝑚𝑎𝑥 最大値 (外れ値を除く)

上ヒンジ第3四分位点

全データの最小値から75%点

median 中央値 (第2四分位点)

下ヒンジ 第1四分位点

全データの最小値から25%点

𝑚𝑖𝑛 最小値 (外れ値を除く)

𝑚𝑎𝑥

四分位範囲(IQR)𝐼𝑄𝑅 =上ヒンジ−下ヒンジ

データのばらつきを示す統計量。

外れ値

上ヒンジ + 1.5 × 𝐼𝑄𝑅 より大きい値

下ヒンジ− 1.5 × 𝐼𝑄𝑅 より小さい値

箱から箱の大きさの1.5倍より離れた値が外れ値となる。

𝑚𝑖𝑛

𝐼𝑄𝑅 𝑚𝑒𝑑𝑖𝑎𝑛

IPA Software Engineering Centerより引用

グラフを眺めてみる [グラフ] 箱ひげ図(層別)

【簡単な演習】層別=種類別に分けてグラフからデータの傾向を眺めて

「何がグラフから読み取れるか考えてみてください」

27

要約統計量を眺めてみる

要約統計量=「データ全体の傾向」を数値で考えたもの

[統計量]◦ [要約] [アクティブデータセット] summary()

各データ項目に対する最小値、中央値、平均値、最大値、分位値を表示します

非数値のデータ項目(因子)に対しては、個々のデータ数を表示します

28

要約統計量を眺めてみる

要約統計量=「データ全体の傾向」を数値で考えたもの

最小値→第1四分位→中央値→平均値→第3四分位→最大値→

29

要約統計量を眺めてみる

[統計量][要約]

[数値による要約] numSummary() 任意のデータ項目に対する平均値、標準偏差、平均の標準誤差、分位範囲、変動係数、歪度、尖度の中から任意の項目を表示します

30

中心位置を推測するための統計量

平均

𝑥 =𝑥1 + 𝑥2 + ⋯+ 𝑥𝑛

𝑛=

𝑖=1𝑛 𝑥𝑖

𝑛

メディアン (中央値) 𝑥

データを大きさの順に並べて

データが奇数個ならば中央の値

データが偶数個ならば中央の2つの値の平均値

最頻値

データの中で最も頻繁に出現する値

後述するヒストグラムにおいて、棒状のグラフが最も高い (頻度の最

も多い) 区間の中心値

31

メディアン (中央値) や最頻値は異常値や外れ値の影響を受けにくい。このような統計量はロバスト (頑健) であるといいます

代表値と呼ばれ、たくさんのデータをひとつの数値で表す

さらにグラフを眺めてみる [グラフ] 散布図2変数のデータの同士の関連性を確認するためによく利用されます2種類のデータを横軸と縦軸に取り、データを点でプロットしたグラフで、

2種類のデータの相関を観察するために作成します

32

さらにグラフを眺めてみる [グラフ] 散布図「Petal.Length」と「Petal.Width」を選択し[OK]ボタンを押下する

33

さらにグラフを眺めてみる [グラフ] 散布図

34

さらにグラフを眺めてみる [グラフ] 散布図(層別)

【簡単な演習】層別=種類別に分けてグラフからデータの傾向を眺めて「何がグラフから読み取れるか考えてみてください」

35

さらにグラフを眺めてみる [グラフ] 散布図行列データの同士の関連性を確認するためによく利用されます

36

さらにグラフを眺めてみる [グラフ] 散布図行列「Petal.Length」,「Petal.Width」,「Sepal.Length」,「Sepal.Width」を

選択し[OK]ボタンを押下する

37

さらにグラフを眺めてみる [グラフ] 散布図行列 散布図行列

このグラフの意味は、多数の変数を組み合わせて散布図にしたものです。

この散布図行列を見れば、どのデータの組み合わせで「正の相関・負の相関・相関なし」のどれに該当するのかを一目でざっくりわかると思います。

もちろんこれだけで何か統計的な結論を出せるわけではありませんが、詳細な分析をするデータを絞り込む際に活用します。

38

散布図に回帰直線を表示する最小2乗直線(回帰直線)このように2変量に強い相関関係がみられるとき、それをよくあらわす直線が存在します。その直線を「回帰直

線」といいます

オプションの最小2乗直線をチェックする

グラフを表示してみてください

39

グラフと要約統計量を眺めて傾向からデータの本来持つ性質についての可能性(仮説)を考えてみる

グラフ 要約統計量

仮説

40

ヒストグラムで身近な「代表値~ 平均・中央値・最頻値~」を眺めてみる 厚生労働省 国民生活基礎調査を見てみよう

http://www.mhlw.go.jp/toukei/list/20-21kekka.html

41

平成7年から比較してどんなことが言えるのでしょうか?考えてみてください

R Commanderへ外部のデータを使ってデータ分析

42

利用するデータセットについて データセット football01.xlsx

◦ 日刊スポーツから引用

◦ http://www.nikkansports.com/soccer/japan/member/jp-

member01.html

◦データ項目は A代表、五輪代表、U-20代表、U-17代表名前、位置、背番号、所属、生年月日、年齢、身長、体重、代表(A代表、五輪代表、U-20代表、U-17代表)

43

利用するデータセットについて データセット football01.xlsx

44

データの読み込み RcmdrでExcelファイルからデータを読み込む

◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する

使用するファイル : football01.xlsx

45

演習データの読み込み ダイアログボックスの設定

◦ データセット名を入力 : Dataset01

◦ 表:A

46

演習データの読み込み [ OK ] でExcelデータが読み込まれます。

データセットを表示するで内容を確認する

データセットがDataset01を確認する

47

データ分析の基本をやってみよう

1. データから最初にグラフを書いてみるヒストグラム、箱ひげ図

2. 要約統計量を見てみるこれによってデータの全体的傾向をつかんでみる

3. 散布図または散布図行列で関連性を確認してみる

4. 傾向からデータの本来持つ性質についての可能性(仮説)を考えてみる

48

Rで最頻値を求めてみよう

49

C:¥R¥data¥mode1.txtファイルをメモ帳やテキストエディタで開きます

テキストデータを全部選択してRcommanderのRスクリプトというウィンドウへ貼り付けます

Rで最頻値を求めてみよう

50

Rスクリプトウィンドウでコマンドの行にカーソル位置を合わせてCTRL+Rで1ラインづつ実行します。

平均を利用したデータの散らばり具合

分散散らばりの程度を指標化した数値

標準偏差分散の平方根を取って元の単位に戻した数値散らばりの程度を指標化した数値

51

平均を利用したデータの散らばりの指標 - 標準偏差(11月分修正)

52

53

平均を利用したデータの散らばりの指標 - 標準偏差

平均

標準偏差5.7

平均 178.48CM

標準偏差 5.7CM

「データが平均値の周辺にどのくらいの広がりや散らばりを持っているか」ということを表す統計量です。

54

平均を利用したデータの散らばりの指標 - 標準偏差

Rcommanderで確認してみましょう

標本標準偏差と母標準偏差

55

偏差とはデータのばらつきの度合いを表すものです。 偏差には二つの種類がありますので、注意が必要です。ひとつは標本標準偏差です。標本標準偏差のことを不偏標準偏差 (母標準偏差の不偏推定値)ということもあります。 標本標準偏差を求めるエクセルの関数は、「STDEV」です。 もうひとつは母標準偏差があり、こちらはエクセルの関数では、「STDEVP」があります。「STDEV」と「STDEVP」の二つの偏差は呼び名は似ていますが、 考え方の上で大きな違いがありますので、きちんと理解しておくことが大切です。

標本標準偏差では、得られたデータは全体の集団(これを母集団と呼びます)の一部であり、全体の集団から抜き取られた データである、という考えに基づいています。

母標準偏差は、得られているデータすべてが考える対象の集団の要素である場合に使います。

標本標準偏差:標本の個数:nとするところをn-1と置き換えて計算する母標準偏差:標本の個数:n

nが大きくなると次第に両者の偏差の値は近づいてきます。 このことからも分かるように、母集団の偏差を精度良く推定するためには、サンプル数をたくさん取ることが必要です。

56

平均を利用したデータの散らばりの指標 - 標準偏差

標準偏差は、平均値と合わせて見ることによって、データを正しく把握することができます。なぜ「平均値」だけでは、正しく把握できないのでしょうか?

りんご

品種 平均重量 100グラム単価 売価

①アップルペン 200グラム 150円 200円

②あっぽーぺん 200グラム 100円 200円

あなたは、200グラムのりんごが良く売れる果物屋さんを経営している立場で、PPAP効果でりんごブーム到来のため10個仕入れて売るなら、どちらを仕入れますか?

どちらも平均200グラムで色も味も同じとします。

単価の安い「あっぽーぺん」仕入れることにしました。

正しい判断でしょうか?

57

平均を利用したデータの散らばりの指標 - 標準偏差

注文してから標準偏差のデータを仕入れ先いただきました

りんご

品種 平均重量 100グラム単価 売価 重さ標準偏差

①アップルペン 200グラム 150円 200円 5

②あっぽーぺん 200グラム 100円 200円 100

①アップルペン バラツキの範囲 195グラム~205グラム

②あっぽーぺん バラツキの範囲 100グラム~300グラム

届いた②のりんごは 100グラムが5個 300グラムが5個でした。200グラムのりんごが良く売れるのに200グラムぐらいのリンゴはゼロ

58

中央値利用したデータの散らばりの指標 –パーセンタイル

演習データの読み込み RcmdrでExcelファイルからデータを読み込む

◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する

使用するファイル : football01.xlsx

59

データの読み込み ダイアログボックスの設定

◦ データセット名を入力 : Dataset02

◦ 表:ALL

60

61

中央値を使った散らばりの指標 – 四分位、パーセンタイル、箱ひげ図

Rcommanderで要約統計量を確認する

身長の中央値は?

身長の範囲は?

62

中央値を使った散らばりの指標 – 四分位、パーセンタイル、箱ひげ図

中央値

四分位範囲

Q1 Q3

63

中央値を使った散らばりの指標 – 四分位、パーセンタイル、箱ひげ図

中央値

四分位範囲

Q1 Q3

75パーセンタイル

25パーセンタイル

64

中央値を使った散らばりの指標 – 四分位、パーセンタイル、箱ひげ図

中央値

四分位範囲

Q1 Q3

75パーセンタイル

25パーセンタイル

四分位範囲×1.5

四分位範囲×1.5を超えなくてデータのあるところまで

65

中央値を使った散らばりの指標 – 四分位、パーセンタイル、箱ひげ図

Rcommanderで箱ひげ図を確認して比較してみます

66

データとデータの関係の見方 – 相関係数

相関とは一方の値が変化すれば、他方の値も変化するという、2つの値の関連性

演習データの読み込み RcmdrでExcelファイルからデータを読み込む

◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する

使用するファイル : saitamal01.xlsx

67

データの読み込み ダイアログボックスの設定

◦ データセット名を入力 : saitama

68

注:使用するデータは正規分布とは言えないため計算方法を理解してください。

データとデータの関係の見方 – 相関係数

69

Rcmdrで散布図を表示する。

◦ 外国人数とアジアエスニックレストラン

データとデータの関係の見方 – 相関係数

70

データとデータの関係の見方 – 相関係数

71

相関係数は相関行列で求める。

◦ 外国人数とアジアエスニックレストラン

データとデータの関係の見方 – 相関係数

72

相関係数は相関行列で求める。

◦ 外国人数とアジアエスニックレストラン

相関係数は 0.692

相関係数 計算の仕組み

73

共分散

相関係数

データとデータの関係の見方 – 相関係数

74

オープンデータの活用

◦ 国勢調査の活用

婚活のため未婚者の多い地域へ転居を考えたとき、未婚者の多い地域

はどんな特徴があるのか?

横浜市神奈川区のデータを使ってみる

・ 未成年の割合の多い地域?

年齢(5歳階級)、男女別人口(総年齢、平均年齢及び外国人-

特掲) (町丁・字別)

・ 未婚者の多い地域は?

配偶関係(3区分)、男女別15歳以上人口 (町丁・字別)

・ 民営の借家が多い地域では?

住居の種類・住宅の所有の関係(6区分)別一般世帯数、一般世帯

人員及び1世帯当たり人員 (町丁・字別)

国勢調査小地域集計(横浜市)

http://www.city.yokohama.lg.jp/ex/stat/census/kokucho1010/machibetu/

75

演習データの読み込み RcmdrでExcelファイルからデータを読み込む

◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する

使用するファイル : kanagawa01.xlsx

76

Excelインポートダイアログボックスの設定データセット名を入力 : kanagawa

演習 二つの値を選んで散布図を表示して相関を確認してみてください。

相関行列で相関係数を求めてみてください。

結果について考えてみてください。

77

78

データとデータの関係の見方 – 相関係数

相関係数の値 相関の強弱

1~0.7 強い正の相関

0.7~0.4 やや相関あり、中程度の正の相関

0.4~0.2 弱い正の相関

0.2~0~ー0.2 ほとんど相関無し

-0.2~-0.4 弱い負の相関

-0.4~ー0.7 やや相関あり、中程度の負の相関

-0.7~ー1 強い負の相関

相関係数の値と評価基準

79

データとデータの関係の見方 – 相関係数

相関係数はー1~1の範囲の値

相関係数は直線的な関係を示す

1に近いほど直線的な正の強さ

-1に近いほど直線的な負の強さ

相関係数は因果関係を表す指標ではない

相関関係は2つの事象が関連して生じる一定した時間的方向性がない例:数学の成績と物理の成績

80

参考:因果関係

因果関係とは2つ以上のものの間に原因と結果の関係があると言い切れる関係

原因と結果の関係は一方通行

原因→結果でしか成り立たたない

例:気温が上がる(原因)と清涼飲料の消費が上がる(結果)

81

データとデータの関係 – 回帰分析

単回帰分析について

回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計します。従属変数(目的変数)とは、説明したい変数(注目している変数)を指します。独立変数(説明変数)とは、これを説明するために用いられる変数のことです。

1つ(単回帰分析)の説明変数と、1つの目的変数の関係を求め、説明変数から目的変数を推定します。

目的変数Y説明変数 X

Y = (回帰係数または決定係数:グラフの傾き)× X + グラフの切片

データとデータの関係 – 回帰分析

先の演習で使用したデータセット kanagawa01 を使用する

〔統計量〕-〔モデルへの適合〕-〔線形回帰〕を使用する。

データとデータの関係 – 回帰分析

「未婚比率」を説明変数「未成年比率」で推定してみる

データとデータの関係 – 回帰分析

R Commanderの出力結果を確認する

残差分布の四分位範囲

切片、傾きの推定値検定結果

決定係数

データとデータの関係 – 回帰分析

Coefficients:の解説

Estimate:係数Std.Error:標準誤差t value:t値pr(>|t|):p値Intercept:切片

回帰分析において y=a+bx は b=0 となることはあってならず、b=0となるとy=a となり、x は y に影響を与えないことになる。それでは回帰分析が成立しないので(ここでいう b=0 のことを帰無仮説とよぶ)、b=0となることを棄却できるかどうか考えなくてはならない。そこで p値を見る。p値は帰無仮説が発生する確率なので、0.01以下ならばその推定値は99%の有意水準、0.1以下ならば90%の有意水準ということになる。また、有意であるならば横に *(星)がつく。何パーセントかはSignif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1をみればわかる。星は‘***’で、p値が小さければ小さいほど良い。

決定係数は説明変数による予測力を表す指標 0 ≤ 決定係数 ≤ 1決定係数が1に近づくほど回帰モデル(直線)がデータによくフィットしている相関係数の2乗とイコールである

データとデータの関係 – 回帰分析

決定係数は説明変数による予測力を表す指標 0 ≤ 決定係数 ≤ 1決定係数が1に近づくほど回帰モデル(直線)がデータによくフィットしている相関係数の2乗とイコールである

決定係数が0.5未満はあてはまりがよくない

回帰式の精度および回帰係数の判定の順番とその判定

①寄与率(Multiple R-squared)を見る。目安として、0.5以上と考える

②分散分析のF検定結果のp値が0.05を下回っていること確認する。クリアできない場合、データ不足の可能性もあり、データ追加の検討してもよい。これは、データ数が多いことで回帰係数のp値が小さくなることがあるため

③単回帰分析においては、「回帰式精度確認のF検定結果のp値と回帰係数のt検定結果のp値は数学的に一致する」しかし、「検定目的や結果の意味合いが異なるので、回帰係数のp値も確認する」

87

演習

相関分析で使用したデータセット saitama を使用して、Rコマンダーで回帰分析して結果について考えてみてください。

88

標本分布

母集団の推定を行うために標本抽出

89

標本分布

統計調査の種類・対象をすべて調査する全数調査・一部を抽出して調査する標本調査

母集団:統計調査対象となる集団全体

標本調査は母集団から一部(標本)を抽出して調査を行い、調査結果に基づいて母集団の特性を推定する調査方法です。

全数調査して母集団の特性を分析するのが正確なんですが....たとえば、12月18日の始発から終電まで品川駅の乗降客全員の属性(男女比、年齢分布、居住エリア、既婚未婚など)を全数調査するって実現可能ですか?

莫大な調査員、費用、時間がかかりますね。さらにトラブルも予想されるので、超困難ですね。

全数調査の例:5年ごとの国勢調査→母集団は?

選挙の出口調査は?

90

標本分布標本調査により母集団について推定することができます。

標本1

標本2

標本3

母集団

91

標本分布

母集団分布

母集団からn個の標本抽出

統計量の算出が可能平均、中央値、分散、標準偏差

母集団分布の平均、分散、標準偏差などの統計量が知りたい

母集団について推定

(推定値)

92

標本分布

母集団分布

母集団からn個の標本抽出

統計量の算出が可能平均、中央値、分散、標準偏差

母集団から取り出した標本の分布これは標本分布ではありません

母集団について推定

(推定値)

93

母集団分布

標本分布は、母集団から抽出したある標本を構成するデータの分布ではなく、標本Aの特性値、標本Bの特性値、標本Cの特性値・・・、それぞれから取られた統計量が作る確率分布です。

母集団について推定

(推定値)

母集団からn個の標本を複数回抽出する

統計量の算出が可能平均、中央値、分散、標準偏差

母集団について推定

(推定値)

では、標本分布はどんな形式の分布?

標本分布

94

母集団分布

各標本から統計量の算出が可能平均、中央値、分散、標準偏差

母集団からn個の標本を複数回抽出する

標本分布

標本分布は正規分布に近づく

標本平均の分布

95

母集団分布

各標本から統計量の算出が可能平均、中央値、分散、標準偏差→推定値

母集団からn個の標本を複数回抽出する

標本分布

標本平均(推定値)の分布

推定値としての標本平均の分布この分布の統計量が計算可能

標本分布の平均

これを期待値という

標本分布の標準偏差を標準誤差という

標本分布は正規分布に近づく

期待値

標準誤差

96

母集団分布

母集団からn個の標本を複数回抽出する

標本平均の標本分布の性質 標本分布は正規分布に近づく

標本平均(推定値)の分布

①期待値は母集団平均に一致する②標準誤差は標本サイズの平方根に反比例する(標本が大きいほど標本平均が母集団平均からずれる可能性が低くなる)③母集団分布によらず標本サイズが大きいとき正規分布に近くなる

期待値

標準誤差

97

標本分布 演習

① 母集団の推定を行うために標本抽出(100個)した標本から推定値を求める

② ①をたくさん繰り返して正規分布になることを確認してみる1000回ぐらいやってみる?一人でやると辛いから、一人10回10人でやると 10×10 = 100標本の推定値が集まる

③ 標本分布の平均(期待値)と標準偏差(標準誤差)を確認する

④ 母集団の平均と推定値を比較してみる

引用、参考、参照資料

IPAソフトウェア開発データ白書2012-2013

ソフトウェアメトリクス統計分析入門 現場エンジニアによる直観的解説と実践ドリル

著者:小池利和

データ思考のソフトウェア品質マネジメント メトリクス分析による「事実にもとづく管理」の

実践 著者:野中誠、小池利和、小室睦

Rによるデータサイエンス 著者:金 明哲

無料で学べる大学講座 gacco 社会人のためのデータサイエンス入門

総務省統計局

厚生労働省 国民生活基礎調査

日刊スポーツWebサイト

埼玉県市町村公開統計データ

98

統計的データ分析推薦図書

データ指向のソフトウェア品質マネジメント(日科技連)

ソフトウェアメトリクス統計分析

入門(日科技連)

99

分析データの入手

100

http://www.e-stat.go.jp/api/

無料のお勉強情報

総務省統計局提供のデータ分析系のWEB講座が定期的に開講されています。データ

分析にご興味のある方はご検討を

無料です(^^)b

「社会人のためのデータサイエンス演習」講座概要

http://gacco.org/stat-japan2/

講座内容(詳細はリンク先にて)

https://lms.gacco.org/c…/course-v1:gacco+ga063+2016_04/about

101

EOF

102