2016年12月18日aitc女子会...
TRANSCRIPT
はじめに 本資料作成に当たり本日の講師が所属している日科技連
SQiPコミュニティ 関東メトリクス・データ分析勉強会のR関係資料を参考にしています。https://sites.google.com/site/kantometrics/home
上記勉強会サイトに記載されている情報ならびに資料の内容を一部または全面的
に引用していますので、資料の著作権は部分的に上記勉強会サイトの作成者に
帰属します。
ただし、一部の画像等の著作権は原著作者が所有しています。
また、この資料の情報や資料を用いて行う一切の行為についていかなる責任も負い
ません。被った被害・損失に対してもいかなる場合でも一切の責任を負いません。
2
勉強会へ参加を希望される方へソフトウェアメトリクス、品質管理、統計分析等に興味をお持ちの方の参加を歓迎いたします。
勉強会に参加希望される方へ(ML参加のお誘い)
オフラインで交流できない期間用に、ML(メーリングリスト、Googleグループ利用)を設けてい
ます。
MLに参加すると、勉強会の情報が優先的に入手できるようになります。
お申込みは勉強会にて申し出て頂くか、以下のグループに参加申請してください。
http://groups.google.com/group/kanto-metrics?hl=ja
たとえば、こういった話題は、ぜひMLをお使いください。
*****************
★自己紹介
気が向いた方は、自己紹介メールでもして頂けるとうれしいです。
例えば、以下辺りを紹介して頂けると良いと思います。
・ご自身とデータ分析の関わり
・勉強会を知ったきっかけ
など
3
無料のお勉強情報 おススメ:データ分析勉強会サイト
https://sites.google.com/site/kantometrics/home
4
5
次回の予告2017年新春お年玉企画 1月21日土曜
有料の統計データ分析研修を数多く持つデータ分析勉強会主宰の小池先生が、AITC女子会向けに特別講義していただけます!データ分析、統計分析を学ぶ絶好のチャンス!
小池氏より:オーソドックスに基本中の基本をみっちりやります。1日掛けてやる内容のおいしいところだけダイジェストにして構成しました。---------------------ソフトウェアメトリクス統計分析入門
数学の知識などは一切不要です。現場エンジニア目線の直観的で易しい解説と実践的な演習で、明日からバリバリ統計分析を使えるようになります。
1.なぜソフトウェアメトリクス分析に統計手法が必要か2.データの良否を判定したい3.得られたデータの差異を客観的に検証したい
"R"とは? R言語の慣用的な呼び方
統計解析向け言語・開発実行環境
基礎的な統計学の知識が必要
CRANからの一元的配信◦ The Comprehensive R Archive Network
CRANの読み方は「しーらん」派と「くらん」派でわかれるそうです。
◦ オープンソース、マルチプラットフォーム対応
6
“R”の利用環境について Rを単体起動した”R Console”はCUIで初学者が使用するのは熟練がいりそう
利用者のタイプに合わせてRの利用環境を拡張するのがおススメ
Rのプログラミング知識より手っ取り早くデータを統計的に分析したい方向けR Commander が使いやすいです
Rのプログラミングを本格的にやりたいR Studio の使用がお勧めです
7
Rcmdrを起動する Rcmdrを起動する◦ [パッケージ]-[パッケーパッケージの読み込み…]から起動する 一覧から「Rcmdr」を選択して[OK]ボタンをクリックする
◦ コマンドで起動 library(Rcmdr)
11
Rcmdrを起動する Rcmdrを再起動する◦ 間違ってRcmdrを終了させてしまったら Commander()
Rcmdrを解放する◦ あんまり使うことはないと思いますが… detach("package:Rcmdr", unload=TRUE)
12
Rcmdrのメニュー概説 [データ]◦ データセットを扱うためのメニュー
[統計量]◦ 統計量算出、検定、分析、モデル適合(回帰分析)
[グラフ]◦ 各種グラフの描画
[モデル]◦ モデル適合結果に対する診断等
[分布]◦ 各種分布に基づく計算、描画
[ツール]◦ R/Rcmdr用のパッケージ選択、オプション設定
14
Rcmdrのメニュー概説 [統計量] [要約] 各種統計量の算出、および、統計量に対する検定
[分割表]分割表に対する検定
[平均]平均値に対する検定
[比率]比率に対する検定
[分散]分散に対する検定
[ノンパラメトリック検定]
◦ ノンパラメトリックな検定
[次元解析]
◦ 主成分分析、因子分析、クラスタ分析等の多変量解析
[モデルへの適合]
◦ 回帰分析関係
統計量とは?(Wikipedia)要約統計量:標本の性質を表すもの順序統計量:大小の順番で表すもの検定統計量:検定に利用するための
これらを算出するのが[統計量]メニュー青色のメニューは全て検定に関わるもの
15
標本から仮説の正しさを判定することを統計的仮説検定
Rcmdrのメニュー概説 [グラフ]
[色パレット]
◦ 利用する色を変更する
[インデックスプロット…]
[ヒストグラム…]
[密度推定…]
[幹葉表示…]
[箱ひげ図…]
[QQプロット…]
----------
[散布図…]
[散布図行列…]
› [折れ線グラフ…]
› [条件付き散布図]
› [平均値のプロット…]
› [ドットチャート]
----------
› [棒グラフ…]
› [円グラフ…]
----------
› [3次元グラフ…]
› [グラフをファイルに保存]
16
利用するデータセットについて データセット iris(Edgar Anderson's Iris Data)
◦ 別名:フィッシャーのあやめのデータ
北米に生息する菖蒲の萼片と花弁に関するデータ
◦ データ項目はSepal(しーぱる)と
Petal(ぺたる)
Sepal.Length : 萼片の長さ
Sepal.Width : 萼片の幅
Petal.Length : 花弁の長さ
Petal.Width : 花弁の幅
Species : 菖蒲の種類(品種)
setosa
versicolor
virginica
出典:http://biostor.org/reference/11559
Sepal
Petal
18
データの読み込み Rcmdrでサンプルデータを読み込む
◦ [データ]-[パッケージ内のデータ]-[アタッチされたパッケージからデータセットを読み込む…]を実行する
◦ 「dataset」-「iris」を選択し[OK]ボタンを押下する
◦ または、[データセット名を入力]欄に「iris」と入力して[OK]ボタンを押下する
◦ または
data(iris)
19
データ全体を眺めてみる Rcmdrでデータが読み込まれたことを確認する
◦ Rcmdrの画面上部「データセット:」の部分に「iris」と表示されている
◦ [iris]ボタンでデータセットの
選択が可能(複数読み込んだ
場合)
◦ [データセットを表示]ボタンを
押下して左図のような「iris」
ウィンドウが表示される
20
グラフを眺めてみる [グラフ] ヒストグラムデータの分布傾向を確認するためによく利用されます
[グラフ]-[ヒストグラム]を実行する
「Petal.Length」を選択し[OK]ボタンを押下する
21
グラフを眺めてみる [グラフ] ヒストグラム
横軸
データをある一定の範囲ごとに分けた各区間、階級
縦軸
各区間に入るデータの個数、度数、頻度
例)左図のようなふた山型のヒストグラムになった場合、母集団の異なるデータが混在していると考えられる要因を突き止め層別をし、ヒストグラムを作り直す必要がある
22
グラフを眺めてみる [グラフ] ヒストグラム(層別)母集団の異なるデータ混在の影響を層別してグラフ化することで取り除く[グラフ]-[ヒストグラム]を実行する
「Petal.Length」を選択し、[層別のプロット]ボタンを押下する層別変数 [Species]を選んでOK押下する
23
箱ひげ図の見方
26
𝑚𝑎𝑥 最大値 (外れ値を除く)
上ヒンジ第3四分位点
全データの最小値から75%点
median 中央値 (第2四分位点)
下ヒンジ 第1四分位点
全データの最小値から25%点
𝑚𝑖𝑛 最小値 (外れ値を除く)
𝑚𝑎𝑥
四分位範囲(IQR)𝐼𝑄𝑅 =上ヒンジ−下ヒンジ
データのばらつきを示す統計量。
外れ値
上ヒンジ + 1.5 × 𝐼𝑄𝑅 より大きい値
下ヒンジ− 1.5 × 𝐼𝑄𝑅 より小さい値
箱から箱の大きさの1.5倍より離れた値が外れ値となる。
𝑚𝑖𝑛
𝐼𝑄𝑅 𝑚𝑒𝑑𝑖𝑎𝑛
IPA Software Engineering Centerより引用
要約統計量を眺めてみる
要約統計量=「データ全体の傾向」を数値で考えたもの
[統計量]◦ [要約] [アクティブデータセット] summary()
各データ項目に対する最小値、中央値、平均値、最大値、分位値を表示します
非数値のデータ項目(因子)に対しては、個々のデータ数を表示します
28
要約統計量を眺めてみる
[統計量][要約]
[数値による要約] numSummary() 任意のデータ項目に対する平均値、標準偏差、平均の標準誤差、分位範囲、変動係数、歪度、尖度の中から任意の項目を表示します
30
中心位置を推測するための統計量
平均
𝑥 =𝑥1 + 𝑥2 + ⋯+ 𝑥𝑛
𝑛=
𝑖=1𝑛 𝑥𝑖
𝑛
メディアン (中央値) 𝑥
データを大きさの順に並べて
データが奇数個ならば中央の値
データが偶数個ならば中央の2つの値の平均値
最頻値
データの中で最も頻繁に出現する値
後述するヒストグラムにおいて、棒状のグラフが最も高い (頻度の最
も多い) 区間の中心値
31
メディアン (中央値) や最頻値は異常値や外れ値の影響を受けにくい。このような統計量はロバスト (頑健) であるといいます
代表値と呼ばれ、たくさんのデータをひとつの数値で表す
さらにグラフを眺めてみる [グラフ] 散布図2変数のデータの同士の関連性を確認するためによく利用されます2種類のデータを横軸と縦軸に取り、データを点でプロットしたグラフで、
2種類のデータの相関を観察するために作成します
32
さらにグラフを眺めてみる [グラフ] 散布図行列「Petal.Length」,「Petal.Width」,「Sepal.Length」,「Sepal.Width」を
選択し[OK]ボタンを押下する
37
さらにグラフを眺めてみる [グラフ] 散布図行列 散布図行列
このグラフの意味は、多数の変数を組み合わせて散布図にしたものです。
この散布図行列を見れば、どのデータの組み合わせで「正の相関・負の相関・相関なし」のどれに該当するのかを一目でざっくりわかると思います。
もちろんこれだけで何か統計的な結論を出せるわけではありませんが、詳細な分析をするデータを絞り込む際に活用します。
38
散布図に回帰直線を表示する最小2乗直線(回帰直線)このように2変量に強い相関関係がみられるとき、それをよくあらわす直線が存在します。その直線を「回帰直
線」といいます
オプションの最小2乗直線をチェックする
グラフを表示してみてください
39
ヒストグラムで身近な「代表値~ 平均・中央値・最頻値~」を眺めてみる 厚生労働省 国民生活基礎調査を見てみよう
http://www.mhlw.go.jp/toukei/list/20-21kekka.html
41
平成7年から比較してどんなことが言えるのでしょうか?考えてみてください
利用するデータセットについて データセット football01.xlsx
◦ 日刊スポーツから引用
◦ http://www.nikkansports.com/soccer/japan/member/jp-
member01.html
◦データ項目は A代表、五輪代表、U-20代表、U-17代表名前、位置、背番号、所属、生年月日、年齢、身長、体重、代表(A代表、五輪代表、U-20代表、U-17代表)
43
データの読み込み RcmdrでExcelファイルからデータを読み込む
◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する
使用するファイル : football01.xlsx
◦
45
データ分析の基本をやってみよう
1. データから最初にグラフを書いてみるヒストグラム、箱ひげ図
2. 要約統計量を見てみるこれによってデータの全体的傾向をつかんでみる
3. 散布図または散布図行列で関連性を確認してみる
4. 傾向からデータの本来持つ性質についての可能性(仮説)を考えてみる
48
Rで最頻値を求めてみよう
49
C:¥R¥data¥mode1.txtファイルをメモ帳やテキストエディタで開きます
テキストデータを全部選択してRcommanderのRスクリプトというウィンドウへ貼り付けます
53
平均を利用したデータの散らばりの指標 - 標準偏差
平均
標準偏差5.7
平均 178.48CM
標準偏差 5.7CM
「データが平均値の周辺にどのくらいの広がりや散らばりを持っているか」ということを表す統計量です。
標本標準偏差と母標準偏差
55
偏差とはデータのばらつきの度合いを表すものです。 偏差には二つの種類がありますので、注意が必要です。ひとつは標本標準偏差です。標本標準偏差のことを不偏標準偏差 (母標準偏差の不偏推定値)ということもあります。 標本標準偏差を求めるエクセルの関数は、「STDEV」です。 もうひとつは母標準偏差があり、こちらはエクセルの関数では、「STDEVP」があります。「STDEV」と「STDEVP」の二つの偏差は呼び名は似ていますが、 考え方の上で大きな違いがありますので、きちんと理解しておくことが大切です。
標本標準偏差では、得られたデータは全体の集団(これを母集団と呼びます)の一部であり、全体の集団から抜き取られた データである、という考えに基づいています。
母標準偏差は、得られているデータすべてが考える対象の集団の要素である場合に使います。
標本標準偏差:標本の個数:nとするところをn-1と置き換えて計算する母標準偏差:標本の個数:n
nが大きくなると次第に両者の偏差の値は近づいてきます。 このことからも分かるように、母集団の偏差を精度良く推定するためには、サンプル数をたくさん取ることが必要です。
56
平均を利用したデータの散らばりの指標 - 標準偏差
標準偏差は、平均値と合わせて見ることによって、データを正しく把握することができます。なぜ「平均値」だけでは、正しく把握できないのでしょうか?
りんご
品種 平均重量 100グラム単価 売価
①アップルペン 200グラム 150円 200円
②あっぽーぺん 200グラム 100円 200円
あなたは、200グラムのりんごが良く売れる果物屋さんを経営している立場で、PPAP効果でりんごブーム到来のため10個仕入れて売るなら、どちらを仕入れますか?
どちらも平均200グラムで色も味も同じとします。
単価の安い「あっぽーぺん」仕入れることにしました。
正しい判断でしょうか?
57
平均を利用したデータの散らばりの指標 - 標準偏差
注文してから標準偏差のデータを仕入れ先いただきました
りんご
品種 平均重量 100グラム単価 売価 重さ標準偏差
①アップルペン 200グラム 150円 200円 5
②あっぽーぺん 200グラム 100円 200円 100
①アップルペン バラツキの範囲 195グラム~205グラム
②あっぽーぺん バラツキの範囲 100グラム~300グラム
届いた②のりんごは 100グラムが5個 300グラムが5個でした。200グラムのりんごが良く売れるのに200グラムぐらいのリンゴはゼロ
演習データの読み込み RcmdrでExcelファイルからデータを読み込む
◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する
使用するファイル : football01.xlsx
◦
59
64
中央値を使った散らばりの指標 – 四分位、パーセンタイル、箱ひげ図
中央値
四分位範囲
Q1 Q3
75パーセンタイル
25パーセンタイル
四分位範囲×1.5
四分位範囲×1.5を超えなくてデータのあるところまで
演習データの読み込み RcmdrでExcelファイルからデータを読み込む
◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する
使用するファイル : saitamal01.xlsx
◦
67
データとデータの関係の見方 – 相関係数
74
オープンデータの活用
◦ 国勢調査の活用
婚活のため未婚者の多い地域へ転居を考えたとき、未婚者の多い地域
はどんな特徴があるのか?
横浜市神奈川区のデータを使ってみる
・ 未成年の割合の多い地域?
年齢(5歳階級)、男女別人口(総年齢、平均年齢及び外国人-
特掲) (町丁・字別)
・ 未婚者の多い地域は?
配偶関係(3区分)、男女別15歳以上人口 (町丁・字別)
・ 民営の借家が多い地域では?
住居の種類・住宅の所有の関係(6区分)別一般世帯数、一般世帯
人員及び1世帯当たり人員 (町丁・字別)
国勢調査小地域集計(横浜市)
http://www.city.yokohama.lg.jp/ex/stat/census/kokucho1010/machibetu/
75
演習データの読み込み RcmdrでExcelファイルからデータを読み込む
◦ [データ]-[データのインポート]-[エクセルファイルから…]を実行する
使用するファイル : kanagawa01.xlsx
76
Excelインポートダイアログボックスの設定データセット名を入力 : kanagawa
78
データとデータの関係の見方 – 相関係数
相関係数の値 相関の強弱
1~0.7 強い正の相関
0.7~0.4 やや相関あり、中程度の正の相関
0.4~0.2 弱い正の相関
0.2~0~ー0.2 ほとんど相関無し
-0.2~-0.4 弱い負の相関
-0.4~ー0.7 やや相関あり、中程度の負の相関
-0.7~ー1 強い負の相関
相関係数の値と評価基準
79
データとデータの関係の見方 – 相関係数
相関係数はー1~1の範囲の値
相関係数は直線的な関係を示す
1に近いほど直線的な正の強さ
-1に近いほど直線的な負の強さ
相関係数は因果関係を表す指標ではない
相関関係は2つの事象が関連して生じる一定した時間的方向性がない例:数学の成績と物理の成績
80
参考:因果関係
因果関係とは2つ以上のものの間に原因と結果の関係があると言い切れる関係
原因と結果の関係は一方通行
原因→結果でしか成り立たたない
例:気温が上がる(原因)と清涼飲料の消費が上がる(結果)
81
データとデータの関係 – 回帰分析
単回帰分析について
回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計します。従属変数(目的変数)とは、説明したい変数(注目している変数)を指します。独立変数(説明変数)とは、これを説明するために用いられる変数のことです。
1つ(単回帰分析)の説明変数と、1つの目的変数の関係を求め、説明変数から目的変数を推定します。
目的変数Y説明変数 X
Y = (回帰係数または決定係数:グラフの傾き)× X + グラフの切片
データとデータの関係 – 回帰分析
Coefficients:の解説
Estimate:係数Std.Error:標準誤差t value:t値pr(>|t|):p値Intercept:切片
回帰分析において y=a+bx は b=0 となることはあってならず、b=0となるとy=a となり、x は y に影響を与えないことになる。それでは回帰分析が成立しないので(ここでいう b=0 のことを帰無仮説とよぶ)、b=0となることを棄却できるかどうか考えなくてはならない。そこで p値を見る。p値は帰無仮説が発生する確率なので、0.01以下ならばその推定値は99%の有意水準、0.1以下ならば90%の有意水準ということになる。また、有意であるならば横に *(星)がつく。何パーセントかはSignif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1をみればわかる。星は‘***’で、p値が小さければ小さいほど良い。
決定係数は説明変数による予測力を表す指標 0 ≤ 決定係数 ≤ 1決定係数が1に近づくほど回帰モデル(直線)がデータによくフィットしている相関係数の2乗とイコールである
データとデータの関係 – 回帰分析
決定係数は説明変数による予測力を表す指標 0 ≤ 決定係数 ≤ 1決定係数が1に近づくほど回帰モデル(直線)がデータによくフィットしている相関係数の2乗とイコールである
決定係数が0.5未満はあてはまりがよくない
回帰式の精度および回帰係数の判定の順番とその判定
①寄与率(Multiple R-squared)を見る。目安として、0.5以上と考える
②分散分析のF検定結果のp値が0.05を下回っていること確認する。クリアできない場合、データ不足の可能性もあり、データ追加の検討してもよい。これは、データ数が多いことで回帰係数のp値が小さくなることがあるため
③単回帰分析においては、「回帰式精度確認のF検定結果のp値と回帰係数のt検定結果のp値は数学的に一致する」しかし、「検定目的や結果の意味合いが異なるので、回帰係数のp値も確認する」
89
標本分布
統計調査の種類・対象をすべて調査する全数調査・一部を抽出して調査する標本調査
母集団:統計調査対象となる集団全体
標本調査は母集団から一部(標本)を抽出して調査を行い、調査結果に基づいて母集団の特性を推定する調査方法です。
全数調査して母集団の特性を分析するのが正確なんですが....たとえば、12月18日の始発から終電まで品川駅の乗降客全員の属性(男女比、年齢分布、居住エリア、既婚未婚など)を全数調査するって実現可能ですか?
莫大な調査員、費用、時間がかかりますね。さらにトラブルも予想されるので、超困難ですね。
全数調査の例:5年ごとの国勢調査→母集団は?
選挙の出口調査は?
93
母集団分布
標本分布は、母集団から抽出したある標本を構成するデータの分布ではなく、標本Aの特性値、標本Bの特性値、標本Cの特性値・・・、それぞれから取られた統計量が作る確率分布です。
母集団について推定
(推定値)
母集団からn個の標本を複数回抽出する
統計量の算出が可能平均、中央値、分散、標準偏差
母集団について推定
(推定値)
では、標本分布はどんな形式の分布?
標本分布
95
母集団分布
各標本から統計量の算出が可能平均、中央値、分散、標準偏差→推定値
母集団からn個の標本を複数回抽出する
標本分布
標本平均(推定値)の分布
推定値としての標本平均の分布この分布の統計量が計算可能
標本分布の平均
これを期待値という
標本分布の標準偏差を標準誤差という
標本分布は正規分布に近づく
期待値
標準誤差
96
母集団分布
母集団からn個の標本を複数回抽出する
標本平均の標本分布の性質 標本分布は正規分布に近づく
標本平均(推定値)の分布
①期待値は母集団平均に一致する②標準誤差は標本サイズの平方根に反比例する(標本が大きいほど標本平均が母集団平均からずれる可能性が低くなる)③母集団分布によらず標本サイズが大きいとき正規分布に近くなる
期待値
標準誤差
97
標本分布 演習
① 母集団の推定を行うために標本抽出(100個)した標本から推定値を求める
② ①をたくさん繰り返して正規分布になることを確認してみる1000回ぐらいやってみる?一人でやると辛いから、一人10回10人でやると 10×10 = 100標本の推定値が集まる
③ 標本分布の平均(期待値)と標準偏差(標準誤差)を確認する
④ 母集団の平均と推定値を比較してみる
引用、参考、参照資料
IPAソフトウェア開発データ白書2012-2013
ソフトウェアメトリクス統計分析入門 現場エンジニアによる直観的解説と実践ドリル
著者:小池利和
データ思考のソフトウェア品質マネジメント メトリクス分析による「事実にもとづく管理」の
実践 著者:野中誠、小池利和、小室睦
Rによるデータサイエンス 著者:金 明哲
無料で学べる大学講座 gacco 社会人のためのデータサイエンス入門
総務省統計局
厚生労働省 国民生活基礎調査
日刊スポーツWebサイト
埼玉県市町村公開統計データ
98
無料のお勉強情報
総務省統計局提供のデータ分析系のWEB講座が定期的に開講されています。データ
分析にご興味のある方はご検討を
無料です(^^)b
「社会人のためのデータサイエンス演習」講座概要
http://gacco.org/stat-japan2/
講座内容(詳細はリンク先にて)
https://lms.gacco.org/c…/course-v1:gacco+ga063+2016_04/about
101