統計勉強会vol1

29
統統統統統 統統統 統統統統

Upload: yuto-suzuki

Post on 22-May-2015

636 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: 統計勉強会Vol1

統計勉強会 超入門鈴木雄登

Page 2: 統計勉強会Vol1

対象• 今回統計勉強会をはじめるにあたって

• データマイニングとかやってみたい• けど、統計の知識はほぼゼロ• そんな人のための知識補完として

Page 3: 統計勉強会Vol1

目次• 1 次元データ• 代表値• 散らばりをしらべる• 2 次元データ

Page 4: 統計勉強会Vol1

統計学とは

現象の法則性を見つけたい

データを集めよう

データがごちゃごちゃ

データを整理しよう

Page 5: 統計勉強会Vol1

データの種類• 量的データと質的データ

量的データ

長さ、重さ、体積… etc.のような値で測定できるもの

質的データ

性別、天気、居住域 ..etc.などのような値ではなく、そのカテゴリーに属しているかどうか

Page 6: 統計勉強会Vol1

次元

データの種類数は『次元』で表す

Page 7: 統計勉強会Vol1

1 次元のデータ

Page 8: 統計勉強会Vol1

次元って??

1 次元

2 次元

3 次元

御存知の通り

Page 9: 統計勉強会Vol1

統計(自然科学)での次元

1 次元

2 次元

3 次元

(男)

(男、 27 歳)

(男、 27 歳、消防士)

利用するデータの種類数

Page 10: 統計勉強会Vol1

1 次元のデータを可視化• 度数分布

階級 度数 相対度数 累積度数 累積相対度数

0〜20 3 0.06 3 0.06

20〜40 10 0.2 13 0.26

40〜60 20 0.4 33 0.66

60〜80 9 0.18 42 0.84

80〜100

8 0.16 50 1.00

合計 50 1.00

頻度

頻度 / 全体

頻度合計

頻度合計 / 全体

Page 11: 統計勉強会Vol1

1次元のデータを可視化• ヒストグラム

項目 10

5

10

15

20

25

1〜2020〜4040〜6060〜8080〜100

Page 12: 統計勉強会Vol1

代表値

Page 13: 統計勉強会Vol1

平均• 算術平均

• いつもの平均

• 両端の階級を無視して計算するときもある。→ 外れ値考慮

Page 14: 統計勉強会Vol1

平均• 幾何平均

• 調和平均割合の平均を求めるときなどに使う

Page 15: 統計勉強会Vol1

メディアン• 1,1,1,1,2,3,4,5,16,20 のような数列の代表値

1 5 10 15 20

平均メディア

第一四分位点

Page 16: 統計勉強会Vol1

モード• 最頻度

モード

Page 17: 統計勉強会Vol1

散らばりを調べる

Page 18: 統計勉強会Vol1

散らばりの尺度• レンジ

• 分布の存在する範囲を示す• 平均偏差

• 観測値が平均からどれくらい離れているかを平均したもの

• 分散と標準偏差• 観測値が平均との距離の 2 乗和平均の平方根を取ったもの

分散 :

標準偏差 :

Page 19: 統計勉強会Vol1

偏差• 標準偏差の方が圧倒的に使われる

• 理論的に計算しやすい(←絶対値が計算しづらい)• 優れている

違いを考えるには、平均とは何か?ということが鍵になります。サンプルの平均は  m=(x1+...+xn)÷n で求めるのが通例ですが、なぜこうするのがよいか?を考えてみてください。

実は、このようにして求める平均は、標準偏差の 2 乗和を最小にします。では、平均偏差を最小にするような値を計算してみましょう。つまり、  J= |x1-μ|+...+|xn-μ| を最小にする μ を求めるわけです。例えば、データが( 1,1,1,0,-3) だったとします。m=0 となりますが、 (2) 式を最小にする値は、 0 ではありませんね。一方で,標準偏差の 2 乗和  V= (x1-μ)^2+...+(xn-μ)^2を最小にする μ は V を μ で微分して=0と置いて、とけば  μ = m であることがわかります。平均偏差を最小にする値は中央値ですので、そこが違うということになるわけです。 引用: http://okwave.jp/qa/q1241831.html

Page 20: 統計勉強会Vol1

2 次元データ

Page 21: 統計勉強会Vol1

相関と回帰• 相関

• x と y に区別を設けず、対等に見る見方• 独立なものの関係を調べる

• 回帰• x から y( もしくは y から x) を見る見方• 従属的なものの関係を調べる

x y

x y

Page 22: 統計勉強会Vol1

散布図

0.5 1 1.5 2 2.5 3 3.50

0.5

1

1.5

2

2.5

3

3.5

Y の値 1

Y の値 1

Page 24: 統計勉強会Vol1

相関係数• どれくらい相関関係があるかを計算

• 定義はいろいろ• 最もよく用いられるピアソンの積率相関係数

xの標準偏差 yの標準偏差

偏差積の平均=共分散

範囲は -1~1

Page 25: 統計勉強会Vol1

相関係数のイメージ共分散によって相関係数は決まる

IⅡ

Ⅲ Ⅳ

平均相関係数が ±1 を取る条件

Page 26: 統計勉強会Vol1

回帰• 最小二乗法

bx+a

y

を最小化する a と b を求める

Page 27: 統計勉強会Vol1

回帰最終的にはこれを解けばいい

求まった a と b による式

回帰方程式(回帰直線とも)と呼ばれる

Page 28: 統計勉強会Vol1

0.5 1 1.5 2 2.5 3 3.50

0.5

1

1.5

2

2.5

3

3.5

Y の値 1

Y の値 1

回帰直線

Page 29: 統計勉強会Vol1

相関係数と回帰直線の傾き• 相関係数 r と回帰直線の傾き b の関係

r は相関係数なので、 x と y の相関を示す-1 ~ 1 なので 2 乗にすると r が大きいほど、回帰が当てはまる。そこで r の 2 乗を決定係数と呼ぶ