統計勉強会vol1
Post on 22-May-2015
636 Views
Preview:
TRANSCRIPT
統計勉強会 超入門鈴木雄登
対象• 今回統計勉強会をはじめるにあたって
• データマイニングとかやってみたい• けど、統計の知識はほぼゼロ• そんな人のための知識補完として
目次• 1 次元データ• 代表値• 散らばりをしらべる• 2 次元データ
統計学とは
現象の法則性を見つけたい
データを集めよう
データがごちゃごちゃ
データを整理しよう
データの種類• 量的データと質的データ
量的データ
長さ、重さ、体積… etc.のような値で測定できるもの
質的データ
性別、天気、居住域 ..etc.などのような値ではなく、そのカテゴリーに属しているかどうか
次元
データの種類数は『次元』で表す
1 次元のデータ
次元って??
1 次元
2 次元
3 次元
x
x
y
x
y
z
御存知の通り
統計(自然科学)での次元
1 次元
2 次元
3 次元
(男)
(男、 27 歳)
(男、 27 歳、消防士)
利用するデータの種類数
1 次元のデータを可視化• 度数分布
階級 度数 相対度数 累積度数 累積相対度数
0〜20 3 0.06 3 0.06
20〜40 10 0.2 13 0.26
40〜60 20 0.4 33 0.66
60〜80 9 0.18 42 0.84
80〜100
8 0.16 50 1.00
合計 50 1.00
頻度
頻度 / 全体
頻度合計
頻度合計 / 全体
1次元のデータを可視化• ヒストグラム
項目 10
5
10
15
20
25
1〜2020〜4040〜6060〜8080〜100
代表値
平均• 算術平均
• いつもの平均
• 両端の階級を無視して計算するときもある。→ 外れ値考慮
平均• 幾何平均
• 調和平均割合の平均を求めるときなどに使う
メディアン• 1,1,1,1,2,3,4,5,16,20 のような数列の代表値
1 5 10 15 20
平均メディア
ン
第一四分位点
モード• 最頻度
モード
散らばりを調べる
散らばりの尺度• レンジ
• 分布の存在する範囲を示す• 平均偏差
• 観測値が平均からどれくらい離れているかを平均したもの
• 分散と標準偏差• 観測値が平均との距離の 2 乗和平均の平方根を取ったもの
分散 :
標準偏差 :
偏差• 標準偏差の方が圧倒的に使われる
• 理論的に計算しやすい(←絶対値が計算しづらい)• 優れている
違いを考えるには、平均とは何か?ということが鍵になります。サンプルの平均は m=(x1+...+xn)÷n で求めるのが通例ですが、なぜこうするのがよいか?を考えてみてください。
実は、このようにして求める平均は、標準偏差の 2 乗和を最小にします。では、平均偏差を最小にするような値を計算してみましょう。つまり、 J= |x1-μ|+...+|xn-μ| を最小にする μ を求めるわけです。例えば、データが( 1,1,1,0,-3) だったとします。m=0 となりますが、 (2) 式を最小にする値は、 0 ではありませんね。一方で,標準偏差の 2 乗和 V= (x1-μ)^2+...+(xn-μ)^2を最小にする μ は V を μ で微分して=0と置いて、とけば μ = m であることがわかります。平均偏差を最小にする値は中央値ですので、そこが違うということになるわけです。 引用: http://okwave.jp/qa/q1241831.html
2 次元データ
相関と回帰• 相関
• x と y に区別を設けず、対等に見る見方• 独立なものの関係を調べる
• 回帰• x から y( もしくは y から x) を見る見方• 従属的なものの関係を調べる
x y
x y
散布図
0.5 1 1.5 2 2.5 3 3.50
0.5
1
1.5
2
2.5
3
3.5
Y の値 1
Y の値 1
相関関係
http://www.sqc-works.com/qc7-04.html
相関係数• どれくらい相関関係があるかを計算
• 定義はいろいろ• 最もよく用いられるピアソンの積率相関係数
xの標準偏差 yの標準偏差
偏差積の平均=共分散
範囲は -1~1
相関係数のイメージ共分散によって相関係数は決まる
IⅡ
Ⅲ Ⅳ
平均相関係数が ±1 を取る条件
回帰• 最小二乗法
bx+a
y
を最小化する a と b を求める
回帰最終的にはこれを解けばいい
求まった a と b による式
回帰方程式(回帰直線とも)と呼ばれる
0.5 1 1.5 2 2.5 3 3.50
0.5
1
1.5
2
2.5
3
3.5
Y の値 1
Y の値 1
回帰直線
相関係数と回帰直線の傾き• 相関係数 r と回帰直線の傾き b の関係
r は相関係数なので、 x と y の相関を示す-1 ~ 1 なので 2 乗にすると r が大きいほど、回帰が当てはまる。そこで r の 2 乗を決定係数と呼ぶ
top related