020 1変数の集計
TRANSCRIPT
1変数の集計
統計学入門2008.04
2009.05.7 修正2011.04.27 演習解答例追加
2012.04.25 演習 2解答メモ追加四分位偏差 説明追加(講義後の修正まで)
データの分布• だいたいどんな値 (代表値)• 値のバラエティさ (ばらつき)• その中でどんな値が多いか (ヒストグラム)
• 分布形状– 単峰性、双峰性、多峰性– 左に偏った J 型分布、左右対称分布
右に偏った L 型分布
150 160 170 180 190
-0.20.00
.2
m
150 160 170 180 190
-0.20.00.2
f 2
分布の形状単峰性 双峰性 多峰性
対称性左に裾を引いている 右に裾を引いているJ型分布 L型分布
共通一次試験 (1980年 )
民間給与実態統計調査(平成 9年)
データの縮約• n個のデータ
x1, x2, ・・・ xn
を数個の値にまとめる!
• 代表値(位置、 location)• ばらつき(広がり、 dispersion)
• 5数要約• グラフ表現
代表値• データが概ねどんな値か• (数直線上の)どのあたりの位置にあるか
• (算術)平均値 arithmetic mean
• 中央値 median
• 最小値 minimum
• 最大値 maximum
150 160 170 180 190
-0.2
0.00.2
m
「良い」代表値とは• ある定めた基準の元で「良い」
• 代表値とはn個の様々な値を、 1個の値に置き換えること
• 置き換えたときの誤差• 誤差は無いほどよい• できるだけ小さく• 最小化しよう
デー
タ
代表値
誤差
絶対誤差
2
乗誤差
x1 a x1-a |x1-a| (x1-a)2
x2 a x2-a |x2-a| (x2-a)2
・・・
・・・
・・・
・・・
・・・
xn a xn-a |xn-a| (xn-a)2
和 Σ |xn-a| Σ (xn-a)2
平均値 (mean)
• mean
• 代表値として一番良く使われる• 最小 2乗法 (Least Square Methods)の意味で最良
誤差の 2乗 Q(a)=(x1-a)2+(x2-a)2+・・・ +(xn-a)2
を最小にする a
n
xxxx n+++= 21
平均値
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 100
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10
中央値 (median)• 平均値の問題点はずれ値 (outlier)の影響を受けやすい
平均値
• 多数のデータからは離れた値になっている
中央値
• 集団の代表値としては中央値の方が妥当 Me = x((n+1)/2) ないしは (x(n/2) +x(n/2+1))/2
平均値と中央値との関係
• 平均値は外れ値の影響を受けやすい• 中央値は外れ値に頑健 (robust)
http://bstat.f7.ems.okayama-u.ac.jp/~yan/dataplot/
平均値の改良• truncated mean, trimmed mean(切捨て平均)– 大きい方 α、小さい方 αのデータを捨てて残りの 1-2αのデータで平均値を計算する
– αとしては 0.25が良く使われる
平均値
平均値 α=1/6 の場合
最小値、最大値• 洪水対策 過去のデータでの最大降水量に対して対策を立てる
• 許容量 被害が起きた最小の値に対して対策を立てる
5数要約 (fivnum)• 大きさの順序に並び換え x(1)<x(2)<・・・ <x(n)
• x(1) 最小値• x(n/4) 第1四分位値 (Q1)
• x(2n/4) 第2四分位値 (Q2)=中央値(Me)
• x(3n/4) 第3四分位値 (Q3)
• x(n) 最大値
five-number summary
箱髭図 (boxplot)• 5数要約のグラフ表現
x(1)
Q1
medianQ3
x(n)
(boxplot height)
度数分布表とヒストグラムfrequency table and histogram
• 階級数 k– √n– 1 + log n/log 2– 10~ 20
• 階級の幅 w– w=(x(n)-x(1))/k
• 端点 a0
a0 < x(1)< a0 + w/2
度数分布表の追加情報階級 階級値 度数 相対度数 累積度数 累積相対度数
a0~a1 m1 f1 f1/n f1 (f1)/n
a1~a2 m2 f2 f2/n f1+f2 (f1+f2)/n
ak-1~ak mk fk fk/n f1+ +f‥ k (f1+ +f‥ k)/n
n 1
演習
• 統計学 168人の試験の成績は 最小値 24点 最大値 87点であった。度数分布表を作るための階級を定めよ。
• 169人の身長を調査したところ 最小値 143.2cm 最大値 175.7cmであった。度数分布表を作るための階級を定めよ。
演習問題の解答例n=168人 x(1)=最小値 =24 x(n)=最大値 =87
と決める
端点 と決める
~幅
~階級数
22
245.215.224
5.224
2/524
2/:
5
85.78
6385.4
13
2487
138
393.83010.0
2253.21
2log
168log1log1
96.12168
0
0
00
00
0)1(00
)1()(
2
=≤≤=−
+≤≤+≤≤
+≤≤=
==−=−
=
=
=+=+=+
==
a
a
aa
aa
waxaa
wk
xxw
k
n
n
n
9287
8782
8277
7772
7267
6762
6257
5752
5247
4742
4237
3732
3227
2722
~~~~~~~~~~~~~~
階級
講 評「階級を定める」ということは、すべての小区間を決めること!
階級数 k、 階級の幅 w、 端点 a0 を決めるだけでは不十分。
端点の値がどちらの階級に属するか(以下、未満)という議論を避けるために、端点の値がデータに出てこないように端点を定めることもある。
データの有効桁(成績のよう整数値のデータであれば、1の位)に対して、その一つ下の桁(整数値であれば、小数点以下1桁目)に5を付けた値を端点の値とする。
前の演習問題であれば、右側のように定めれば良い。
9287
8782
8277
7772
7267
6762
6257
5752
5247
4742
4237
3732
3227
2722
~~~~~~~~~~~~~~
5.925.87
5.875.82
5.825.77
5.775.72
5.725.67
5.675.62
5.625.57
5.575.52
5.525.47
5.475.42
5.425.37
5.375.32
5.325.27
5.275.22
~~~~~~~~~~~~~~
演習
• 統計学 168人の試験の成績は 最小値 24点 最大値 87点であった。度数分布表を作るための階級を定めよ。
• 169人の身長を調査したところ 最小値 143.2cm 最大値 175.7cmであった。度数分布表を作るための階級を定めよ。Log(169,2)+1=8.4
√169=13R=X(n)-X(1)=175.7-143.2=32.5
32.5/13=2.532.5/8=4.06
W=4143.2-4/2=141.2A0=142
ばらつき (dispersion)の尺度• 代表値は同じでも、分布が異なる
> mean(height)
151.57142857142856
> mean(height2)
151.3571428571429
> histogram(height)
> histogram(height2)
height2 ~tarumi/lispstat/height2.lsp
150 160 170 180 190
-0.20.00.2
f 2
バラツキの尺度• 範囲 (range)
• 四分位範囲 (interquartile range)
• 平均偏差 (mean deviation)
• 分散 (variance)
• 標準偏差 (standard deviation)
範囲 (range)四分位範囲 (quartile range)
• 最小値から最大値までの幅 R = x(n) - x(1)
• 外れ値 (Outlier) の影響を受けやすい• 両端 25%のデータを捨てた真中の
50% のデータでの範囲=四分位範囲 = Q3 - Q1
R
R
QR
四分位偏差
• 平成 24年度からの高校数学Ⅰでは四分位範囲の代わりに、四分位偏差が取り上げられている。
• 統計学の分野では四分位範囲の方がよくつかわれる。
2213 四分位範囲四分位偏差 =−= QQ
平均偏差 (mean deviation)• 偏差
xxd ii −=• 平均偏差
||1
||1
11
xxn
dn
ddn
ii
n
ii
−=== ∑∑==
分散 (variance)標準偏差 (standard deviation)
• 分散 偏差2乗の平均
∑=
−==n
ii xx
nss
1
22 )(1
• 標準偏差 分散の平方根
∑
∑
=
=
−=
−=
n
ii
n
ii
xxn
xxn
s
1
22
1
22
)()(1
)(1
不偏分散 (unbiased variance)• 標本分散としては不偏分散 u2 を使うことも多い
1
)(1
1
)(1
2
1
22
1
22
−=
−−
=
−=
∑
∑
=
=
n
sn
xxn
u
xxn
s
n
ii
n
ii
演習• height
– 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151, 157, 157, 144
– 和 2122 2 乗和 322338
• height2– 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152,
163, 158, 147– 和 2119 2 乗和 322019
• weight– 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36– 和 588 2 乗和 25226