020 1変数の集計

30
1 変数の集計 統計学入門 2008.04 2009.05.7 修正 2011.04.27 演習解答例追加 2012.04.25 演習 2 解答メモ追加 四分位偏差 説明追加 (講義後の修正まで)

Upload: t2tarumi

Post on 05-Jul-2015

357 views

Category:

Education


4 download

TRANSCRIPT

Page 1: 020 1変数の集計

1変数の集計

統計学入門2008.04

2009.05.7 修正2011.04.27 演習解答例追加

2012.04.25 演習 2解答メモ追加四分位偏差 説明追加(講義後の修正まで)

Page 2: 020 1変数の集計

データの分布• だいたいどんな値 (代表値)• 値のバラエティさ  (ばらつき)• その中でどんな値が多いか (ヒストグラム)

• 分布形状– 単峰性、双峰性、多峰性– 左に偏った J 型分布、左右対称分布

右に偏った L 型分布

150 160 170 180 190

-0.20.00

.2

m

150 160 170 180 190

-0.20.00.2

f 2

Page 3: 020 1変数の集計

分布の形状単峰性 双峰性 多峰性

対称性左に裾を引いている 右に裾を引いているJ型分布 L型分布

Page 4: 020 1変数の集計

共通一次試験 (1980年 )

Page 5: 020 1変数の集計

民間給与実態統計調査(平成 9年)

Page 6: 020 1変数の集計

データの縮約• n個のデータ

x1, x2, ・・・ xn

を数個の値にまとめる!

• 代表値(位置、 location)• ばらつき(広がり、 dispersion)

• 5数要約• グラフ表現

Page 7: 020 1変数の集計

代表値• データが概ねどんな値か• (数直線上の)どのあたりの位置にあるか

• (算術)平均値 arithmetic mean

• 中央値 median

• 最小値 minimum

• 最大値 maximum

150 160 170 180 190

-0.2

0.00.2

m

Page 8: 020 1変数の集計

「良い」代表値とは• ある定めた基準の元で「良い」

• 代表値とはn個の様々な値を、 1個の値に置き換えること

• 置き換えたときの誤差• 誤差は無いほどよい• できるだけ小さく• 最小化しよう

デー

代表値

誤差

絶対誤差

2

乗誤差

x1 a x1-a |x1-a| (x1-a)2

x2 a x2-a |x2-a| (x2-a)2

・・・

・・・

・・・

・・・

・・・

xn a xn-a |xn-a| (xn-a)2

和 Σ |xn-a| Σ (xn-a)2

Page 9: 020 1変数の集計

平均値 (mean)

• mean

• 代表値として一番良く使われる• 最小 2乗法 (Least Square Methods)の意味で最良

誤差の 2乗 Q(a)=(x1-a)2+(x2-a)2+・・・ +(xn-a)2

を最小にする a

n

xxxx n+++= 21

Page 10: 020 1変数の集計

平均値

0

2

4

6

8

10

12

14

16

1 2 3 4 5 6 7 8 9 100

2

4

6

8

10

12

14

16

1 2 3 4 5 6 7 8 9 10

Page 11: 020 1変数の集計

中央値 (median)• 平均値の問題点はずれ値 (outlier)の影響を受けやすい

平均値

• 多数のデータからは離れた値になっている

中央値

• 集団の代表値としては中央値の方が妥当 Me = x((n+1)/2)   ないしは  (x(n/2) +x(n/2+1))/2

Page 12: 020 1変数の集計

平均値と中央値との関係

• 平均値は外れ値の影響を受けやすい• 中央値は外れ値に頑健 (robust)

http://bstat.f7.ems.okayama-u.ac.jp/~yan/dataplot/

Page 13: 020 1変数の集計

平均値の改良• truncated mean, trimmed mean(切捨て平均)– 大きい方 α、小さい方 αのデータを捨てて残りの 1-2αのデータで平均値を計算する

– αとしては 0.25が良く使われる

平均値

平均値 α=1/6 の場合

Page 14: 020 1変数の集計

最小値、最大値• 洪水対策  過去のデータでの最大降水量に対して対策を立てる

• 許容量  被害が起きた最小の値に対して対策を立てる

Page 15: 020 1変数の集計

5数要約  (fivnum)• 大きさの順序に並び換え   x(1)<x(2)<・・・ <x(n)

• x(1)    最小値• x(n/4)   第1四分位値 (Q1)

• x(2n/4)    第2四分位値 (Q2)=中央値(Me)

• x(3n/4)    第3四分位値 (Q3)

• x(n)    最大値

five-number summary

Page 16: 020 1変数の集計

箱髭図 (boxplot)• 5数要約のグラフ表現

x(1)

Q1

medianQ3

x(n)

(boxplot height)

Page 17: 020 1変数の集計

度数分布表とヒストグラムfrequency table and histogram

• 階級数 k– √n– 1 + log n/log 2– 10~ 20

• 階級の幅 w– w=(x(n)-x(1))/k

• 端点 a0

a0 < x(1)< a0 + w/2

Page 18: 020 1変数の集計

度数分布表の追加情報階級 階級値 度数 相対度数 累積度数 累積相対度数

a0~a1 m1 f1 f1/n f1 (f1)/n

a1~a2 m2 f2 f2/n f1+f2 (f1+f2)/n

ak-1~ak mk fk fk/n f1+ +f‥ k (f1+ +f‥ k)/n

n 1

Page 19: 020 1変数の集計

演習

• 統計学 168人の試験の成績は  最小値  24点  最大値  87点であった。度数分布表を作るための階級を定めよ。

• 169人の身長を調査したところ  最小値  143.2cm  最大値  175.7cmであった。度数分布表を作るための階級を定めよ。

Page 20: 020 1変数の集計

演習問題の解答例n=168人   x(1)=最小値 =24   x(n)=最大値 =87

 と決める

 端点  と決める    

~幅  

~階級数

22

245.215.224

5.224

2/524

2/:

5

85.78

6385.4

13

2487

138

393.83010.0

2253.21

2log

168log1log1

96.12168

0

0

00

00

0)1(00

)1()(

2

=≤≤=−

+≤≤+≤≤

+≤≤=

==−=−

=

=

=+=+=+

==

a

a

aa

aa

waxaa

wk

xxw

k

n

n

n

9287

8782

8277

7772

7267

6762

6257

5752

5247

4742

4237

3732

3227

2722

~~~~~~~~~~~~~~

階級

Page 21: 020 1変数の集計

講  評「階級を定める」ということは、すべての小区間を決めること!

階級数 k、 階級の幅 w、 端点  a0 を決めるだけでは不十分。

端点の値がどちらの階級に属するか(以下、未満)という議論を避けるために、端点の値がデータに出てこないように端点を定めることもある。

データの有効桁(成績のよう整数値のデータであれば、1の位)に対して、その一つ下の桁(整数値であれば、小数点以下1桁目)に5を付けた値を端点の値とする。

前の演習問題であれば、右側のように定めれば良い。

9287

8782

8277

7772

7267

6762

6257

5752

5247

4742

4237

3732

3227

2722

~~~~~~~~~~~~~~

5.925.87

5.875.82

5.825.77

5.775.72

5.725.67

5.675.62

5.625.57

5.575.52

5.525.47

5.475.42

5.425.37

5.375.32

5.325.27

5.275.22

~~~~~~~~~~~~~~

Page 22: 020 1変数の集計

演習

• 統計学 168人の試験の成績は  最小値  24点  最大値  87点であった。度数分布表を作るための階級を定めよ。

• 169人の身長を調査したところ  最小値  143.2cm  最大値  175.7cmであった。度数分布表を作るための階級を定めよ。Log(169,2)+1=8.4

√169=13R=X(n)-X(1)=175.7-143.2=32.5

32.5/13=2.532.5/8=4.06

W=4143.2-4/2=141.2A0=142

Page 23: 020 1変数の集計

ばらつき (dispersion)の尺度• 代表値は同じでも、分布が異なる

> mean(height)

151.57142857142856

> mean(height2)

151.3571428571429

> histogram(height)

> histogram(height2)

height2 ~tarumi/lispstat/height2.lsp

150 160 170 180 190

-0.20.00.2

f 2

Page 24: 020 1変数の集計

バラツキの尺度• 範囲 (range)

• 四分位範囲 (interquartile range)

• 平均偏差 (mean deviation)

• 分散 (variance)

• 標準偏差 (standard deviation)

Page 25: 020 1変数の集計

範囲 (range)四分位範囲 (quartile range)

• 最小値から最大値までの幅   R = x(n) - x(1)

• 外れ値 (Outlier) の影響を受けやすい• 両端 25%のデータを捨てた真中の

50% のデータでの範囲=四分位範囲 = Q3 - Q1

R

R

QR

Page 26: 020 1変数の集計

四分位偏差

• 平成 24年度からの高校数学Ⅰでは四分位範囲の代わりに、四分位偏差が取り上げられている。

• 統計学の分野では四分位範囲の方がよくつかわれる。

2213 四分位範囲四分位偏差 =−= QQ

Page 27: 020 1変数の集計

平均偏差 (mean deviation)• 偏差

xxd ii −=• 平均偏差

||1

||1

11

xxn

dn

ddn

ii

n

ii

−=== ∑∑==

Page 28: 020 1変数の集計

分散 (variance)標準偏差 (standard deviation)

• 分散 偏差2乗の平均

∑=

−==n

ii xx

nss

1

22 )(1

• 標準偏差   分散の平方根

=

=

−=

−=

n

ii

n

ii

xxn

xxn

s

1

22

1

22

)()(1

)(1

Page 29: 020 1変数の集計

不偏分散 (unbiased variance)• 標本分散としては不偏分散 u2 を使うことも多い

1

)(1

1

)(1

2

1

22

1

22

−=

−−

=

−=

=

=

n

sn

xxn

u

xxn

s

n

ii

n

ii

  

Page 30: 020 1変数の集計

演習• height

– 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151, 157, 157, 144

– 和 2122 2 乗和 322338

• height2– 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152,

163, 158, 147– 和 2119 2 乗和 322019

• weight– 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36– 和 588 2 乗和 25226