度数分布とヒストグラム - ec.kansai-u.ac.jp · 練習〆次の表を完成させよ 10...
TRANSCRIPT
2
分析の流れ
データの分布(散らばり)を、度数分布表にまとめ、グラフ化する。
グラフに、平均値や分散など、分布の特徴を示す客観的な数値を加える。
データが母集団からのランダムサンプルならば、母集団についての推測を行う
3
度数分布とヒストグラムの作成
データを昇(降)順に並べ替える。
階級を設定し、各階級に属するデータの個数をカウントする。
各階級の相対度数、累積度数、及び、累積相対度数を計算する。
度数分布表をもとに、ヒストグラムを作成する。
4
もとのデータと並べ替え
もとのデータを〃 nxxxxx ,,,,, 4321 とする〄それを昇順に並べ替えたものを〃
)()4()3()2()1( ,,,,, nxxxxx であらわす〄
データが与えられたら,それを昇順に並べ替えると都合がよい.
43,20,18,38,32,33,91
,9,12,26,41,53,25,65,
29,37,36,43,33,57
9,12,18,20,25,26,29,
32,33,33,36,37,38,41
,43,43,53,57,65,91
級の区間 代表値 度数 累積度数 相対度数 累積相対度数
149.5-152.5 151
152.5-155.5 154
155.5-158.5 157
158.5-161.5 160
161.5-164.5 163
164.5-167.5 166
167.5-170.5 169
170.5-173.5 172
合計
7
身長の度数分布表 を完成させよう
5
13
9
5
10
3
41
5
18
27
32
50
42
45
49
50
級の区間 代表値 度数 累積度数 相対度数 累積相対度数
149.5-152.5 151 5 5
152.5-155.5 154 13 18
155.5-158.5 157 9 27
158.5-161.5 160 5 32
161.5-164.5 163 10 42
164.5-167.5 166 3 45
167.5-170.5 169 4 49
170.5-173.5 172 1 50
合計 508
身長の度数分布表 を完成させよう
1.0505
26.05013
54.05027
級の区間 代表値 度数 累積度数 相対度数 累積相対度数
149.5-152.5 151 5 5 0.10 0.10
152.5-155.5 154 13 18 0.26 0.36
155.5-158.5 157 9 27 0.18 0.54
158.5-161.5 160 5 32 0.10 0.64
161.5-164.5 163 10 42 0.20 0.84
164.5-167.5 166 3 45 0.06 0.90
167.5-170.5 169 4 49 0.08 0.98
170.5-173.5 172 1 50 0.02 1.00
合計 50 1.00
9
身長の度数分布表 を完成させよう
練習〆次の表を完成させよ
10
表3-2 サイコロを100回投げたときに出た目の度数分布表
サイコロの目 度数 相対度数 累積度数 累積相対度数
1 20
2 18
3 10
4 14
5 21
6 17
合計
注〆度数は各目が出る確率が等しいという条件で〃Excelの乱数の関数を用いて擬似的に発生させた
練習の解答
11
表3-2 サイコロを100回投げたときに出た目の度数分布表
サイコロの目 度数 相対度数 累積度数 累積相対度数
1 20 0.20 20 0.20
2 18 0.18 38 0.38
3 10 0.10 48 0.48
4 14 0.14 62 0.62
5 21 0.21 83 0.83
6 17 0.17 100 1.00
合計 100 1.00 - -
注〆度数は各目が出る確率が等しいという条件で〃Excelの乱数の関数を用いて擬似的に発生させた
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
14
9.5
15
2.5
15
5.5
15
8.5
16
1.5
16
4.5
16
7.5
17
0.5
17
3.5
累積相対度数のグラフ
累積相対度数のグラフ
13
164cm以下の割合を知りたいなら、
約80%
157cm以下の割合を知りたいなら、
約44%
ヒストグラムを作るとき
1. 階級を決める
2. 各階級の度数をカウントする
3. 相対度数、累積度数、累積相対度数を計算する
4. グラフ化する
階級を決めることは、意外に難しい(教科書に一般論はあるが、「グラフで何を示したいか」を考えるとよい)
14
15
年間収入の場合
経済データは、度数分布の形で提供される場合が多い。
収入データは、他の経済データと同様に、高額データの取り扱いが難しい。
身長データや試験の点数データでは、さほど極端な値がないので、取り扱いが比較的楽である。
16
2006年度年間収入(農林漁家を除く全世帯)
年間収入階級 階級値 度数 (世帯数)
200万円未満 157 239
200万円以上~ 250万円未満 225 368
250 ~ 300 275 537
300 ~ 350 323 792
350 ~ 400 373 880
々々々々々々々々々々々々 々々 々々
700 ~ 750 720 463
750 ~ 800 772 387
800 ~ 900 842 651
900 ~ 1000 945 520
1000 ~ 1250 1,104 700
1250 ~ 1500 1,359 282
1500万円以上 1,985 334
合計 10,000
年収1500万円超の世帯が数多く存在していることが分かる最高額
は不明
239世帯の平均が157万円
階級幅が一定ではない
年間収入以上 未満
階級値
世帯数
階級幅
~200 157 239
200~250 225 368
18
表3−4の作成 1/2
139
5086239
最低収入が不明1572
200
x
86114200
114x
x
これをヒストグラムの棒の高さとする:級幅の違いを考慮に入れてやる。階級幅が広いほど,棒は低くなる。
50200250 368
5050368
50階級幅
度数
19
表 3−4 の作成 2/2
年間収入以上未満
階級値
世帯数
階級幅 世帯数÷階級幅×50=棒の高さ
1250~1500 1359 282
1500~ 1985 334
最高収入が不明
19852
1500
x
97015002470
2470x
x
25012501500
棒の面積と世帯数とが比例する。
56
50250282
17
50970334
20
階級幅を変えてグラフ化すると
0
200
400
600
800
1000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
度数(世帯数)
年間収入(万円)
図3-5 年間収入のヒストグラム
200 400 600 800 1000 1250 1500
表3-4より作成
柱の面積が世帯数と比例する
21
参考〆階級数と階級幅の決め方
階級数は、データの数に応じて決める。
log2n + 1 に近い数で、データの性質を加味して決める。
階級の幅は、最初と最後を除いて、同じ幅にする。
階級の端点は出来るだけ簡単な数字にする。
22
累積相対度数分布とローレンツ曲線
累積相対度数の応用例として、格差を表すローレンツ曲線とジニ係数について学ぶ。
「2000年において〃世界人口の貧しい方から50%の収入は、世界全体の富の1%に過ぎない(国連調査)」といった表現を、より充実させるものである。
23
遺産相続の例(分配1)
左表では〃明らかに〃相続額が不平等である〄
最も平等な配分は?
最も不平等な配分は?
相続者 相続額
長男 1000
次男 800
3男 600
4男 400
5男 1200
24
遺産相続の例(分配1)並べ替えー貧しい方から金持ちへ
人数 金額比率 累積比率
人数 金額 人数 金額
4男 1 400
3男 1 600
次男 1 800
長男 1 1000
5男 1 1200
Σ 5 4000 ー ー
2.051
15.04000600
25
遺産相続の例(分配1)
人数 金額比率 累積比率
人数 金額 人数 金額
4男 1 400 0.2 0.10
3男 1 600 0.2 0.15
次男 1 800 0.2 0.20
長男 1 1000 0.2 0.25
5男 1 1200 0.2 0.30
Σ 5 4000 1.0 1.00
2.0 1.0
25.0
45.0
26
遺産相続の例(分配1)
人数 金額比率 累積比率
人数 金額 人数 金額
4男 1 400 0.2 0.10 0.2 0.10
3男 1 600 0.2 0.15 0.4 0.25
次男 1 800 0.2 0.20 0.6 0.45
長男 1 1000 0.2 0.25 0.8 0.70
5男 1 1200 0.2 0.30 1.0 1.00
Σ 5 4000 1.0 1.00 ー ー
27
遺産相続の例(分配1)
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
金額の累積比率
人数の累積比率
図3-7 遺産配分の例のローレンツ曲線
ローレンツ曲線
累積比率
人数 金額
4男 0.2 0.10
3男 0.4 0.25
次男 0.6 0.45
長男 0.8 0.70
5男 1.0 1.00
Σ ー ー
28
遺産相続の例(分配2)
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
金額の累積比
率
人数の累積比率
図3-8 2つの分配方法のローレンツ曲線
分配1
分配2
人数金額
比率 累積比率
人数 金額 人数 金額
4男
1 600 0.2 0.15 0.2 0.15
3男
1 700 0.2 0.175 0.4 0.325
次男
1 800 0.2 0.20 0.6 0.525
長男
1 900 0.2 0.225 0.8 0.75
5男
1100
00.2 0.25 1.0 1.00
Σ 5400
01.0 1.00 ー ー
人数 金額比率 累積比率
人数 金額 人数 金額
4男 1 600 0.2 0.15 0.2 0.15
3男 1 700 0.2 0.175 0.4 0.325
次男 1 800 0.2 0.20 0.6 0.525
長男 1 900 0.2 0.225 0.8 0.75
5男 1 1000 0.2 0.25 1.0 1.00
Σ 5 4000 1.0 1.00 ー ー
29
遺産相続の例(分配2) (数式)
x1
x2
x3
x4
x5
xii1
5
p1
p2
p3
p4
p5
pii1
5
q1
q2
q3
q4
q5
qii1
5
P1
P2
P3
P4
P5
Q1
Q2
Q3
Q4
Q5
P4 p1 p2 p3 p4 P3 p4
1n
2n
3n
4n
5n
5
1i in
30
遺産相続の例(均等分布)
人数 金額
比率 累積比率
人数 金額 人数 金額
4男 1 800 0.2 0.2 0.2 0.2
3男 1 800 0.2 0.2 0.4 0.4
次男 1 800 0.2 0.2 0.6 0.6
長男 1 800 0.2 0.2 0.8 0.8
5男 1 800 0.2 0.2 1.0 1.0
Σ 5 4000 1.0 1.00 ー ー
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
金額の累積比率
人数の累積比率
図3-8 2つの分配方法のローレンツ曲線
分配1
均等分布線
分配2
31
ジニ係数とは?
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
右の図の、緑の線で囲まれた面積の2倍を、ジニ係数と呼ぶ。
ジニ係数は、0 と1 の間の数で、1 に近いとき不平等度が高くなります.
累積比率ジニ係数計算欄
人数 金額
4男 0.2 0.10
3男 0.4 0.25
次男 0.6 0.45
長男 0.8 0.70
5男 1.0 1.00
ジニ係数33
ジニ係数〆実際の計算方法
03.06.025.045.04.0
06.08.045.070.06.0
1.00.17.00.18.0
01.04.010.025.02.0
2.0
34
ジニ係数の求め方
順位累積人数
比累積金額
比
1
2
3
4
5
P1
P2
P3
P4
15 P
Q1
Q2
Q3
Q4
15 Q
P1
Q1
12 PP
2Q
23 PP
3Q
34 PP
4Q
45 PP
5Q
35
ジニ係数の求め方(式)
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
累積人数比
累積金額比
三角形か台形の面積
P1 Q1
P2 Q2
P3 Q3
P4 Q4
P5 Q5
P1 Q1
2
(P2 P1)(Q2 Q1)
2
(P3 P2 )(Q3 Q2 )
2
(P4 P3)(Q4 Q3)
2
(P5 P4 )(Q5 Q4 )
2
()
1 ()2
ジニ係数は
36
ジニ係数の公式を求める
)})(())((
))(())(({1
54454334
3223211211
QQPPQQPP
QQPPQQPPQP
ジニ係数
)}
{1
54445545
43334434
32223323
2111221211
QPQPQPQP
QPQPQPQP
QPQPQPQP
QPQPQPQPQP
37
ジニ係数の求め方( 公式)
累積人数比
累積金額比
三角形か楕円の面積
P1 Q1
P2 Q2
P3 Q3
P4 Q4
P5 Q5
P1Q2 P2Q1
)(
)()(
)(
4554
34432332
1221
QPQP
QPQPQPQP
QPQP
P2Q3 P3Q2
P3Q4 P4Q3
P4Q5 P5Q4
ジニ係数
ジニ係数
累積比率 ジニ係数計算欄人数 金額
4男 0.2 0.10
3男 0.4 0.25
次男 0.6 0.45
長男 0.8 0.70
5男 1.0 1.00
ジニ係数
4.010.025.02.0
38
ジニ係数計算法の意味
累積比率 ジニ係数計算欄人数 金額
4男 0.2 0.10
3男 0.4 0.25
次男 0.6 0.45
長男 0.8 0.70
5男 1.0 1.00
ジニ係数
4.010.025.02.0
39
ジニ係数計算法の意味
6.025.045.04.0
8.045.070.06.0
0.17.00.18.0
2.0
表1 世帯と年間収入の累積比率等(2006年、農林漁家世帯を除く全世帯)
41
年間収入階級 階級値度数 (世帯数)
総収入(階級値×度数)
比率 累積比率
世帯 収入 世帯 収入
200万円未満 157 239 37,523 0.0239 0.0059 0.0239 0.0059200万円以上~ 250万円未満 225 368 82,800 0.0368 0.0129 0.0607 0.0188250 ~ 300 275 537 147,675 0.0537 0.0231 0.1144 0.0419300 ~ 350 323 792 255,816 0.0792 0.0400 0.1936 0.0819350 ~ 400 373 880 328,240 0.0880 0.0513 0.2816 0.1332400 ~ 450 423 811 343,053 0.0811 0.0536 0.3627 0.1868450 ~ 500 473 707 334,411 0.0707 0.0523 0.4334 0.2391500 ~ 550 522 700 365,400 0.0700 0.0571 0.5034 0.2962550 ~ 600 572 531 303,732 0.0531 0.0475 0.5565 0.3437600 ~ 650 621 606 376,326 0.0606 0.0588 0.6171 0.4025650 ~ 700 673 492 331,116 0.0492 0.0518 0.6663 0.4543700 ~ 750 720 463 333,360 0.0463 0.0521 0.7126 0.5064750 ~ 800 772 387 298,764 0.0387 0.0467 0.7513 0.5531800 ~ 900 842 651 548,142 0.0651 0.0857 0.8164 0.6388900 ~ 1000 945 520 491,400 0.0520 0.0768 0.8684 0.71561000 ~ 1250 1,104 700 772,800 0.0700 0.1208 0.9384 0.83641250 ~ 1500 1,359 282 383,238 0.0282 0.0599 0.9666 0.89641500万円以上 1,985 334 662,990 0.0334 0.1036 1.0000 1.0000
合計 10,000 6,396,786 1.0000 1.0000
× =× =
ローレンツ曲線と均等分布線
42
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
年間収入
の累積比率
世帯の累積比率
図3-9 年間収入のローレンツ曲線
ローレンツ曲線
均等分布線
表3-7より作成
年間収入階級累積比率
世帯 収入
200万円未満 0.0239 0.0059200万円以上~ 250万円未満 0.0607 0.0188
250 ~ 300 0.1144 0.0419300 ~ 350 0.1936 0.0819350 ~ 400 0.2816 0.1332400 ~ 450 0.3627 0.1868450 ~ 500 0.4334 0.2391500 ~ 550 0.5034 0.2962550 ~ 600 0.5565 0.3437600 ~ 650 0.6171 0.4025650 ~ 700 0.6663 0.4543700 ~ 750 0.7126 0.5064750 ~ 800 0.7513 0.5531800 ~ 900 0.8164 0.6388900 ~ 1000 0.8684 0.71561000 ~ 1250 0.9384 0.83641250 ~ 1500 0.9666 0.89641500万円以上 1.0000 1.0000
合計
ジニ係数の計算
43
年間収入階級累積比率
ジニ係数計算欄世帯 収入
200万円未満 0.0239 0.0059200万円以上~ 250万円未満 0.0607 0.0188 0.0001
250 ~ 300 0.1144 0.0419 0.0004300 ~ 350 0.1936 0.0819 0.0013350 ~ 400 0.2816 0.1332 0.0027400 ~ 450 0.3627 0.1868 0.0043450 ~ 500 0.4334 0.2391 0.0058500 ~ 550 0.5034 0.2962 0.0080550 ~ 600 0.5565 0.3437 0.0082600 ~ 650 0.6171 0.4025 0.0119650 ~ 700 0.6663 0.4543 0.0121700 ~ 750 0.7126 0.5064 0.0137750 ~ 800 0.7513 0.5531 0.0137800 ~ 900 0.8164 0.6388 0.0284900 ~ 1000 0.8684 0.7156 0.02951000 ~ 1250 0.9384 0.8364 0.05481250 ~ 1500 0.9666 0.8964 0.03261500万円以上 1.0000 1.0000 0.0702
合計 0.2977
0.0239×0.0188
- 0.0059×0.0607
計算不要
ジニ係数
44
遺産相続の例(分配1)並べ替えー貧しい方から金持ちへ
人数 金額比率 累積比率
人数 金額 人数 金額
4男 1 400
3男 1 600
次男 1 800
長男 1 1000
5男 1 1200
Σ 5 4000 ー ー
50
ジニ係数の求め方(式)
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
累積人数比
累積金額比
三角形か台形の面積
P1 Q1
P2 Q2
P3 Q3
P4 Q4
P5 Q5
()
1 ()2
ジニ係数は