2. データのまとめ方

36
デデデデデデデデ 2. デデデデ 2013 デデ

Upload: khuong

Post on 07-Jan-2016

22 views

Category:

Documents


0 download

DESCRIPTION

2. データのまとめ方. 保健統計  2013 年度. Ⅰ  データの種類 Ⅱ 1 変量データのまとめ方 a)  表・グラフによる記述 1)  棒グラフと折れ線グラフ 2)  度数分布表とヒストグラム、度数折れ線 3)  円グラフ、帯グラフ b)  特性値による記述 1)  代表値(中心的傾向) 2)  散布度(散らばりの傾向) Ⅲ 2 変量データのまとめ方 a)  表・グラフによる記述 1)  分割表(クロス集計表) 2)  散布図 b)  特性値による記述 1)  相関係数. Ⅰ  データの種類. 10 人の学生について下の表のような情報がえられた。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 2. データのまとめ方

2. データのまとめ方

保健統計  2013 年度

Page 2: 2. データのまとめ方

Ⅰ  データの種類Ⅱ   1 変量データのまとめ方

a)  表・グラフによる記述1)  棒グラフと折れ線グラフ2)  度数分布表とヒストグラム、度数折れ線3)  円グラフ、帯グラフ

b)  特性値による記述1)  代表値(中心的傾向)2)  散布度(散らばりの傾向)

Ⅲ   2 変量データのまとめ方a)  表・グラフによる記述

1)  分割表(クロス集計表)2)  散布図

b)  特性値による記述1)  相関係数

Page 3: 2. データのまとめ方

Ⅰ  データの種類

10 人の学生について下の表のような情報がえられた。出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数

1 2 男 山口県 170.3 61.2 1 602 3 女 山口県 155.4 48.6 4 903 4 男 広島県 168.2 54.2 5 804 2 男 福岡県 171.0 58.5 3 505 2 男 島根県 175.4 57.6 2 706 3 男 山口県 165.7 63.5 1 107 4 女 広島県 157.2 50.1 1 608 3 女 愛媛県 162.3 53.4 4 809 2 男 山口県 177.1 63.0 3 20

10 3 男 山口県 165.0 52.5 3 80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数という 7 つの変量(変数)について、 10 個の観測値を持つデータ。

Page 4: 2. データのまとめ方

• データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。

 この例では出身地(都道府県コード)、性別(男-1、女-2)を数値で表している。

出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数1 2 1 35 170.3 61.2 1 602 3 2 35 155.4 48.6 4 903 4 1 34 168.2 54.2 5 804 2 1 40 171.0 58.5 3 505 2 1 32 175.4 57.6 2 706 3 1 35 165.7 63.5 1 107 4 2 34 157.2 50.1 1 608 3 2 38 162.3 53.4 4 809 2 1 35 177.1 63.0 3 20

10 3 1 35 165.0 52.5 3 80

Page 5: 2. データのまとめ方

この表にある変量は次のように分類することができる。

<質的変量と量的変量>• 数値が量的な意味を持つ変量を量的変量、意味を持たないものを

質的変量という。• 家族の人数は数値に意味があるが、性別などは数値に意味が無い。

また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。

• 質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。

質的変量(質的変数)

量的変量(量的変数)

離散変量(離散変数)連続変量(連続変数)

性別、学年、出身地など

家族の人数、テストの点数など身長、体重など

Page 6: 2. データのまとめ方

<離散変量と連続変量>• 量的変量はさらに離散変量と連続変量に分類される。• 離散変量は家族の人数やテストの点数など、とびとびの値しかと

らない変量である。• 一方、身長や体重などは正確に測ろうとする場合、無限に細かい

数値になる。 ( 身長 171.2865...cm) このような変量は連続変量である。

テストの点数(離散変量)

50 51 52 53

身長(連続変量)

170 171 172 173

データの種類によって、まとめ方が異なる

Page 7: 2. データのまとめ方

Ⅱ   1 変量データのまとめ方• データのまとめ方には

1.表・グラフによる記述(視覚的表現)2.特性値による記述(数値的表現)

 がある。• 表・グラフによる記述は、データの特徴を一目

でとらえやすくするためにおこなわれる。• 特性値による記述は、データの特徴をまとめ、

それを用いた分析をおこなうことが中心的な役割である。

Page 8: 2. データのまとめ方

• ともにさまざまなデータの表現に利用される。• データを年次別や都道府県別に集計したものは、これらのグラフ

により記述されることが多い。(集計する項目はこの場合質的変量である)

• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)に利用される。棒グラフは時系列データにもクロスセクションデータ( 1 時点におけるデータを何らかの項目でまとめたもの)にも利用される。

a)  表・グラフによる記述  1)  棒グラフと折れ線グラフ

出典:総務省統計局『労働力調査』

0

0.5

1

1.5

2

2.5

3

3.5

1人 2人 3人 4人 5人

家族の人数

度数

10人の学生の例から作成

(テキスト 40 ページも参照)

3

3.5

4

4.5

5

5.5

6

2007

年1月

2007

年5月

2007

年9月

2008

年1月

2008

年5月

2008

年9月

2009

年1月

2009

年5月

2009

年9月

2010

年1月

2010

年5月

2010

年9月

2011

年1月

2011

年5月

2011

年9月

2012

年1月

2012

年5月

2012

年9月

2013

年1月

2013

年5月

完全

失業

率(%

)

完全失業率の推移(男女計・季節調整値)

Page 9: 2. データのまとめ方

• 単位の異なる 2 つの時系列データを 1 つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。

0.00

0.50

1.00

1.50

2.00

2.50

3.00

3.50

4.00

4.50

5.00

500

1 000

1 500

2 000

2 500

3 000

1947

1950

1953

1956

1959

1962

1965

1968

1971

1974

1977

1980

1983

1986

1989

1992

1995

1998

2001

2004

2007

2010

合計特殊出生率出生数(千人)

年次

出生数と合計特殊出生率の推移(厚生労働省『平成22年 人口動態統計』より作成)

年間出生数

合計特殊出生率

Page 10: 2. データのまとめ方

• 度数分布表は、データをいくつかの階級に分け、その度数を表の形で表したものであり、主に連続変量に利用される。

– 階級値 - その階級を代表する値。階級の上限と下限をたして 2 で割った値が用いられることが多い

– 相対度数 - 全体を 1 としたときに、それぞれの階級の度数の占める割合

– 累積度数 - 度数を下の階級からたし上げた(累積した)もの

– 累積相対度数 - 相対度数を累積したもの

  2)  度数分布表とヒストグラム、度数折れ線

下限 上限1 c1 - c2 y1 f1 f1/ n f1 f1/ n2 c2 - c3 y2 f2 f2/ n f1 f+ 2 (f1 f+ 2)/ n:m cm - cm+1 ym fm fm/ n f1 f+ 2+ f・・・+ m (f1 f+ 2+ f・・・+ m)/ n

合計 n 1

i 階級値 度数 累積度数 累積相対度数相対度数階級

(テキスト 36-38 ページも参照)

Page 11: 2. データのまとめ方

• ヒストグラムは度数分布表を棒グラフであらわしたものであり、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。

• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。

 <ヒストグラムと度数折れ線>

0

5

10

15

20

158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5

度数

階級値

身長のヒストグラム(20歳男子、107人)

Page 12: 2. データのまとめ方

• 円グラフは相対的な割合を表現するときに用いられる。• 帯グラフは相対的な割合が、時間とともにどのように

変化していくかなどを表現するときに用いられる。

    (テキスト 41 - 43 ページも参照)

  3)  円グラフ、帯グラフ

学年別の割合

40%

40%

20%

2年3年4年

出典:総務省統計局『国勢調査』10人の学生の例から作成

0% 20% 40% 60% 80% 100%

2010

1990

1970

1950

1930

年年齢3階級別総人口の推移

0-14歳

15-64歳

65歳-

Page 13: 2. データのまとめ方

• ある集団についてのデータ(例えば 50 人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。

• 中心的傾向をあらわす数値として、– 算術平均– メディアン(中央値)– モード(最頻値)

の 3 種類がある。

b)  特性値による記述  1)  代表値(中心的傾向)

Page 14: 2. データのまとめ方

• 算術平均 = データの合計 ÷ データ数(例)  10 人の数学のテストの点数

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

<算術平均>

𝑥=60+90+80+50+70+10+60+80+20+80

10=60010

=60

Page 15: 2. データのまとめ方

• メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の 2 つの値を足して 2 で割る。

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

点数の低い順に並べ替え

10 20 50 60 60 70 80 80 80 90

真ん中この 2 つを足して 2 で割った

( 60+ 70 ) ÷2=65 がメディアン

<メディアン(中央値)>

Page 16: 2. データのまとめ方

• モード - データの中で最も多く出てくる値。 10 人のテストの点数の例では

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

80 点が 3 人と最も多い。モードは 80 となる。

† データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

<モード(最頻値)>

Page 17: 2. データのまとめ方

• 下の図は貯蓄現在高階級別の世帯分布である。

出典:総務省統計局『家計簿からみたファミリーライフ』(http://www.stat.go.jp/data/kakei/family/05.htm)

• 貯蓄現在高が算術平均 (1658万円 ) より低い世帯は全世帯の 3分の 2 におよぶ。ほとんどの世帯はメディアンである 1001万円ほどの貯蓄もなく、 200万円未満の貯蓄しかない ( ここがモードである ) 。

• 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。

Page 18: 2. データのまとめ方

教員 B• チャイムと同時に教室にく

ることもあれば、15分以上遅れることもある。

教員 A• チャイムの5分後に必ず教室にくる。

• 2人の教員はともに平均してチャイムの5分後に教室にくる

• 2 人の教員の特徴を表現するために、平均だけでは不十分。

   →散らばりの尺度の必要性• 散らばりの傾向をあらわす尺度として

– 分散、標準偏差– レンジ(範囲)、四分位偏差

などがある。

b)  特性値による記述  1)  散布度(散らばりの傾向)

Page 19: 2. データのまとめ方

• 分散=偏差 2乗和 ÷ (データ数 -1)

  偏差 2乗和 - 個々のデータから算術平均を引いたもの(偏差)を 2乗して、すべて加えたもの。

10 人のテストの点数の例では

<分散>

¿64009

=711.11…

Page 20: 2. データのまとめ方

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

0 30 20 -10 10 -50 0 20 -40 20

算術平均 60 を引く

偏差

2乗を求める

0 900 400 100 100 2500 0 400 1600 400

合計を求める

6400データ数 -1(10-1) で割る

711.11

分散

Page 21: 2. データのまとめ方

• 標準偏差 ⇒ 分散の平方根

10 人のテストの点数の例では

<標準偏差>

26.666…

Page 22: 2. データのまとめ方

( 単位 :分 )

※  2 人の教員が教室に来る時間の例回 1 2 3 4 5 6 7 8 9 10

A教員 4.5 5.3 4.8 5 5.5 4.7 5.2 4.8 4.9 5.3B教員 0 6 4 5 11 4 8 5 1 6

教員 A

5

0.316…

Page 23: 2. データのまとめ方

教員 B

となり、教員 B の分散の方が大きいことがわかる。標準偏差についても、と教員 B の方が大きくなる。

5

3.16…

Page 24: 2. データのまとめ方

• レンジ ⇒ データの取りうる範囲

    レンジ = 最大値 - 最小値

• 10 人のテストの点数の例では   90 - 10=80

<レンジ(範囲)>

Page 25: 2. データのまとめ方

• データを大きさの順(小さい順)に並べて、 4分割する点を q1,q2,q3 とする。

• このとき、次式で定義される Q を四分位偏差という。

※ で定義される四分位範囲で考えることもある。

最小値 最大値q1 q2 q3

<四分位偏差>

Page 26: 2. データのまとめ方

(例) 9 人のテストの点数が次のようになっていたとする。

出席番号 1 2 3 4 5 6 7 8 9点数 60 90 80 50 70 10 60 80 20

10 20 50 60 60 70 80 80 90

点数の低い順に並べ替え

最小値 q1 q2

(メディアン)

q3 最大値

q1⇒最小値と q2 (メディアン)の真ん中の値15

2

30

2

)5080(

Q

q3 q⇒ 2 (メディアン)と最大値の真ん中の値

Page 27: 2. データのまとめ方

• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。

• 保健分野では、このパーセンタイルがよく用いられるようである。• たとえば、データを小さい順に並べたときに、 10% に当たる値の

ことを 10パーセンタイル値という。

最小値 最大値10パーセンタイル値

※ 補足(パーセンタイルについて)

10%

Page 28: 2. データのまとめ方

• 四分位点はそれぞれ、 25パーセンタイル値、 50パーセンタイル値、 75パーセンタイル値である。

• 四分位偏差は 75パーセンタイル値と 25パーセンタイル値の差の半分といえる。

最小値 最大値q1 q2 q3

25パーセンタイル値

50パーセンタイル値

75パーセンタイル値

Page 29: 2. データのまとめ方

<参考> 第 100回( 2011 年 2 月)国家試験問題

[午前 68]  体重 10パーセンタイル値の説明で正しいのはどれか。 1 . 1か月前と比べ体重が 10%増加した。  2.  同年齢で同性の児の平均体重よりも 10%軽い。  3.  同年齢で同性の児の身長相応の体重よりも 10%軽い。  4.  同年齢で同性の児 100 人中、 10 番目に軽い体重である。

    正答   4

※ 同様の問題が 第 93回( 2004 年 2 月)午前 にも出題されている。 

[問題 118]   6歳の女児。身長 108cm 、体重 20kg 。就学時健康診断で身長が 10パーセンタイル値と評価された。 正しいのはどれか。

1. 同年齢女児の 10% 相当数がこの女児と同じ身長である。2. 同年齢の女児の 100 人中 10 番目に低い身長である。3. 女児の身長は体重相応の身長より 10%低い。4. 同年齢女児の平均身長より 10%低い。

    正答  2

Page 30: 2. データのまとめ方

Ⅲ   2 変量データのまとめ方• 2 変量データ →  2 つの対になったデータ

(例)あるクラスの英語と数学のテストの点数※  A組の英語の点数と B組の数学の点数は 2 つ

のデータであるが、対になっていない。※  2 変量データはその組合せを変えることはで

きない → イチロー君の英語とヒデキ君の数学を組み合わせても、意味がない。

• 2 変量データの記述→ それぞれ 1 変量の記述 + 2 変量の関係の

記述

Page 31: 2. データのまとめ方

• 2 つの項目でクロス集計したもの

    (テキスト 38 - 39 ページ参照)

a)  表・グラフによる記述  1)  分割表(クロス集計表)

スープを飲んだ

スープを飲まなかった

合計

症状あり 45 2 47症状なし 5 23 28

合計 50 25 75

Page 32: 2. データのまとめ方

• 連続変量の場合は、 2 変量の度数分布表となる。

なでしこジャパンロンドン五輪ベンチ入りメンバー

氏名 (cm) 身長 (kg)体重 福元 美穂 165 65 海堀 あゆみ 170 64 近賀 ゆかり 161 53 矢野 喬子 164 55

岩清水 梓 162 54 鮫島 彩 163 53 熊谷 紗希 172 60

澤 穂希 165 54 宮間 あや 157 52 川澄 奈穂美 157 49 阪口 夢穂 165 58 田中 明日菜 164 52 安藤 梢 164 57 丸山 桂里奈 163 55 大野 忍 154 50

大儀見 優季 168 60 高瀬 愛実 164 60 岩渕 真奈 155 52

150- 155 155- 160 160- 165 165- 170 170- 175 計48- 51 1 1 0 0 0 251- 54 0 2 3 0 0 554- 57 0 0 3 1 0 457- 60 0 0 1 1 0 260- 63 0 0 1 1 1 363- 66 0 0 0 1 1 2

計 1 3 8 4 2 18

身長

体重

Page 33: 2. データのまとめ方

• 2 次元のヒストグラムで表すことができる。

0

1

2

3

48-5151-54

54-5757-60

60-6363-66

身長

度数

体重

なでしこジャパンの身長と体重

Page 34: 2. データのまとめ方

2) 散布図• 横軸に X 、縦軸に Y をとった座標軸上に、個々の

データをあらわしたもの。• 相関係数と密接な関係があり、相関係数が ± 1に近

いほど、散布図は直線に近くなる。

正の相関( r > 0)

• X が大きな値をとるほど、 Y も大きな値をとる。

負の相関( r < 0)

• X が大きな値をとるほど、 Y は小さな値をとる。

 無相関( r=0)

• X の値と Y の値に一定の傾向がみられない。

Page 35: 2. データのまとめ方

• 相関係数 r は 2 変量間の関連の強さを表す尺度であり、 -1 と 1 の間の値をとる。  r >0 正の相関  1 に近いほど関連度が強い  r <0 負の相関  -1 に近いほど関連度が強い  r=0 無相関

 

b)  数値による記述  1)  相関係数

(テキスト 126 - 128 ページ参照)

𝑟=∑ (𝑋 −𝑋 ) (𝑌 −𝑌 )

√∑ ( 𝑋− 𝑋 )2∑ (𝑌 −𝑌 )2

Page 36: 2. データのまとめ方

r=0.964r=0.773

45

50

55

60

65

70

150 155 160 165 170 175

体重

(kg)

身長(cm)

なでしこジャパンの身長と体重

6.0

7.0

8.0

9.0

10.0

11.0

12.0

13.0

14.0

16.0 18.0 20.0 22.0 24.0 26.0 28.0 30.0 32.0

死亡

率(‰

)

65歳以上人口の割合(%)

死亡率と65歳以上人口の割合(都道府県別、平成22年国調)