第 1 章 記述統計の復習

47
第 1 第 第第第第第第第 第第第 2013 第第

Upload: jemima

Post on 08-Jan-2016

30 views

Category:

Documents


9 download

DESCRIPTION

第 1 章 記述統計の復習. 統計学  2013 年度. Ⅰ  データの種類 Ⅱ 1 変量データのまとめ方 a)  特性値による記述 代表値(中心的傾向) ⅰ)  算術平均  ⅱ)  メディアン  ⅲ)  モード  ⅳ)  各代表値の特徴 2)  散布度(散らばりの傾向) ⅰ)  分散  ⅱ)  標準偏差  ⅲ)  レンジ  ⅳ)  四分位範囲、四分位偏差 b)   表・グラフによる記述 1)  折れ線グラフ・棒グラフ・円グラフ・帯グラフ 2)  度数分布表 3)  ヒストグラム・度数折れ線 4) 箱 ひげ 図 5 )  度数分布表における算術平均・分散 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 1 章 記述統計の復習

第 1 章 記述統計の復習

統計学  2013 年度

Page 2: 第 1 章 記述統計の復習

Ⅰ  データの種類Ⅱ   1 変量データのまとめ方

a)  特性値による記述1) 代表値(中心的傾向)

ⅰ)  算術平均 ⅱ )  メディアン ⅲ )  モード ⅳ )  各代表値の特徴

2)  散布度(散らばりの傾向)ⅰ)  分散 ⅱ )  標準偏差 ⅲ )  レンジ ⅳ )  四分位範囲、四分

位偏差b)   表・グラフによる記述

1)  折れ線グラフ・棒グラフ・円グラフ・帯グラフ2)  度数分布表3)  ヒストグラム・度数折れ線4)  箱ひげ図5)  度数分布表における算術平均・分散

Ⅲ   2 変量データのまとめ方a)  特性値による記述

2) 相関係数b)  表・グラフによる記述

1)  分割表(クロス集計表)・ 2 次元ヒストグラム2)  散布図

Page 3: 第 1 章 記述統計の復習

Ⅰ  データの種類

10 人の学生について下の表のような情報がえられた。出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数

1 2 男 山口県 170.3 61.2 1 602 3 女 山口県 155.4 48.6 4 903 4 男 広島県 168.2 54.2 5 804 2 男 福岡県 171.0 58.5 3 505 2 男 島根県 175.4 57.6 2 706 3 男 山口県 165.7 63.5 1 107 4 女 広島県 157.2 50.1 1 608 3 女 愛媛県 162.3 53.4 4 809 2 男 山口県 177.1 63.0 3 20

10 3 男 山口県 165.0 52.5 3 80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数という 7 つの変量(変数)について、 10 個の観測値を持つデータ。

Page 4: 第 1 章 記述統計の復習

• データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。

 この例では出身地(都道府県コード)、性別(男-1、女-2)を数値で表している。

出席番号 学年 性別 出身地 身長 体重 家族の人数 テストの点数1 2 1 35 170.3 61.2 1 602 3 2 35 155.4 48.6 4 903 4 1 34 168.2 54.2 5 804 2 1 40 171.0 58.5 3 505 2 1 32 175.4 57.6 2 706 3 1 35 165.7 63.5 1 107 4 2 34 157.2 50.1 1 608 3 2 38 162.3 53.4 4 809 2 1 35 177.1 63.0 3 20

10 3 1 35 165.0 52.5 3 80

Page 5: 第 1 章 記述統計の復習

この表にある変量は次のように分類することができる。

<質的変量と量的変量>• 数値が量的な意味を持つ変量を量的変量、意味を持たないものを

質的変量という。• 家族の人数は数値に意味があるが、性別などは数値に意味が無い。

また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。

• 質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。

質的変量(質的変数)

量的変量(量的変数)

離散変量(離散変数)連続変量(連続変数)

性別、学年、出身地など

家族の人数、テストの点数など身長、体重など

Page 6: 第 1 章 記述統計の復習

<離散変量と連続変量>• 量的変量はさらに離散変量と連続変量に分類される。• 離散変量は家族の人数やテストの点数など、とびとびの値しかと

らない変量である。• 一方、身長や体重などは正確に測ろうとする場合、無限に細かい

数値になる。 ( 身長 171.2865...cm) このような変量は連続変量である。

テストの点数(離散変量)

50 51 52 53

身長(連続変量)

170 171 172 173

データの種類によって、まとめ方が異なる

Page 7: 第 1 章 記述統計の復習

Ⅱ   1 変量データのまとめ方

• データのまとめ方には1.特性値による記述(数値的表現)2.表・グラフによる記述(視覚的表現)

 がある。

• 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。

• 表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。

Page 8: 第 1 章 記述統計の復習

• ある集団についてのデータ(例えば 50 人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。

• 中心的傾向をあらわす数値として、– 算術平均– メディアン(中央値)– モード(最頻値)

の 3 種類がある。

a)  特性値による記述  1)  代表値(中心的傾向)

Page 9: 第 1 章 記述統計の復習

• 算術平均 = データの合計 ÷ データ数

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

ⅰ)  算術平均

(例)  10 人のテストの点数

𝑥=60+90+80+50+70+10+60+80+20+80

10=60010

=60

𝑥=𝑥1+𝑥2+⋯+𝑥𝑛

𝑛=∑𝑖=1

𝑛

𝑥 𝑖  

𝑛

Page 10: 第 1 章 記述統計の復習

• メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の 2 つの値を足して 2 で割る。

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

点数の低い順に並べ替え

10 20 50 60 60 70 80 80 80 90

真ん中この 2 つを足して 2 で割った

( 60 + 70 ) ÷2=65 がメディアン

ⅱ)  メディアン(中央値、中位数)

Page 11: 第 1 章 記述統計の復習

• モード - データの中で最も多く出てくる値。 10 人のテストの点数の例では

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

80 点が 3 人と最も多い。モードは 80 となる。

† データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

ⅲ)  モード(最頻値)

Page 12: 第 1 章 記述統計の復習

• 下の表は 2012 年の福岡ソフトバンクホークスと埼玉西武ライオンズの投手別勝利数(上位 5 人)である。

ⅳ)  各代表値の特徴

データ出典:日本野球機構オフィシャルサイト (www.npb.or.jp)

• ソフトバンクの算術平均は 10.2 勝、西武の算術平均は 9.6 勝と、差はあまり大きくない。

• ソフトバンクは、算術平均以上は摂津、大隣の 2 人で、メディアンは8 勝と小さくなるのに対し、西武は、算術平均以上が 3 人いて、メディアンも 10 勝と大きくなる。これは 2012 年のソフトバンクが、摂津、大隣の 2 人に頼っていたのに対し、西武は合格点の投手が多数いたことを示している。

摂津 17牧田 13大隣 12岸 11武田 8 ( )石井 一 10山田 8 野上 8新垣 6十亀 6

算術平均 10.2 算術平均 9.6メディアン 8 メディアン 10

ソフトバンク 埼玉西武

Page 13: 第 1 章 記述統計の復習

下の図は貯蓄現在高階級別の世帯分布である。

出典:総務省統計局『家計簿から見たファミリーライフ』(http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

• 貯蓄現在高が算術平均 (1664万円 ) より低い世帯は全世帯の 3分の 2 におよぶ。ほとんどの世帯はメ

ディアンである 991万円ほどの貯蓄もなく、 200万円未満の貯蓄しかない ( ここがモードである ) 。

• 少数の大金持ちと多数の庶民がいるた

め、このようなことがおこる。

Page 14: 第 1 章 記述統計の復習

051015202530354045

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

度数

階級

右にゆがんだ分布の例

051015202530354045

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

度数

階級

左右対称な分布の例(1)

051015202530354045

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

度数

階級

左右対称な分布の例(2)

ゆがんだ分布であれば、算術平均とメディアンは一致しない。

(モードも一致しない)左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が 1 つであれば、モード

もこれに一致する。

Page 15: 第 1 章 記述統計の復習

• 算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。

• しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か)

• しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。

   算術平均をうのみにしないようにしよう!

Page 16: 第 1 章 記述統計の復習

教員 B• チャイムと同時に教室にく

ることもあれば、10分以上遅れることもある。

教員 A• チャイムの5分後に必ず教室にくる。

• 2人の教員はともに平均してチャイムの5分後に教室にくる

• 2 人の教員の特徴を表現するために、平均だけでは不十分。

   →散らばりの尺度の必要性• 散らばりの傾向をあらわす尺度として

– 分散、標準偏差– レンジ(範囲)、四分位偏差

などがある。

b)  特性値による記述  1)  散布度(散らばりの傾向)

Page 17: 第 1 章 記述統計の復習

• 分散=偏差 2乗和 ÷ データ数  偏差 2乗和 - 個々のデータから算術平均を引いたも

の(偏差)を 2乗して、すべて加えたもの。

10 人のテストの点数の例では

ⅰ) 分散

𝑠2=(𝑥1− 𝑥 )2+ (𝑥2−𝑥 )2+⋯+ (𝑥𝑛−𝑥 )2

𝑛=∑𝑖=1

𝑛

(𝑥 𝑖−𝑥 )2

𝑛

¿640010

=640

Page 18: 第 1 章 記述統計の復習

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

0 30 20 -10 10 -50 0 20 -40 20

算術平均 60 を引く

偏差

2乗を求める

0 900 400 100 100 2500 0 400 1600 400

合計を求める

6400データ数 (10) で割る

640 分散

Page 19: 第 1 章 記述統計の復習

• 標準偏差 ⇒ 分散の平方根

10 人のテストの点数の例では

ⅱ ) 標準偏差

𝑠=√𝑠2=√∑𝑖=1𝑛

(𝑥𝑖−𝑥 )2

𝑛

25.298…

Page 20: 第 1 章 記述統計の復習

(単位 : 分 )※  2 人の教員が教室に来る時間の例回 1 2 3 4 5 6 7 8 9 10

A教員 4.5 5.3 4.8 5 5.5 4.7 5.2 4.8 4.9 5.3B教員 0 6 4 5 11 4 8 5 1 6

教員 A

5

0.3

Page 21: 第 1 章 記述統計の復習

教員 B

となり、教員 B の分散の方が大きいことがわかる。

標準偏差についても、と教員 B の方が大きくなる。

5

3

Page 22: 第 1 章 記述統計の復習

• データを大きさの順(小さい順)に並べて、 4 分割する点を q1,q2,q3 とする。

• このとき、四分位範囲、四分位偏差は次式で定義される。

最小値 最大値q1 q2 q3

ⅳ ) 四分位範囲、四分位偏差

•  レンジ ⇒ データの取りうる範囲

    レンジ = 最大値 - 最小値

•   10 人のテストの点数の例では   90 - 10 =80

ⅲ ) レンジ(範囲)

Page 23: 第 1 章 記述統計の復習

(例) 9 人のテストの点数が次のようになっていたとする。

出席番号 1 2 3 4 5 6 7 8 9点数 60 90 80 50 70 10 60 80 20

10 20 50 60 60 70 80 80 90

点数の低い順に並べ替え

最小値 q1 q2

(メディアン)

q3 最大値

q1⇒ 最小値と q2 (メディアン)の真ん中の値

q3 q⇒ 2 (メディアン)と最大値の真ん中の値

Page 24: 第 1 章 記述統計の復習

• 集団の特徴をあらわすためには、代表値や散布度などの数値とともに、さまざまな表やグラフが用いられる。

• なかでも、折れ線グラフと棒グラフは、さまざまなデータの表現に利用される。

• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)に利用される。棒グラフは時系列データにもクロスセクションデータ( 1時点におけるデータを何らかの項目でまとめたもの)にも利用される。

b)  表・グラフによる記述  1)   折れ線グラフ・棒グラフ・円グラフ・帯グラフ

出典:総務省統計局『労働力調査』 出典:日本野球機構オフィシャルサイト

3

3.5

4

4.5

5

5.5

6

2007

年1月

2007

年5月

2007

年9月

2008

年1月

2008

年5月

2008

年9月

2009

年1月

2009

年5月

2009

年9月

2010

年1月

2010

年5月

2010

年9月

2011

年1月

2011

年5月

2011

年9月

2012

年1月

2012

年5月

完全失業率(%

)

完全失業率の推移(男女計・季節調整値)

Page 25: 第 1 章 記述統計の復習

年 鳥取県 島根県 岡山県 広島県 山口県2001 61 72 190 251 1522002 79 73 169 202 1412003 61 74 175 187 1292004 51 47 159 189 1062005 45 69 148 187 1162006 39 46 144 165 1082007 34 42 115 132 1152008 30 42 114 128 912009 37 33 107 142 1082010 42 31 109 127 962011 26 31 106 113 742012 30 45 112 125 56

鳥取県の交通事故死亡者数の年次推移  → 時系列データ

(単位:人)

2012 年の県別交通事故死亡者数  → クロスセクションデータ

(例) 交通事故死亡者数の推移 ( 中国地方 5県 )

(データ出典: 警察庁「交通事故死者数について」 )

<時系列データとクロスセクションデータ>

Page 26: 第 1 章 記述統計の復習

050

100150200250300350400450500

北海

道青森岩

手宮城秋田

山形

福島茨城栃木群馬

埼玉千葉東京神奈川

新潟富

山石川

福井

山梨

長野岐阜静

岡愛知三

重滋賀京

都大阪兵庫奈良和歌

山鳥取

島根

岡山

広島

山口徳

島香川

愛媛高知

福岡佐賀

長崎熊

本大

分宮崎鹿児

島沖縄

都道府県別高等学校数(2012年5月1日現在)

???

クロスセクションデータには、通常棒グラフを

用いる。

出典:文部科学省『学校基本調査』

右の図は上の図を折れ線グラフで描きなおしたものであるが、隣り合う県†ど

うしを線で結んでも、そこに意

味はない。† 都道府県コードの順なので、必ずしも隣接してはいない。

050

100150200250300350400450500

北海

道青森岩

手宮城秋田

山形

福島茨城栃木群馬

埼玉千葉東京神奈川

新潟富

山石川

福井

山梨

長野岐阜静

岡愛知三

重滋賀京

都大阪兵庫奈良和歌

山鳥取

島根

岡山

広島

山口徳

島香川

愛媛高知

福岡佐賀

長崎熊

本大

分宮崎鹿児

島沖縄

都道府県別高等学校数(2012年5月1日現在)

Page 27: 第 1 章 記述統計の復習

• 単位の異なる 2 つの時系列データを 1 つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。

0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 4.00 4.50 5.00

500

1 000

1 500

2 000

2 500

3 000

1947

1950

1953

1956

1959

1962

1965

1968

1971

1974

1977

1980

1983

1986

1989

1992

1995

1998

2001

2004

2007

合計特殊出生率出生数(千人)

年次

出生数と合計特殊出生率の推移(厚生労働省『平成21年 人口動態統計』より作成)

年間出生数

合計特殊出生率

棒グラフは前述のように、クロスセクションデータ対して用いるが、時系列データに用いられることも少なくない。

Page 28: 第 1 章 記述統計の復習

• 円グラフは相対的な割合を表現するときに用いられる。• 帯グラフは相対的な割合が、時間とともにどのように

変化していくかなどを表現するときに用いられる。

    

学年別の割合

40%

40%

20%

2年3年4年

出典:総務省統計局『国勢調査』10人の学生の例から作成

0% 20% 40% 60% 80% 100%

2010

1990

1970

1950

1930

年年齢3階級別総人口の推移

0-14歳

15-64歳

65歳-

Page 29: 第 1 章 記述統計の復習

• 質的変量および量的変量のうち離散変量は、棒グラフや円グラフとして表すことができる。

• では、連続変量を棒グラフで表したい場合どのようにすればよいであろうか?そのままあらわすと下図のようになる。

• このような棒グラフでは、集団の特徴がよくわからない。

  2)  度数分布表

( )身長の棒グラフ男子

0

1

16

5

16

6

16

6

16

7

16

8

16

9

16

9

17

0

17

1

17

1

17

2

17

3

17

3

17

4

17

5

17

5

17

6

17

7

17

8

度数

Page 30: 第 1 章 記述統計の復習

• そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。

†  その階級を代表する値を階級値という。階級の上限と下限をたして 2で割った値が用いられることが多い。

なでしこジャパンロンドン五輪ベンチ入りメンバー

氏名 (cm) 身長 (kg)体重 福元 美穂 165 65 海堀 あゆみ 170 64 近賀 ゆかり 161 53 矢野 喬子 164 55

岩清水 梓 162 54 鮫島 彩 163 53 熊谷 紗希 172 60

澤 穂希 165 54 宮間 あや 157 52 川澄 奈穂美 157 49 阪口 夢穂 165 58 田中 明日菜 164 52 安藤 梢 164 57 丸山 桂里奈 163 55 大野 忍 154 50

大儀見 優季 168 60 高瀬 愛実 164 60 岩渕 真奈 155 52

階 級以上 未満150 - 155 152.5 1155 - 160 157.5 3160 - 165 162.5 8165 - 170 167.5 4170 - 175 172.5 2

計 18

階級値 度数

Page 31: 第 1 章 記述統計の復習

• 度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。

†  質的変量や離散変量の場合は、とりうる値 1つ 1つが階級となる。ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。

Page 32: 第 1 章 記述統計の復習

3 ) ヒストグラム・度数折れ線

• 度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。

• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。

(20 107 )身長のヒストグラム 歳男子、 人

0

5

10

15

20

159 161 163 165 167 169 171 173 175 177 179 181 183

階級値

度数

0123456789

152.5 157.5 162.5 167.5 172.5

度数

階級値

なでしこジャパンの身長

Page 33: 第 1 章 記述統計の復習

• 度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。

0

1

2

3

4

5

6

49 51 53 55 57 59 61 63 65

度数

階級値

体重のヒストグラム(階級幅2kg)

0123456789

47.5 52.5 57.5 62.5 67.5

度数

階級値

体重のヒストグラム(階級幅5kg)

01234567

48.5 51.5 54.5 57.5 60.5 63.5 66.5

度数

階級値

体重のヒストグラム(階級幅3kg(a))

0

1

2

3

4

5

6

49.5 52.5 55.5 58.5 61.5 64.5

度数

階級値

体重のヒストグラム(階級幅3kg(b))

Page 34: 第 1 章 記述統計の復習

0

10

20

30

40

50

60

70

80

90

100

9人のテストの点数の箱ひげ図

最大値

q3 (第 3 四分位点)

q1 (第 1 四分位点)

最小値

4) 箱ひげ図

最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、 9 人のテストの点数を箱ひげ図に表した 1 例である。

× 中央値

Page 35: 第 1 章 記述統計の復習

異なる 2 つのグループのデータを、箱ひげ図に表して比較することも可能である。

Page 36: 第 1 章 記述統計の復習

• 先の例では、なでしこ JAPAN18 人の身長のデータを度数分布表にまとめた。

• 反対に個々のデータが入手できず、度数分布表のみ入手できる場合がある。その場合、度数分布表から 18 人の身長の算術平均、分散の近似値を求めることができる。

• 上のような度数分布表のみが入手できたとする。• この度数分布表で、 155cm以上 160cm未満の階級は 3

人いるが、この 3 人の個々の身長については情報がないとする。

5)  度数分布表における算術平均・分散の導出

階 級以上 未満150 - 155 152.5 1155 - 160 157.5 3160 - 165 162.5 8165 - 170 167.5 4170 - 175 172.5 2

計 18

階級値 度数

Page 37: 第 1 章 記述統計の復習

階 級以上 未満150 - 155 152.5 1155 - 160 157.5 3160 - 165 162.5 8165 - 170 167.5 4170 - 175 172.5 2

計 18

階級値 度数

• 4 人全員が上限のあたりや下限のあたり (3 人全員が 155cmとか、 3 人全員が 159cm とか ) という状態はあまり考えられない。通常は上限の近くから下限の近くまで適当に散らばっていると考えられる。このとき、 3 人の算術平均を取れば階級の真ん中あたりの値となると考えるのは自然な発想である。

• 階級値は、そういう意味で階級を代表する値である。• 算術平均、分散を求める場合、 3 人全員が階級値の

157.5cm であったと仮定する。

y1y2y3y4

f1f2f3f4

• 算術平均を求める場合、この階級 3 人の個々の身長について、何らかの仮定が必要となる。

y5 f5

Page 38: 第 1 章 記述統計の復習

• 算術平均を求める場合、 3 人の身長の合計は3×157.5 = 472.5(cm)

  となる。 ( 記号で表すと f2y2)• このように、各階級について 度数 × 階級値 (fiyi) を求め、

それを全階級について加えたものが全員の身長の合計( に近い値 ) と考えられる。

• よって、算術平均は(度数 × 階級値)の総和 ÷ 度数の総和

  として求められる。

𝑦=𝑓 1 𝑦1+ 𝑓 2 𝑦2+⋯+ 𝑓 𝑚 𝑦𝑚

𝑓 1+ 𝑓 2+⋯+ 𝑓 𝑚=∑𝑖=1

𝑚

𝑓 𝑖 𝑦 𝑖

∑𝑖=1

𝑚

𝑓 𝑖

Page 39: 第 1 章 記述統計の復習

階 級以上 未満150 - 155 152.5 1 152.5 23256.25155 - 160 157.5 3 472.5 74418.75160 - 165 162.5 8 1300 211250165 - 170 167.5 4 670 112225170 - 175 172.5 2 345 59512.5

計 18 2940 480662.5

(y階級値 i) (f度数 i) fiyi fiyi2

• 度数分布表において算術平均を求めるには、度数 × 階級値 (fiyi) の列を計算し、その和を求める。

• そしてその和を度数の合計で割れば算術平均が求まる。

• 算術平均は

  となる。  (元のデータから算術平均を求めると、 162.94cm と

なる)

𝑦=294018

=163.333⋯

Page 40: 第 1 章 記述統計の復習

• 分散の計算において、この階級の 3 人の偏差 2乗和は3× ( 157.5 – 163.33)2 = 3×33.9889 = 101.9667

  となる。• 各階級について 度数 × (階級値-算術平均) 2 を求め、

その総和を度数の総和で割ったものが分散となる。

𝑠2=𝑓 1 (𝑦 1− 𝑦 )2+ 𝑓 2 ( 𝑦2− 𝑦 )2+⋯+ 𝑓 𝑚 ( 𝑦𝑚− 𝑦 )2

𝑓 1+ 𝑓 2+⋯+ 𝑓 𝑚=∑𝑖=1

𝑚

𝑓 𝑖 (𝑦 𝑖− 𝑦 )2

∑𝑖=1

𝑚

𝑓 𝑖

Page 41: 第 1 章 記述統計の復習

 この式は次のように変形できる。

 よって、 fiyi2 の列を求め、その総和を度数の総和で割り、

算術平均の 2乗を引いたものが分散の近似値となる。

  (元のデータから分散を求めると、 21.83 となる)

2

21

2222

211

2

21

2222

211

21

212

221122

22211

21

222222

222

2111

211

21

2222

2112

2

)()(2

222

)()()(

yfff

yfyfyf

yyyfff

yfyfyf

fff

fffyyfyfyfyyfyfyf

fff

yfyyfyfyfyyfyfyfyyfyf

fff

yyfyyfyyfs

m

mm

m

mm

m

mmmmm

m

mmmmm

m

mm

𝑠2=480662.518

− (163.33 )2=26703.47−26676.69=26.78

Page 42: 第 1 章 記述統計の復習

Ⅲ   2 変量データのまとめ方• 2 変量データ →  2 つの対になったデータ

(例)なでしこ JAPAN の身長と体重※ なでしこ JAPAN の身長と男子日本代表の体重

は 2 つのデータであるが、対になっていない。※  2 変量データはその組合せを変えることはで

きない → 澤の身長と川澄の体重を組み合わせても、意味がない。

• 2 変量データの記述→  それぞれ 1 変量の記述 + 2 変量の関係の

記述

Page 43: 第 1 章 記述統計の復習

• 相関係数 r は 2 変量間の関連の強さを表す尺度であり、 -1 と 1 の間の値をとる。  r >0 正の相関  1 に近いほど関連度が強い  r <0 負の相関  -1 に近いほど関連度が強い  r =0 無相関

 後で説明する散布図と密接な関係がある。

a)  特性値による記述  1)  相関係数

𝑟=∑ (𝑥𝑖−𝑥 ) (𝑦 𝑖− 𝑦 )

√∑ (𝑥𝑖−𝑥 )2∑ ( 𝑦 𝑖− 𝑦 )2

Page 44: 第 1 章 記述統計の復習

• 2 変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。

• 質的変量、または離散変量で取りうる値の少ないものは、それぞれに対応する度数を数えればよい。

例 )  血液型と性別でクロス集計したもの男 女 計

A型 16 1 17B型 9 2 11O型 16 3 19AB型 3 3 6計 44 9 53

b)  表・グラフによる記述  1)  分割表(クロス集計表)・ 2 次元ヒストグラム

Page 45: 第 1 章 記述統計の復習

150- 155 155- 160 160- 165 165- 170 170- 175 計48- 51 1 1 0 0 0 251- 54 0 2 3 0 0 554- 57 0 0 3 1 0 457- 60 0 0 1 1 0 260- 63 0 0 1 1 1 363- 66 0 0 0 1 1 2

計 1 3 8 4 2 18

身長

体重

氏名 (cm) 身長 (kg)体重 福元 美穂 165 65 海堀 あゆみ 170 64 近賀 ゆかり 161 53 矢野 喬子 164 55

岩清水 梓 162 54 鮫島 彩 163 53 熊谷 紗希 172 60

澤 穂希 165 54 宮間 あや 157 52 川澄 奈穂美 157 49 阪口 夢穂 165 58 田中 明日菜 164 52 安藤 梢 164 57 丸山 桂里奈 163 55 大野 忍 154 50

大儀見 優季 168 60 高瀬 愛実 164 60 岩渕 真奈 155 52

• 一方、連続データや離散データでとりうる値の多いものは、 2 次元の度数分布表となる。

   2 次元の度数分布表は、右のように 2 次元ヒストグ

ラム(グラフは 3D )であらわすことができる。

なでしこジャパンロンドン五輪ベンチ入りメンバー

0

1

2

3

4

身長

度数

体重

なでしこジャパンの身長と体重

Page 46: 第 1 章 記述統計の復習

氏名 (cm) 身長 (kg)体重 福元 美穂 165 65 海堀 あゆみ 170 64 近賀 ゆかり 161 53 矢野 喬子 164 55

岩清水 梓 162 54 鮫島 彩 163 53 熊谷 紗希 172 60

澤 穂希 165 54 宮間 あや 157 52 川澄 奈穂美 157 49 阪口 夢穂 165 58 田中 明日菜 164 52 安藤 梢 164 57 丸山 桂里奈 163 55 大野 忍 154 50

大儀見 優季 168 60 高瀬 愛実 164 60 岩渕 真奈 155 52

• 連続データや離散データでとりうる値の多いものは、横軸に X 、縦軸に Yをとった座標軸上に、個々のデータをあらわした散布図であらわされることも多い。

2) 散布図

150 155 160 165 170 17545

50

55

60

65

70

なでしこジャパンの身長と体重

身長 (cm)

体重(kg)

なでしこジャパンロンドン五輪予選ベンチ入りメン

バー

Page 47: 第 1 章 記述統計の復習

• 相関係数と散布図は密接な関係があり、右上がりの散布図は相関係数が+であり、右下がりの散布図は相関係数が-である。

• また、相関係数が ± 1に近いほど、散布図は直線に近くなる。

正の相関( r > 0)

• X が大きな値をとるほど、 Y も大きな値をとる。

負の相関( r < 0)

• X が大きな値をとるほど、 Y は小さな値をとる。

 無相関( r=0)

• X の値と Y の値に一定の傾向がみられない。