数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf ·...

31
数理統計講義資料 多変数データの整理と特性値 関係性の特性値

Upload: others

Post on 18-Jul-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

数理統計講義資料�

多変数データの整理と特性値��

���関係性の特性値���

� ���� �

Page 2: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� はじめに

❏ 単変数データと多変数データ

単変数データ��� � � �� � � � � �

縮約

���

��� 中心

��� ばらつき

多変数(�変数)データ��� ���

� � �� � � � � �

縮約

���

��、��� 中心

��、��� ばらつき

���など�関係性

この講義資料のテーマ・・・��� ��を縮約して関係性という特性を表す

� ���� �

Page 3: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ 関係性の特性値の種類Æ 量的データ同士

(・散布図)・共分散・相関係数

Æ 質的データ同士

(・分割表)・関連係数・�係数

Æ 量的データと質的データ相関比など(この講義資料では詳しくは扱わない)

� ���� �

Page 4: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

講義の構成�� 散布図

�� 共分散

�� 相関係数

� 分割表

�� 関連係数と�係数

� ���� �

Page 5: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

�� 量的データと質的データの関係性

� ���� �

Page 6: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� 散布図

共に量的なデータ��� ��を�次元平面にプロットする。�����では、�挿入� � �散布図� � �散布図(マーカーのみ)�など

� ���� �

Page 7: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

例� 都道府県別�世帯当たり�ヶ月間の収入と支出消費支出

勤め先収入 総計 食料 教育北海道 ���� � ������ ���� �����

青森県 � ���� ���� � ����� �����

岩手県 ��� � ��� �� ���� �����

宮城県 ������ ������ ����� �����

秋田県 ��� �� ������ ����� �����

山形県 ����� ������ ����� �����

福島県 ������ ������ ��� � ����

茨城県 ������ ���� � �� � �� ��

栃木県 ������ ������ ����� �����

群馬県 ��� � ������ ����� �� ��

埼玉県 ����� ������ ����� �����

千葉県 ������ ������ ����� �����

東京都 ������ ���� ����� �����

神奈川県 ������ ������ ����� �����

��� ��� ��� ��� ���

総務省統計局『全国消費実態調査』(����年、単位�万円)

� ��� �

Page 8: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

30 35 40 45 5022

24

26

28

30

32

34

1ヶ月間勤め先収入

1ヶ月間消費支出(総計)

30 35 40 45 504.5

5

5.5

6

6.5

7

7.5

1ヶ月間勤め先収入

1ヶ月間消費支出(食料)

30 35 40 45 500.5

1

1.5

2

2.5

1ヶ月間勤め先収入

1ヶ月間消費支出(教育)

支出総計と収入の関係性は強そう。食料支出と収入はまあまあ。教育支出と収入は弱そう

� ��� �

Page 9: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� 共分散

❏ 定義

��� �

��� �

�����

�� � ���� � ��

�����

�� � 中心の特性値

�� � ばらつきの特性値

��� � 関係性の特性値

とセットでよく使われる� ���� �

Page 10: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ ���の直感的な解釈��が大きい� �が大きい

�が小さい� �が小さい

というデータだと・・・� �� � ���� � ��� �

��� � ���� � ��� � �

��� � ���� � ��� � �

� � � �

� ��� � �

��が大きい� �が小さい

�が小さい� �が大きいというデータだと・・・

� �� � ���� � ��� � �

��� � ���� � ��� � �

��� � ���� � ��� � �

� � � �

� ��� �

� ���� �

Page 11: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

��が大きい� �が大きかったり小さかったり

�が小さい� �が大きかったり小さかったり

というデータだと・・・� �� � ���� � ��� �

��� � ���� � ��� � �

��� � ���� � ��� � �

� � � �

� 相殺されて���� �

���は��と��の比例関係を捉える

� ����� �

Page 12: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

例� 都道府県別�世帯当たり�ヶ月間の収入と支出

30 35 40 45 5022

24

26

28

30

32

34

1ヶ月間勤め先収入

1ヶ月間消費支出(総計)

� ���� ���

30 35 40 45 504.5

5

5.5

6

6.5

7

7.5

1ヶ月間勤め先収入

1ヶ月間消費支出(食料)

� ���� ����

30 35 40 45 500.5

1

1.5

2

2.5

1ヶ月間勤め先収入

1ヶ月間消費支出(教育)

� ���� ����

� ����� �

Page 13: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ ���の性質

��と��の共分散が��� � �� ���と � ���の共分散は�����

注��)���は単位に依存する万円単位� 教育支出と収入の���

� ����

円単位� 教育支出と収入の���� ����������

� 単位を変えると関係性の強さが見かけ上変わってしまう

注��)���の意味する関係性

��と��が比例関係(線形関係)にある時に�����は大きくなる。

��と��が非線形関係にある時は�����は必ずしも大きくならない

� ����� �

Page 14: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� 相関係数

❏ 定義

��� �

���

����

❏ 性質

� ��と��の相関係数が���

� �� ���と � ���の相関係数は

���� �� �� � �

���� �� �� �

� ���は無名数

� ����� �

Page 15: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� � � � ��� � ������

��� � �� �� � �� ���� ��� � � �� � ���� � �

����

��� � ��� �� � �� ���� ��� � � �� � ���� � � ���

��

���は比例関係(線形関係)の強さを表す。つまり、�����

強い正の比例関係・・・��� �

比例関係が弱い・・・��� �

強い負の比例関係・・・��� ��

� ����� �

Page 16: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ ���の解釈の注意点Æ ���の意味する関係性

��と��が厳密な比例関係(線形関係)にあることと ����� � �

は同値だが、��と��が非線形関係にあっても�����は必ずしも�

に近づかない

例� 有所得者�人当たり平均所得金額年齢 年収 年齢 年収

便宜上

�年齢�

を変換������

年齢 年収 年齢 年収

��歳以下 ���� � � � ��� �� ���� � � ���

����歳 ����� � ��� �� ����� � ���

� �� ����� ���� ����� �� ����� �� �����

���� ����� � �� ����� �� ����� �� �����

� �� ����� ���� �� �� �� ����� �� �� ��

���� ����� � �� ����� �� ����� �� �����

� �� ����� ��歳以上 ����� �� ����� �� �����

厚生労働省『国民生活基礎調査』(����年、単位万円)

� ����� �

Page 17: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

20 40 60 800

100

200

300

400

500

年齢

年収

rxy≒0.962

rxy≒-0.034

rxy≒-0.946

���� �

○�

�

線形関係が無いあらゆる関係が無い

であり、機械的に���だけを見るのは危険。少なくとも散布図を描くべき

� ���� �

Page 18: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

Æ ���と因果関係���� �� �が大きくなったから�が大きくなった(因果関係)�

必ずしも因果関係とは限らない。������ �でも見せかけ

の相関の場合がある

� ���� �

Page 19: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� 分割表

共に質的なデータ��� ��に対し、各カテゴリーに入るデータ数を数えて表にまとめる

� ����� �

Page 20: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

例� 居住地と自動車保有��が第�世帯の居住地、��が第�世帯が自動車を保有するかどうか

世帯数 比率自動車保有 自動車保有する しない 計 する しない 計

居住地

東京都区部 ��� �� ���

居住地

東京都区部 ����� ����� �

中都市 ����� ��� ����� 中都市 ����� ����� �

町村 ����� ��� ��� � 町村 ����� ����� �

計 ����� ���� ����� 計 ����� ����� �

総務省統計局『全国消費実態調査』(����年)より作成

(��のカテゴリー数が�、��のカテゴリー数が�なので���分割表と呼ぶ。一般には� � 分割表と呼ぶ)

大きな都市の方が自動車保有率が低い。居住地と自動車保有は関係があるようだ

� ����� �

Page 21: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� 関連係数と�係数

❏ 関連係数

Æ 定義

分割表(データ数のでも比率のでもどちらでも良い)�

自動車保有する しない 計

居住地都市 ��� ��� ��� � ��� � ���

町村 ��� ��� ��� � ��� � ���

計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ���

� ������� � ������

������ � ������

���分割表にしか対応していない

� ����� �

Page 22: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

Æ 性質自動車保有

する しない 計

居住地都市 ��� ��� ��� � ��� � ���

町村 ��� ��� ��� � ��� � ���

計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ������������

���������� � � � �

����������

���� � � �(居住地と車保有は関係無し)

��� � � �� ��� � � � � � �(関係あり)

��� � � �� ��� � � � � � ��(関係あり)� ����� �

Page 23: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ �係数Æ 定義

���������������������������������������������������������

比率ではないデータ数の分割表�

自動車保有する しない 計

居住地都市 ��� ��� ��� � ��� � ���

町村 ��� ��� ��� � ��� � ���

計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ���

� ���� �

�����

�����

��� � ���������

��������上の式は���分割表に対応するものだが、一般の� � 分割表にも対応できる

� ����� �

Page 24: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

Æ 性質自動車保有

する しない 計

居住地都市 ��� ��� ��� � ��� � ���

町村 ��� ��� ��� � ��� � ���

計 ��� � ��� � ��� ��� � ��� � ��� � � ��� � ��� � ��� � ������������

��������� � � � �

����������

���� � � �(関係無し)

��� � ��� � � � � � �(関係あり)

��� � ��� � � � � � �(関係あり)� ����� �

Page 25: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ 例� 居住地と自動車保有

世帯数 比率自動車保有 自動車保有する しない 計 する しない 計

居住地東京都区部 ��� �� ���

居住地東京都区部 ����� ����� �

町村 ����� ��� ��� � 町村 ����� ����� �

計 ����� ���� ����� 計 ����� ����� �

� � � ����� 、 � � ����

世帯数 比率自動車保有 自動車保有する しない 計 する しない 計

居住地中都市 ����� ��� �����

居住地中都市 ����� ����� �

町村 ����� ��� ��� � 町村 ����� ����� �

計 ����� � �� ����� 計 ���� ���� �

� � � ���� 、 � � ����

� ����� �

Page 26: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ 関係性の調べ方の注意

居住地と自動車保有は関係があるか調べたい� 町村部の世帯にアンケート�

自動車保有する しない 計

居住地 町村 �� � ���

� これだけで関係があるとするのは誤り都市部の世帯にもアンケートしないと、

自動車保有する しない 計

居住地都市 �� � �

町村 �� � ���

計 ��� � � �

� � � � 、 � � �

自動車保有する しない 計

居住地都市 � � �

町村 �� � ���

計 �� � � �

� � � �� 、 � � ����

解らない

� ����� �

Page 27: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

ある占いを試したら、実際

良い 悪い 計運勢 良い �� � ��

� これだけで当たるとするのは誤り運勢が悪い時も調べると、

実際良い 悪い 計

運勢良い �� � ��

悪い �� � �

計 �� � �

� � � � 、 � � �

かもしれない

� ���� �

Page 28: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

�町村部の自動車保有運勢が良かった時の出来事

といった一部のカテゴリーだけを調べても関係性は把握できない。�

都市部の自動車保有運勢が悪かった時の出来事

といった全てのカテゴリーを調べ、カテゴリーの変化によるデータの変動で関係性を捉える

� ���� �

Page 29: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

注�)質的データ�量的データ�

��を占いでの運勢、��を実際の出来事とする��� � 良い、普通、悪い

�� � 良い、普通、悪い

� ��� ��は共に質的データ

� �(良い、悪いの�カテゴリーの場合のみ)、�を使う

��� � 何らかの点数

�� � 何らかの点数

� ��� ��は共に量的データ

� ���、���を使う

� ����� �

Page 30: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

� 量的データと質的データの関係性

❏ 相関比

関係性の強さを��の値で表す。アイデアとしては���に似ている。詳しくは高橋 信� トレンドプロ� 「マンガでわかる統計学」� オーム社�

����年�

参照

❏ 線形回帰分析

��が量的データ、��が質的データの場合。説明変数��をダミー変数として被説明変数��に線形回帰モデルを当てはめる。詳しくは山本 拓� 「計量経済学」� 新世社� ��� 年�参照

� ����� �

Page 31: 数理統計講義資料 多変数データの整理と特性値hchigira/st166.pdf · 2016-09-20 · はじめに 単変数データと多変数データ 単変数データ 縮約

❏ 質的変量分析��が質的データ、��が量的データの場合。被説明変数を��、説明

変数を��とした質的変量モデルを当てはめる。詳しくは浅野 皙� 中村 二朗 � 「計量経済学(第�版)」� 有斐閣� ����年�

参照

� ����� �