統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ...

30
1 統計学 講義 2 データの種類と整理 2016 4 15 ⽇(⾦)1 担当教員: 唐渡 広志(からと・こうじ) 研究室: 経済学研究棟4432号室 email: [email protected] website: http://www3.u-toyama.ac.jp/kkarato/

Upload: others

Post on 25-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

1

統計学 講義第 2 回 データの種類と整理

2016 年 4 ⽉ 15 ⽇(⾦)1 限担当教員: 唐渡 広志(からと・こうじ)研究室: 経済学研究棟4階432号室email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/

Page 2: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

2

講義の目的

代表的なデータの種類と加⼯⽅法について説明します。

key words: 質的データ,量的データ,クロスセクション・データ,時系列データ,⼆値変数,変化率,階級別データ,階級値,度数分布表,ヒストグラム

教科書:⽩砂 pp.9-66

⿃居 pp.1-37

⼤屋 pp.22-26

1. データの種類2. 質的データの加⼯3. 時系列データの加⼯4. 度数分布表

Page 3: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

3

データの収集(例)既婚⼥性の就業状況に関するアンケート調査:調査時点 ○○年○⽉ a. 年齢 b. 現在仕事をしているか?(1.はい,2.いいえ)

c. 現在の仕事に満⾜しているか?(1. 満⾜している,2. やや満⾜している,3. どちらともいえない,4. やや不満⾜,5. 不満⾜)

d. 現在の職種(1.事務 2.経理 3.営業 4.販売・・・)

e. 18歳未満の⼦供の数 f. 夫の年収[万円] g. 婚姻した時期(⻄暦年)・・・・・・

Page 4: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

データの集計

a b c d e f g個体番号 年齢 就業

状況仕事の満⾜度 職業 18歳未満

の⼦供の数夫の年収[万円]

婚姻時期[年]

1 39 1 2 1 0 530 20042 30 1 3 5 2 460 20073 52 2 . . 0 880 19874 36 1 2 5 2 750 20025 44 1 3 2 1 480 19976 66 2 . . 0 230 19717 27 1 2 3 0 390 20088 29 2 . . 3 540 19999 54 1 1 4 0 650 198610 25 1 1 5 1 340 2009

4

Page 5: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

5

質的データ / カテゴリカル・データ質的 = 数や量では測れない情報物事の性質で分類されたものを「カテゴリー」とよぶ 名義尺度:「b. 就業状況」,「d. 職種」

数字が分類番号としての意味しか持たない.

• 「はい」= 1,「いいえ」= 2

他の例. 学籍番号

数字の⼤きさに本質的な意味がない(数字の⼤⼩⽐較ができない)

順序尺度:「c. 仕事の満⾜度」 数字の順序に意味がある。

他の例.「1.嫌い, 2.普通,3.好き」,震度

数字による⼤⼩⽐較に意味はあるが,計算できない

• 意味のない計算:「3.好き」-「1.嫌い」 = 2 ?

• 震度1と震度2の差は震度3と震度4の差と同じではない。

Page 6: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

6

量的データ / ニューメリカル・データ量的 = 数や量で測れる情報 間隔尺度:「g. 婚姻時期」

並び⽅,値の差には意味がある,値の⽐率には意味がない。 他の例1. 平成20年⽣まれは平成10年⽣まれよりも10歳若いが,2倍若いことを意味しない。

他の例2. 気温 30℃は10℃よりも20℃⾼いが,3倍暑いことを意味しない。

⽐尺度:「a. 年齢」,「e. 18歳未満の⼦供の数」,「f. 夫の年収」 並び⽅,値の差,⽐率に意味がある。 900万円の年収は

• 300万円の年収よりも600万円だけ⾼く,300万円の年収の3倍ある

他の例. ⾝⻑,体重,⾦額,⾯積,⻑さ

Page 7: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

クロスセクション・データと時系列データ

クロスセクション・データ [Cross-sectional data](スライド #4)横断⾯データともいう.同じ期間・時期に発⽣した情報を個体ごと(個⼈,世帯,企業,地域,物体など)に並べたもの.

並べ⽅(個体番号)に意味はない.

時系列データ [Time series data]時間の順序にしたがって並べられた情報時間の単位:年,四半期(3ヶ⽉),⽉,週,⽇,時間,分,秒,・・・

7

Page 8: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

8

時系列データの例

経済学的な意味における分類・フローデータ(例. GDP)⼀定期間を単位として,当該時点または期間中に発⽣した値.

・ストックデータ(例. 政府債務残⾼)過去から蓄積された値.

・指数データ(物価指数)ある時点の値を基準にして,他の時点の値を基準値に対する⽐で表わした値.(例)各年の物価を2010年の価格に対する⽐で⽰す.2010年の価格指数はちょうど100になる.

出所:内閣府,財務省,総務省統計局

年次 GDP政府債務残⾼

消費者物価指数

単位 1兆円 10億円 2010年=100

2001 477 776689.1 101.92002 478 818560.7 101.02003 486 845917.0 100.72004 497 910014.6 100.72005 504 939458.4 100.42006 512 942424.0 100.72007 524 938808.0 100.72008 518 961380.3 102.12009 490 990554.0 100.72010 512 1041719.1 100.02011 510 1083750.4 99.72012 517 1131983.0 99.7

Page 9: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

9

債務残⾼(10億円)1,131,983.0

桁区切りと小数点(米英式)

3桁ごとの区切りにカンマ [Comma]

⼩数点にドット(or ポイント,ピリオド)

[dot, point, period]

桁区切りのカンマは桁数が⼤きいときに利⽤することが多い.

誤った使い⽅○ 0.65%× 0,65% 0、65% 0・65%

1131兆9830億円

Page 10: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

10

質的データの加工(コーディング)(1)コーディング:計算処理が可能となるような「符号化」を⾏うこと。例. カテゴリーを数字に置き変える。1 か 0 の値(2値変数)に変換する。

仕事をしている → 1 仕事をしていない→ 0

←就業している⼈の数←就業している⼈の割合

2値変数データ [binary data]の利点数字に置き変えることによって,分析しやすくなる。

個体番号 就業状況 2値変数データ1 仕事をしている 12 仕事をしている 13 仕事をしていない 04 仕事をしている 15 仕事をしている 16 仕事をしていない 07 仕事をしている 18 仕事をしていない 09 仕事をしている 110 仕事をしている 1合計 7平均 0.7

就業状況についてのワークシート

Page 11: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

11

質的データの加工(コーディング)(2)5つのカテゴリーに対応した2値変数データ 職種

1. 事務2. 経理3. 営業4. 販売5. 開発

個体 職種 職種1 職種2 職種3 職種4 職種5番号 事務 経理 営業 販売 開発

1 1 1 0 0 0 02 5 0 0 0 0 14 5 0 0 0 0 15 2 0 1 0 0 07 3 0 0 1 0 09 4 0 0 0 1 0

10 5 0 0 0 0 1合計 1 1 1 1 3平均 1/7 1/7 1/7 1/7 3/7

Page 12: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

12

練習問題 (1): 2値変数のコーディング個体番号

(id)⾎液型 A型 B型 O型 AB型

1 B 0

2 A 1

3 A 1

4 O 0

5 A 1

6 O 0

7 A 1

8 B 0

9 AB 0

10 O 0

合計 - 4

平均 - 4/10

Page 13: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

クロス集計表 (1)

13

a b a1 a2 b1 a1 = 1 & b1 =1 a2 = 1 & b1 =1個体番号 年齢 就業

状況 40歳未満 40歳以上60歳未満

仕事をしている

40歳未満で仕事をしている

40-60歳で仕事をしている

1 39 1 1 0 1 1 02 30 1 1 0 1 1 03 52 2 0 1 0 0 04 36 1 1 0 1 1 05 44 1 0 1 1 0 16 66 2 0 0 0 0 07 27 1 1 0 1 1 08 29 2 1 0 0 0 09 54 1 0 1 1 0 1

10 25 1 1 0 1 1 0合計 6 3 7 5 2

年齢が40歳未満で仕事をしている⼈は何⼈か?

項⽬ a1 :項⽬ a(年齢)が40歳未満のとき 1, それ以外は 0項⽬ a2 :項⽬ a(年齢)が40歳以上60歳未満のとき 1, それ以外は 0

Page 14: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

クロス集計表 (2)

仕事している していない 合計

年齢40歳未満 5 ( 1 ) 640-60歳 2 ( 1 ) 360歳以上 ( 0 ) ( 1 ) ( 1 )合計 7 ( 3 ) 10

14

a1 列の合計

a2 列の合計

b1 列の合計

40歳未満で仕事をしている⼈の数

40歳以上60歳未満で仕事をしている⼈の数

Page 15: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

変化率の計算例.経済成長率 = GDPの変化率

15

年次 GDP(兆円)

1年間の増分(兆円)

1年間の変化率

1年間の変化率

[%]

2009 490 - - -

2010 512 512 − 490 = 22 22/490 = 0.045 4.5

2011 510 510 − 512 = −2 −2/512 = −0.004 −0.4

2012 517 517 − 510 = 7 7/510 = 0.014 1.4

年年

年間の変化率年の

112020112012%100

%12012

1年間の差分を前年の値で割る

Page 16: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

練習問題 (2):富山市総曲輪地区の人口

16

0〜14歳 15〜64歳 65歳以上

2009年1⽉ 147 1,140 584

2014年1⽉ 158 1,115 623

5年間の差分[⼈] 11

5年間の変化率 11/147 = 0.075

5年間の変化率 [%] 7.5

5年間の⼈⼝変化を計算しなさい。

Page 17: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

リスクとリターン

17

0102030405060

-14%

-11% -7

%

-4%

-2% 2% 5% 8% 11%

14%

グリー

010203040506070

-14%

-11% -7

%-4

%

-2% 2% 5% 8% 11%

14%

任天堂

1⽇あたりの株価変化率 2013年

平均 -0.2%標準偏差 2.7%

平均 0.1%標準偏差 2.2%

Page 18: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

18

株価1日の変化率日付 始値(円) 終値(円) 変化率(%)

2⽉1⽇ 16,594.90 16,480.09 -0.7

2⽉2⽇ 16,632.60 16,710.55 0.5

2⽉3⽇ 16,596.21 16,659.64 0.4

2⽉6⽇ 16,736.23 16,747.76 0.1

2⽉7⽇ 16,768.16 16,720.99 -0.3

2⽉8⽇ 16,609.96 16,272.68 -2.0

2⽉9⽇ 16,444.74 16,439.67 0.0

2⽉10⽇ 16,525.50 16,257.83 -1.6

2⽉13⽇ 16,191.93 15,877.66 -1.9

2⽉14⽇ 15,845.19 16,184.87 2.1

2⽉15⽇ 16,302.94 15,932.83 -2.3

2⽉16⽇ 15,901.38 16,043.67 0.9

2⽉17⽇ 16,078.51 15,713.45 -2.3

2⽉20⽇ 15,620.58 15,437.93 -1.2

2⽉21⽇ 15,602.83 15,894.94 1.9

2⽉22⽇ 15,882.64 15,781.78 -0.6

2⽉23⽇ 15,908.87 16,096.10 1.2

2⽉24⽇ 16,034.67 16,101.91 0.4

2⽉27⽇ 16,156.15 16,192.95 0.2

2⽉28⽇ 16,218.62 16,205.43 -0.1

1ヶ⽉のデータはどのように散らばっているか,代表的な値はなにか?

分布を調べる

度数分布表,ヒストグラム

%100%1

始値始値終値⽇の株価変化率

Page 19: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

19

度数分布表の作成

例.変化率データ 1 %間隔の境界値を設定して,階級を作る. ○○以上○○未満

各区間に⼊るデータの数(度数)をカウントする. 階級 : class

度数 : frequency

階級(境界値の下限・上限) 度数

-3%以上-2%未満 -2.3 -2.3 2

-2%以上-1%未満 -2.0 -1.9 -1.6 -1.2 4

-1%以上 0%未満 -0.7 -0.6 -0.3 -0.1 4

0%以上 1%未満 0.0 0.1 0.2 0.4 0.4 0.5 0.9 7

1%以上 2%未満 1.2 1.9 2

2%以上 3%未満 2.1 1

・「階級」と「度数」からなるデータのことを階級別データとよび,これを表形式で⽰したものを「度数分布表」とよぶ.

・もともとの株価変化率を⽣データとよぶ

Page 20: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

20

度数分布表とヒストグラム

度数分布表

階級(境界値) 度数

-3%以上-2%未満 2

-2%以上-1%未満 4

-1%以上 0%未満 4

0%以上 1%未満 7

1%以上 2%未満 2

2%以上 3%未満 1

合計 20

階級の幅に対応させる

度数に対応させるHistogram

株価の変化率

度数

-3 -2 -1 0 1 2 30

12

34

56

7

ヒストグラム

Page 21: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

21

練習問題 (3): 度数分布表

階級(境界値)

度数

0以上 20未満

20以上 40未満

40以上 60未満

60以上 80未満

80以上 100未満

100以上

統計学期末試験の得点結果(20⼈)54 65 60 65 8544 53 35 40 3075 15 32 52 7640 60 95 57 57

Page 22: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

22

練習問題 (3): ヒストグラムの作成

8

7

6

5

4

3

2

1

00 20 40 60 80 100

Page 23: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

階級の数(境界値の決め方)

スタージェスの公式 1 + log2Nヒストグラムの「棒」は何本ぐらいが適切か(⾒易いか?)

23

N⽣データの個数 30 50 100 300 500 1000 2000 4000 8000

階級の数の⽬安 6 7 8 9 10 11 12 13 14

Page 24: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

24

相対度数の測り方

階級(境界値) (絶対)度数 相対度数

-3% 以上 -2% 未満 2 2/20 = 0.10-2% 以上 -1% 未満 4 4/20 = 0.20-1% 以上 0% 未満 4 4/20 = 0.200% 以上 1% 未満 7 7/20 = 0.351% 以上 2% 未満 2 2/20 = 0.102% 以上 3% 未満 1 1/20 = 0.05

合計 20 1

株価変化率データの度数分布表

•度数を全度数で割った値を「相対度数」とよぶ.(全度数に対する割合)•相対度数の合計は必ず1になる.

Page 25: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

25

練習問題 (4):相対度数の計算

144 143 164 152 154149 153 163 158 167156 160 167 171 159166 168 151 152 154177 158 159 155 157

境界値 (cm) 度数 相対度数

135 以上 145 未満 2

145 以上 155 未満 7

155 以上 165 未満 10

165 以上 175 未満 5

175 以上 185 未満 1

合計

25⼈の20歳⼥性の⾝⻑データ

Page 26: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

26

階級別データの平均の測り方 (1)

171, 168, 171, 165, 166, 174, 165, 167, 173, 186, 166, 177, 175, 178, 168, 173, 179, 158, 170, 173,

20⼈の20歳男性の⾝⻑データ(⽣のデータ)

階級(境界値) 階級値 度数 相対度数150 cm 以上 160 cm 未満 155 1 0.05160 cm 以上 170 cm 未満 165 7 0.35170 cm 以上 180 cm 未満 175 11 0.55180 cm 以上 190 cm 未満 185 1 0.05

合計 - 20 1

【準備】階級別データの平均 (mean) を計算するには,まず「階級値」を作成する。階級値: 各階級における境界値と境界値の中央の値

階級別データの平均 = 階級値1 ×相対度数1 + 階級値2 ×相対度数2 +・・・

Page 27: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

27

階級別データの平均の測り方 (2)階級(境界値) 階級値 度数 相対度数 階級値×相対度数

150cm以上160cm未満 155 1 0.05 155×0.05 = 7.75160cm以上170cm未満 165 7 0.35 165×0.35 = 57.75170cm以上180cm未満 175 11 0.55 175×0.55 = 96.25180cm以上190cm未満 185 1 0.05 185×0.05 = 9.25

合計 - 20 1.00 171 cm

階級別データによる平均は171cm

・合計 = 171 + 168 + 171 + 165 + 166 + 174 + 165 + 167 + 173 + 186+ 166+ 177 + 175 + 178 + 168 + 173 + 179 + 158 + 170 + 173 = 3423

・算術平均 = 合計÷ 20 = 3423 / 20 = 171.15

⽣データによる平均

【重要】階級別データと⽣データの平均は必ずしも⼀致しない(⼀致させる必要はない)

階級別データによる平均155 ×0.05 + 165 ×0.35 + 175 ×0.55 + 185 ×0.05 = 171

Page 28: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

28

練習問題 (5):階級別データの平均を計算

境界値(単位:cm) 階級値 度数 相対度数 階級値×相対度数

135以上 145未満 140 2 0.08

145以上 155未満 150 7 0.28

155以上 165未満 160 10 0.40

165以上 175未満 170 5 0.20

175以上 185未満 180 1 0.04

合計 - 25 1

Page 29: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

累積度数,累積相対度数

29

階級(境界値) 度数 累積

度数-3%以上-2%未満 2 2-2%以上-1%未満 4 6-1%以上 0%未満 4 100%以上 1%未満 7 171%以上2%未満 2 19

2%以上 3%未満 1 20合計 20

-4 -2 0 2 4

05

1015

20

株価変化率

累積

度数

階級(境界値)

相対度数

累積相対度数

-3%以上-2%未満 0.10 0.10-2%以上-1%未満 0.20 0.30-1%以上 0%未満 0.20 0.500%以上 1%未満 0.35 0.851%以上 2%未満 0.10 0.952%以上 3%未満 0.05 1合計 1

-4 -2 0 2 40.00.20.40.60.81.0

株価変化率

累積

度数

Page 30: 統計学 講義 - u-toyama.ac.jp · クロスセクション・データと時系列データ クロスセクション・データ[Cross-sectional data](ス ライド#4) 横断⾯データともいう.

30

まとめ

データは量的データと質的データに分けられる。また,4つの尺度に分類できる。

⼀時点における複数の個体の集まりのデータ(クロスセクション・データ)と時間の順序に従って並べられるデータ(時系列データ)がある。

経済データにはフローデータとストックデータがある。 データの種類に応じた加⼯⽅法がある。 データの散らばり⽅を把握するために,度数分布表とヒストグラムを利⽤する。

階級別データの平均を求めるには階級値×相対度数をすべての階級について⾜し合わせればよい。