文系でもわかる統計学入門 -...

34
文系でもわかる統計学入門 4回 多変量解析① ~科学的分析ツール:多変量解析~ 共栄大学 国際経営学部 専任講師 矢野佑樹

Upload: others

Post on 22-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

文系でもわかる統計学入門

第4回 多変量解析①

~科学的分析ツール:多変量解析~

共栄大学 国際経営学部 専任講師

矢野佑樹

Page 2: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

自己紹介

矢野佑樹(やのゆうき)

共栄大学 国際経営学部 専任講師

Ph.D.,農業・環境経済学,ペンシルバニア州立大学

博士研究員,スウェーデン農業科学大学

<研究>

エネルギー価格が農業生産資材価格や食品価格に与える影響

バイオ燃料政策が農産物の国際価格に与える影響

農業・環境政策,不確実性下における生産者の行動分析など

<書籍>

「ビジュアル ビジネスに活かす統計入門」日本経済新聞出版社(2012)

Page 3: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

多変量解析とは

• 気温とアイスの売上個数の関係

• 最寄り駅からの距離と来店客数の関係

• 店舗面積,駐車場の広さ,来店客数の関係

2種類以上のデータ(変数)を同時に分析する

Page 4: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

2つのデータ間の関係

No. チラシ配布枚数 来店者数

1 100 110

2 155 253

3 150 277

4 165 248

5 120 161

6 140 173

7 130 138

8 145 204

9 110 103

10 135 163

Page 5: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

散布図(相関図)

Page 6: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

どのようにデータの関係を測ったよいのか?

• どのような関係にあるのか?

• その関係の強さはどのくらいか?

2つのデータの関係を数値で表すとしたら,どのようにすればよいか?

チラシの配布枚数と来店者数の平均を計算し,散布図に書き込んでみましょう.

Page 7: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

偏差積

• チラシの配布枚数と来店者数の「偏差」を計算し,掛け合わせてみましょう.

No.

チラシ配布枚数

チラシ配布枚数の偏差

来店者数 来店者数の偏差

偏差積

1 100 110

2 155 253

3 150 277

4 165 248

5 120 161

6 140 173

7 130 138

8 145 204

9 110 103

10 135 163

Page 8: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

偏差積の平均は?

偏差積の平均を「共分散」と呼ぶ

※ 例題の偏差積の平均(共分散)=1003

一方が増えると,もう一方も増えるというような「正の相関」関係の場合,共分散は0より大きくなる(+になる).

Page 9: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

• 共分散は「単位」が変わると,その大きさが変わってしまう.

• データを標準化したときの共分散(相関係数)を求める.

共分散と相関係数

相関係数=チラシ枚数と来店者数の共分散

チラシ枚数の標準偏差 × 来店者数の標準偏差

※ チラシ配布枚数の標準偏差=19.365

来店者数の標準偏差=57.567

相関係数 = 1003

19.365 ×57.567 ≒ 0.90

Page 10: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習①

相関係数を求めてみましょう.

日付 最高気温(℃) おでんセット販売数

12/1(水) 12 350

12/2(木) 15 280

12/3(金) 18 200

12/4(土) 13 350

12/5(日) 10 480

12/6(月) 9 450

12/7(火) 8 460

12/8(水) 13 320

12/9(木) 11 300

12/10(金) 11 350

12/11(土) 10 450

12/12(日) 9 480

12/13(月) 9 450

12/14(火) 8 500

12/15(水) 9 490

平均 11 394

分散 7.33 7984.00

標準偏差 2.71 89.35

Page 11: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習①

最高気温の偏差 おでん販売数の偏差 偏差積

共分散 相関係数

Page 12: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

相関係数

• 相関係数は-1~1の間の値をとる.

• 0以上 → 正の相関

• 0以下 → 負の相関

• 絶対値で0.2以下であれば無相関(ほとんど関連なし)

• 絶対値で1に近づけば近づくほど関連性は強くなる.

相関係数 関連性の強さ(正の相関) 相関係数 関連性の強さ(負の相関) 0~0.2 ほとんど関連なし(無相関) -0.2~0 ほとんど関連なし 0.2~0.4 やや関連あり -0.4~-0.2 やや関連あり 0.4~0.7 かなり関連あり -0.7~-0.4 かなり関連あり 0.7~1.0 強い関連あり -1.0~-0.7 強い関連あり

Page 13: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

データ間の関係を数式で表す

• データの集まりについて,できるだけ真ん中を通る直線を描くことを考える.(データを代表する一本の直線)

Page 14: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

直線の推定

,ˆˆiii eXY

n

i

ii

n

i

ii

n

i

i XYYYe1

2

1

2

1

2 )ˆˆ()ˆ(

※ 𝛼 と𝛽 をデータから求める.

残差平方和を最小にするように𝛼 と𝛽 を決める(最小二乗法:OLS).

iii YYe ˆ

Page 15: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

Excelによる線形近似と数式

Page 16: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

係数の推定

n

i

i

n

i

ii

XX

YYXX

1

2

1

)(

))((

傾き = 𝑋と𝑌の共分散

𝑋の分散

= 𝑋と𝑌の相関係数×𝑌の標準偏差𝑋の標準偏差

XY ˆˆ 切片 = 𝑌の平均-( 𝛽 × 𝑋の平均)

傾き = 1003

375 ≒ 2.675

切片 =183-2.675×135=-178.08

来店者数 = 2.675×チラシの配布枚数-178.08

Page 17: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

直線の当てはまりの良さ

決定係数 = XとYの相関係数の2乗 2R

決定係数は0~1の値をとり(相関係数の2乗なので),1

に近ければ近いほど,直線がよく当てはまっていることがわかる.逆に0に近ければ,直線の当てはまりがよくないと言える.

チラシ配布枚数と来店者数の相関係数の2乗は0.8095

であり,直線は割とよく当てはまっているといえる.

Page 18: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

Excelによる推定結果

決定係数

↑係数が0である確率 ↑係数の推定値

回帰統計重相関 R 0.899723465重決定 R2 0.809502313補正 R2 0.785690103標準誤差 28.09157644観測数 10

係数 標準誤差 t P-値切片 -178.08 62.56291127 -2.846414855 0.021597803チラシ配布枚数 2.674666667 0.458733522 5.830545484 0.000391322

係数が0であるという帰無仮説を検定(t検定)

→ p値が低い=係数が0である確率が低い

→ よって,データ間には関連性があると考える

Page 19: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

残差・予測値分析(𝑒 − 𝑌 プロット)

• 標準化した残差と予測値の散布図を作る.

• 点の集まりにあまり規則性がなければ,分析の信頼性に問題ないと考えてよい.

Page 20: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

予測

• 回帰式を用いて,チラシの配布枚数が170枚のときの来店者数を予測してみましょう.

※分析に用いたデータの範囲から大きく外れた値を用いて予測することはお勧めできません.平均から離れていくと,係数の信頼区間が大きくなってしまうという性質があるからです.

来店者数 = 2.675×170-178.08 = 276.67

Page 21: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習②

回帰式と決定係数を求めてみましょう.

また,気温が14℃のときの

おでんセット販売数を予測してみましょう.

日付 最高気温(℃) おでんセット販売数

12/1(水) 12 350

12/2(木) 15 280

12/3(金) 18 200

12/4(土) 13 350

12/5(日) 10 480

12/6(月) 9 450

12/7(火) 8 460

12/8(水) 13 320

12/9(木) 11 300

12/10(金) 11 350

12/11(土) 10 450

12/12(日) 9 480

12/13(月) 9 450

12/14(火) 8 500

12/15(水) 9 490

平均 11 394

分散 7.33 7984.00

標準偏差 2.71 89.35

Page 22: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

重回帰分析

• 2つ以上の変数がYに影響を与えるときに使用する.

• 例えば,広告費と販促費が缶コーヒーの販売ケース数にどのような影響を与えるのかを数式で表す.

• 計算は複雑なので,係数の推定はコンピュータに任せるが(Excelなど),解釈は基本的に単回帰分析と同じである.

• 説明変数が2つの場合,直線ではなく「回帰平面」を当てはめることになる.

• 重回帰分析特有の注意点がある.

iiii eXXY 22110ˆˆˆ

Page 23: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

データ

ブランド 広告費 (万円)

販促費 (万円)

販売ケース数 (万ケース)

A 6200 5900 2500

B 8000 5900 3000

C 6700 5500 2200

D 5100 4000 1000

E 6300 6400 2500

F 7500 6500 3100

G 5500 5500 1500

H 6500 5700 2400

I 5900 5100 1900

J 9900 6500 3400

Page 24: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

Excelによる推定結果 回帰統計

重相関 R 0.964261877重決定 R2 0.929800967補正 R2 0.9097441標準誤差 221.7869823観測数 10

係数 標準誤差 t P-値切片 -2455.442508 560.6626773 -4.37953623 0.003236291広告費(万円)

0.273289776 0.072272235 3.781393716 0.006879744

販促費(万円)

0.518948004 0.133308809 3.892826039 0.00595366

自由度修正済み決定係数

↑係数が0である確率 ↑係数の推定値

販売ケース数 = 0.27×広告費+ 0.52×販促費-2455.44

Page 25: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習③

• 新たな商品(ブランド)を追加するときに,1億4000万円の予算があるとして,以下の2つのプランA・Bのどちらがよいでしょうか?

A:広告費に8,200万円,販促費に5,800万円をかける.

B:広告費に6,200万円,販促費に7,800万円をかける.

Page 26: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

重回帰分析における注意点

• 予測に用いる変数間に強い相関があると,多重共線性という問題が発生する.

• 説明変数間に絶対値で0.7~1の強い相関がある場合は注意!

• 𝑒 − 𝑌 プロットを行って,残差に規則性がないか確かめる.

• モデルの当てはまりの良さは,自由度修正済み決定係数で判断する.

Page 27: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

解答と付録

Page 28: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

散布図と平均 個々のデータの値-平均=?

Page 29: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

偏差積(解答)

No. チラシ配布枚

数 チラシ配布枚数の偏差

来店者数 来店者数の偏差

偏差積

1 100 -35 110 -73 2555

2 155 20 253 70 1400

3 150 15 277 94 1410

4 165 30 248 65 1950

5 120 -15 161 -22 330

6 140 5 173 -10 -50

7 130 -5 138 -45 225

8 145 10 204 21 210

9 110 -25 103 -80 2000

10 135 0 163 -20 0

Page 30: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習① 解答 最高気温の偏差 おでん販売数の偏差 偏差積

1 -44 -44 4 -114 -456 7 -194 -1358 2 -44 -88 -1 86 -86 -2 56 -112 -3 66 -198 2 -74 -148 0 -94 0 0 -44 0 -1 56 -56 -2 86 -172 -2 56 -112 -3 106 -318 -2 96 -192

共分散 -222.67 相関係数 -0.92

Page 31: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

回帰直線 付録

Page 32: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習② 解答

傾き = −222.67

7.333 ≒ -30.4

切片 =394-30.4×11=728

決定係数 ≒ 0.85

おでんセット販売数 = -30.4×14+728 = 302.4

Page 33: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習② 付録

Page 34: 文系でもわかる統計学入門 - FC2yzy8911.web.fc2.com/we_stat/we_stat4.pdf2種類以上のデータ(変数)を同時に分析する 2つのデータ間の関係 No. チラシ配布枚数

演習③ 解答

A:広告費に8,200万円,販促費に5,800万円をかける.

B:広告費に6,200万円,販促費に7,800万円をかける.

販売ケース数=0.27×8200+0.52×5800-2455.44=2774.56

販売ケース数=0.27×6200+0.52×7800-2455.44=3274.56

プランBの方がよい!