文系でもわかる統計学入門 -...
TRANSCRIPT
文系でもわかる統計学入門
第4回 多変量解析①
~科学的分析ツール:多変量解析~
共栄大学 国際経営学部 専任講師
矢野佑樹
自己紹介
矢野佑樹(やのゆうき)
共栄大学 国際経営学部 専任講師
Ph.D.,農業・環境経済学,ペンシルバニア州立大学
博士研究員,スウェーデン農業科学大学
<研究>
エネルギー価格が農業生産資材価格や食品価格に与える影響
バイオ燃料政策が農産物の国際価格に与える影響
農業・環境政策,不確実性下における生産者の行動分析など
<書籍>
「ビジュアル ビジネスに活かす統計入門」日本経済新聞出版社(2012)
多変量解析とは
• 気温とアイスの売上個数の関係
• 最寄り駅からの距離と来店客数の関係
• 店舗面積,駐車場の広さ,来店客数の関係
2種類以上のデータ(変数)を同時に分析する
2つのデータ間の関係
No. チラシ配布枚数 来店者数
1 100 110
2 155 253
3 150 277
4 165 248
5 120 161
6 140 173
7 130 138
8 145 204
9 110 103
10 135 163
散布図(相関図)
どのようにデータの関係を測ったよいのか?
• どのような関係にあるのか?
• その関係の強さはどのくらいか?
2つのデータの関係を数値で表すとしたら,どのようにすればよいか?
チラシの配布枚数と来店者数の平均を計算し,散布図に書き込んでみましょう.
偏差積
• チラシの配布枚数と来店者数の「偏差」を計算し,掛け合わせてみましょう.
No.
チラシ配布枚数
チラシ配布枚数の偏差
来店者数 来店者数の偏差
偏差積
1 100 110
2 155 253
3 150 277
4 165 248
5 120 161
6 140 173
7 130 138
8 145 204
9 110 103
10 135 163
偏差積の平均は?
偏差積の平均を「共分散」と呼ぶ
※ 例題の偏差積の平均(共分散)=1003
一方が増えると,もう一方も増えるというような「正の相関」関係の場合,共分散は0より大きくなる(+になる).
• 共分散は「単位」が変わると,その大きさが変わってしまう.
• データを標準化したときの共分散(相関係数)を求める.
共分散と相関係数
相関係数=チラシ枚数と来店者数の共分散
チラシ枚数の標準偏差 × 来店者数の標準偏差
※ チラシ配布枚数の標準偏差=19.365
来店者数の標準偏差=57.567
相関係数 = 1003
19.365 ×57.567 ≒ 0.90
演習①
相関係数を求めてみましょう.
日付 最高気温(℃) おでんセット販売数
12/1(水) 12 350
12/2(木) 15 280
12/3(金) 18 200
12/4(土) 13 350
12/5(日) 10 480
12/6(月) 9 450
12/7(火) 8 460
12/8(水) 13 320
12/9(木) 11 300
12/10(金) 11 350
12/11(土) 10 450
12/12(日) 9 480
12/13(月) 9 450
12/14(火) 8 500
12/15(水) 9 490
平均 11 394
分散 7.33 7984.00
標準偏差 2.71 89.35
演習①
最高気温の偏差 おでん販売数の偏差 偏差積
共分散 相関係数
相関係数
• 相関係数は-1~1の間の値をとる.
• 0以上 → 正の相関
• 0以下 → 負の相関
• 絶対値で0.2以下であれば無相関(ほとんど関連なし)
• 絶対値で1に近づけば近づくほど関連性は強くなる.
相関係数 関連性の強さ(正の相関) 相関係数 関連性の強さ(負の相関) 0~0.2 ほとんど関連なし(無相関) -0.2~0 ほとんど関連なし 0.2~0.4 やや関連あり -0.4~-0.2 やや関連あり 0.4~0.7 かなり関連あり -0.7~-0.4 かなり関連あり 0.7~1.0 強い関連あり -1.0~-0.7 強い関連あり
データ間の関係を数式で表す
• データの集まりについて,できるだけ真ん中を通る直線を描くことを考える.(データを代表する一本の直線)
直線の推定
,ˆˆiii eXY
n
i
ii
n
i
ii
n
i
i XYYYe1
2
1
2
1
2 )ˆˆ()ˆ(
※ 𝛼 と𝛽 をデータから求める.
残差平方和を最小にするように𝛼 と𝛽 を決める(最小二乗法:OLS).
iii YYe ˆ
Excelによる線形近似と数式
係数の推定
n
i
i
n
i
ii
XX
YYXX
1
2
1
)(
))((
傾き = 𝑋と𝑌の共分散
𝑋の分散
= 𝑋と𝑌の相関係数×𝑌の標準偏差𝑋の標準偏差
XY ˆˆ 切片 = 𝑌の平均-( 𝛽 × 𝑋の平均)
傾き = 1003
375 ≒ 2.675
切片 =183-2.675×135=-178.08
来店者数 = 2.675×チラシの配布枚数-178.08
直線の当てはまりの良さ
決定係数 = XとYの相関係数の2乗 2R
決定係数は0~1の値をとり(相関係数の2乗なので),1
に近ければ近いほど,直線がよく当てはまっていることがわかる.逆に0に近ければ,直線の当てはまりがよくないと言える.
チラシ配布枚数と来店者数の相関係数の2乗は0.8095
であり,直線は割とよく当てはまっているといえる.
Excelによる推定結果
決定係数
↑係数が0である確率 ↑係数の推定値
回帰統計重相関 R 0.899723465重決定 R2 0.809502313補正 R2 0.785690103標準誤差 28.09157644観測数 10
係数 標準誤差 t P-値切片 -178.08 62.56291127 -2.846414855 0.021597803チラシ配布枚数 2.674666667 0.458733522 5.830545484 0.000391322
係数が0であるという帰無仮説を検定(t検定)
→ p値が低い=係数が0である確率が低い
→ よって,データ間には関連性があると考える
残差・予測値分析(𝑒 − 𝑌 プロット)
• 標準化した残差と予測値の散布図を作る.
• 点の集まりにあまり規則性がなければ,分析の信頼性に問題ないと考えてよい.
予測
• 回帰式を用いて,チラシの配布枚数が170枚のときの来店者数を予測してみましょう.
※分析に用いたデータの範囲から大きく外れた値を用いて予測することはお勧めできません.平均から離れていくと,係数の信頼区間が大きくなってしまうという性質があるからです.
来店者数 = 2.675×170-178.08 = 276.67
演習②
回帰式と決定係数を求めてみましょう.
また,気温が14℃のときの
おでんセット販売数を予測してみましょう.
日付 最高気温(℃) おでんセット販売数
12/1(水) 12 350
12/2(木) 15 280
12/3(金) 18 200
12/4(土) 13 350
12/5(日) 10 480
12/6(月) 9 450
12/7(火) 8 460
12/8(水) 13 320
12/9(木) 11 300
12/10(金) 11 350
12/11(土) 10 450
12/12(日) 9 480
12/13(月) 9 450
12/14(火) 8 500
12/15(水) 9 490
平均 11 394
分散 7.33 7984.00
標準偏差 2.71 89.35
重回帰分析
• 2つ以上の変数がYに影響を与えるときに使用する.
• 例えば,広告費と販促費が缶コーヒーの販売ケース数にどのような影響を与えるのかを数式で表す.
• 計算は複雑なので,係数の推定はコンピュータに任せるが(Excelなど),解釈は基本的に単回帰分析と同じである.
• 説明変数が2つの場合,直線ではなく「回帰平面」を当てはめることになる.
• 重回帰分析特有の注意点がある.
iiii eXXY 22110ˆˆˆ
データ
ブランド 広告費 (万円)
販促費 (万円)
販売ケース数 (万ケース)
A 6200 5900 2500
B 8000 5900 3000
C 6700 5500 2200
D 5100 4000 1000
E 6300 6400 2500
F 7500 6500 3100
G 5500 5500 1500
H 6500 5700 2400
I 5900 5100 1900
J 9900 6500 3400
Excelによる推定結果 回帰統計
重相関 R 0.964261877重決定 R2 0.929800967補正 R2 0.9097441標準誤差 221.7869823観測数 10
係数 標準誤差 t P-値切片 -2455.442508 560.6626773 -4.37953623 0.003236291広告費(万円)
0.273289776 0.072272235 3.781393716 0.006879744
販促費(万円)
0.518948004 0.133308809 3.892826039 0.00595366
自由度修正済み決定係数
↑係数が0である確率 ↑係数の推定値
販売ケース数 = 0.27×広告費+ 0.52×販促費-2455.44
演習③
• 新たな商品(ブランド)を追加するときに,1億4000万円の予算があるとして,以下の2つのプランA・Bのどちらがよいでしょうか?
A:広告費に8,200万円,販促費に5,800万円をかける.
B:広告費に6,200万円,販促費に7,800万円をかける.
重回帰分析における注意点
• 予測に用いる変数間に強い相関があると,多重共線性という問題が発生する.
• 説明変数間に絶対値で0.7~1の強い相関がある場合は注意!
• 𝑒 − 𝑌 プロットを行って,残差に規則性がないか確かめる.
• モデルの当てはまりの良さは,自由度修正済み決定係数で判断する.
解答と付録
散布図と平均 個々のデータの値-平均=?
偏差積(解答)
No. チラシ配布枚
数 チラシ配布枚数の偏差
来店者数 来店者数の偏差
偏差積
1 100 -35 110 -73 2555
2 155 20 253 70 1400
3 150 15 277 94 1410
4 165 30 248 65 1950
5 120 -15 161 -22 330
6 140 5 173 -10 -50
7 130 -5 138 -45 225
8 145 10 204 21 210
9 110 -25 103 -80 2000
10 135 0 163 -20 0
演習① 解答 最高気温の偏差 おでん販売数の偏差 偏差積
1 -44 -44 4 -114 -456 7 -194 -1358 2 -44 -88 -1 86 -86 -2 56 -112 -3 66 -198 2 -74 -148 0 -94 0 0 -44 0 -1 56 -56 -2 86 -172 -2 56 -112 -3 106 -318 -2 96 -192
共分散 -222.67 相関係数 -0.92
回帰直線 付録
演習② 解答
傾き = −222.67
7.333 ≒ -30.4
切片 =394-30.4×11=728
決定係数 ≒ 0.85
おでんセット販売数 = -30.4×14+728 = 302.4
演習② 付録
演習③ 解答
A:広告費に8,200万円,販促費に5,800万円をかける.
B:広告費に6,200万円,販促費に7,800万円をかける.
販売ケース数=0.27×8200+0.52×5800-2455.44=2774.56
販売ケース数=0.27×6200+0.52×7800-2455.44=3274.56
プランBの方がよい!