3-4:相関と回帰分析(最小二乗法)実習紹介...

10
1 2 3 4 5 [コース1]データ収集 [コース2]データ蓄積 [コース3]データ分析 [コース4]データ利活用 3-4:相関と回帰分析(最小二乗法) [コース3]データ分析 総務省 ICTスキル総合習得教材 【概要版】 eラーニング用

Upload: others

Post on 19-Apr-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

1 2 3 4 5 [コース1]データ収集 [コース2]データ蓄積 [コース3]データ分析 [コース4]データ利活用

3-4:相関と回帰分析(最小二乗法) [コース3]データ分析

総務省 ICTスキル総合習得教材

【概要版】 eラーニング用

Page 2: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

本講座の学習内容(3-4:相関と回帰分析(最小二乗法))

Excelの散布図の使い方、相関係数のイメージを紹介します。 当てはまりの良い直線を引くための回帰分析(最小二乗法)の考え方を説明します。 Excelの分析ツールを使った回帰分析の実施方法を紹介します。

実習紹介

散布図の表示、相関係数の導出方法を把握する。

当てはまりの良い直線を引くための回帰分析(最小二乗法)の考え方を理解する。

Excelの分析ツールを使った回帰分析の実行方法を把握する。

[1]散布図と相関係数

【講座構成】

[3]分析ツールによる回帰分析の実施

【学習のゴール】

【講座概要】

[2]回帰分析(最小二乗法)の発想

座学

実習紹介

Page 3: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

Excelのグラフで散布図を見ると、二変数の関係を可視化できます。 Excelにおける散布図の作成

[1]散布図と相関係数

散布図の元データとしたい範囲を選択した状態で、Excelの上部の[挿入]タブにある[散布図]をクリックして下さい。

長さ、重さ、温度のように、小数点以下も測定可能な数値を連続値といいます。

Excelのデータの左列にグラフの[X軸(横軸)となる変数]、右列に[Y軸横軸となる変数]の順に設置して下さい。

• 一方で人数や西暦のように、数え上げる際に小数点以下をとらない数値を離散値といいます。

2種類の連続値の関係を示す場合には、散布図が便利です。 • 来店客数と販売金額の関係のように、厳密には離散値であるケースでも、それぞれの変数が様々な値をとる場合にも散布図は利用できます。

Excelでは簡単に散布図を作成し、2種類の連続値の関係を示すことができます。

X Y4.42 109.333.74 112.35

16.63 164.51-2.53 94.257.29 127.57

10.90 147.09

散布図用のデータ設置、散布図の作成ボタン

Excelにおける散布図

0

50

100

150

200

250

-5 0 5 10 15 20 25 30

XとYの散布図(Y)

(X)

Page 4: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

Excel関数のCORRELを使うと、相関係数をセルに表示できます。 相関係数の導出

• ある変数が大きい方が、もう片方の変数が大きくなる場合、相関係数は0より大きい値をとり、正相関と言います。 • ある変数が大きい方が、もう片方の変数が大きくなる場合は相関係数は0より小さい値をとり、負相関と言います • 相関係数は1本での直線で表される関係を表しているため、相関係数が0に近いことは無関係であることを意味しません。

0

50

100

150

200

250

-5 0 5 10 15 20 25 30

XとYの散布図(Y)

(X)

Excel関数CORRELは[=CORREL(X変数の上端と下端,Y変数の上端と下端)]で相関係数を表示します。

-250

-200

-150

-100

-50

0

-5 0 5 10 15 20 25 30

散布図(Yの符号をマイナスにしたケース)(Y)

(X) -250

-200

-150

-100

-50

0

50

100

150

200

250

-5 0 5 10 15 20 25 30

散布図(2種類のまとめ)(Y)

(X)

正相関(相関係数:0.86) 負相関(相関係数:-0.86) 無相関(相関係数:0)

複数の直線や曲線的な関係は、相関係数ではとらえられないため、相関係数が0に近くとも2変数に関係があるケースもあります。

[1]散布図と相関係数

「-1から+1」の範囲で、2種類の連続的な変数の直線的な関係の強さを示す指標として相関係数があります。

相関係数の値と散布図における二変数の関係表示

Page 5: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

Excelの散布図においても、単回帰分析の結果を確認することができます。 散布図における単回帰分析

散布図を右クリックして表示されるメニューから「近似曲線の追加」をクリックすることで、二変数の関係を示す回帰線を引けます。 • 説明変数が2種類以上ある回帰分析は、多重回帰や重回帰分析と呼ばれます。

• 相関係数は2変数を入れ替えても結果は変わりませんが、回帰分析では、説明する変数X、説明される変数Yを設定する必要があります。

[1]散布図と相関係数

回帰分析では[変数Xが1大きくなった場合に、変数Yにどの程度の影響を与えるか?]を測定することができます。 • 相関係数として関係の強さが示される変数Xと変数Yの直線的な関係を前提とした場合に「変数Xが1大きくなった場合に、変数Yにどの程度の影響を与えるか?」を示すことができます。

Excelの散布図においても、説明する変数が1種類の単回帰分析の結果を確認することができます。

右クリックメニューから「近似曲線の追加」

表示された近似曲線を右クリックして「近似曲線の書式設定」を選択すると、近似曲線の設定ができます。設定のダイアログボックスから「グラフに数式を表示する」「グラフにR-2乗値を表示する」にチェックを入れてください。

近似曲線の設定から「数式の表示」

散布図上に「XとYの関係を表す数式」が表示されます。 この画面の結果では、 [Xが1増加したら、Yを4.0515増加させる影響がある]ことを示しています。 • R2は決定係数とも呼ばれる「0~1の値をとる回帰分析の当てはまりの指標」です。

Page 6: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

回帰分析は、差分を2乗の総和を最小化するルールで、当てはまりの良い直線を引きます。

[2]回帰分析(最小二乗法)の発想

回帰分析(最小二乗法)の発想

最小二乗法とも呼ばれる回帰分析は、差分を2乗した総和を最小化する発想で当てはまりの良い直線を引きます。

左下図のような説明される変数(被説明変数)yと説明する変数(説明変数)xの関係を示す があり、「2種類の変数の関係を示す当てはまりの良い直線(y=a+bx)を引く」ためのルールを決めることを考えます。

と直線の距離となる差分の総和を最小化すると良さそうですが、右下図のように当てはまりの悪い線でも、差分が相殺してゼロになるケースもあります。このため、差分の総和を最小化するというルールでは、当てはまりの良い直線は引けません。

の関係を示す 当てはまりの良い線を引きたい

差分の総和の最小化では プラスとマイナスで相殺してしまう

と直線の差分を2乗することで、「全てのプラスに変換した差分の総和を最小化する発想」なら、当てはまりの良い線が引ける 二乗した値を最小化するので最小二乗法と呼ばれる

Page 7: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

多重回帰分析 多重回帰分析として、2種類以上の説明変数による回帰分析もあります。 Excelの散布図では「説明する変数が1種類の単回帰分析」しかできませんが、Excelの分析ツールを使えば、「説明する変数が2種類以上の多重回帰分析」を行えます。

• 4次元以上になると想像しにくいですが、差分の二乗和を最小化するという発想自体は同じです。

回帰分析では直線や板で差分を考えますが、説明変数をあらかじめ、二乗したり、対数をとったりと変換しておくことで元の変数に戻せば、右下図のように曲線の関係を表すこともできます。

単回帰では最小化の対象は星と線の差分の二乗和ですが、多重回帰ではあてはめる直線が左下図のように板になります。

[2]回帰分析(最小二乗法)の発想

多重回帰分析のイメージ 説明変数を変換して曲線の関係も分析可能

Page 8: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

Excelではアドインによって分析ツール導入し、データのタブから実行できます。 Excelの分析ツールにおける回帰分析の実施

Excel画面の左上にある[ファイル] のボタンをクリックした後、 [オプション] ⇒[アドイン] をクリックして、[Excelアドイン]の設定ボタンをクリック後に[分析ツール]にチェックを入れて[OK]をクリックします。 • Excelのバージョンによって、分析ツールのアドインを呼び出す項目が異なります。 • Macintosh用の「Excel for Mac 2011」以前では分析ツールのアドインはありません。「Excel for Mac 2016」から、Macintosh用のExcelにおいても分析ツールのアドインが利用できるようになりました。

[3]分析ツールによる回帰分析の実施

分析ツールの導入後、Excel画面上側の[データ]タブからに現れた [データ分析] をクリックすることで、回帰分析が含まれる[データ分析] のダイアログボックスを呼び出すことができます。

アドインのクリック Excelアドインの設定ボタンをクリック 分析ツールにチェック

データ分析をクリック

Page 9: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

回帰分析のダイアログボックスに、被説明変数と説明変数を指定します。 Excelの回帰分析における変数の指定

[3]分析ツールによる回帰分析の実施

データ分析のダイアログボックスでは[分析ツール]の項目の中から、[回帰分析]を選択してOKをクリックします。

入力Y範囲には、説明される変数(1列のみ)を指定し、入力X欄には説明する変数(複数列でも可)を指定します。 • [ラベル]にチェックマークを入れておくと、変数の最上段を、変数名として結果に出力します。 • 分析対象のデータを縦に並べておく形式は、講座冒頭の散布図の作成と同様です。 • 回帰分析の結果を異なるExcelシートに出力したい場合は「新規ワークシート」にチェックを入れておき、同じシート内に表示したい場合は、[一覧の出力先]に分析結果を表示する範囲の左上のセルを指定します。

[回帰分析]を選択してOKをクリック 分析対象とするデータの範囲を指定する

Page 10: 3-4:相関と回帰分析(最小二乗法)実習紹介 散布図の表示、相関係数の導出方法を把握す る。 当てはまりの良い直線を引くための回帰分析(最

Excelの分析結果は「回帰分析全体」「個別の説明変数」の2種に分かれて表示されます。 Excelの回帰分析における結果出力

Excelの回帰分析の分析結果の出力は3ブロックに分かれ、上側の2つが[回帰分析全体に関する出力]に相当し、最下段のブロックが[個別の説明変数に関する出力]の結果になります。

回帰分析の結果出力に関する説明は、他の教材を参照して下さい。

概要

回帰統計重相関 R 0.951759重決定 R2 0.905845補正 R2 0.901838標準誤差 8.612262観測数 50

分散分析表自由度 変動 分散 観測された分散比 有意 F

回帰 2 33538.42 16769.21 226.0882953 7.68E-25残差 47 3486.04 74.17106合計 49 37024.46

係数 標準誤差 t P-値 下限 95% 上限 95%

切片 21.96217 9.353082 2.348121 0.023127974 3.146194 40.77814

xα 3.202912 0.230515 13.89456 2.92143E-18 2.739174 3.666649

xβ 4.609189 0.505876 9.111303 5.9088E-12 3.591498 5.62688

[3]分析ツールによる回帰分析の実施

Excelの回帰分析の結果出力

回帰分析全体に関する出力

個別の説明変数に 関する出力