データ分析入門( 12 )

25
1 デデデデデデデ12 デ 12 デ デデデデデ デデデデ

Upload: alka

Post on 15-Jan-2016

62 views

Category:

Documents


0 download

DESCRIPTION

データ分析入門( 12 ). 第 12 章 単回帰分析 廣野元久. 本章の概要. 2つの量的データのばらつき方に直線的な傾向が見とめられる場合には , その傾向線 ( 回帰直線 ) を , データから求めよう 回帰直線が計算できれば , その関係を利用して , 因果関係の検証や将来の予測を行ってみよう JMP IN を使って散布図に回帰直線を描画する方法や , その解釈を理解する. 1. 回帰分析. 1.1 回帰分析とは 1.2 単回帰分析と重回帰分析 1.3 回帰係数の求め方 1.4 決定係数 1.5 回帰係数の有意性の検定 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: データ分析入門( 12 )

1

データ分析入門( 12 )

第 12 章 単回帰分析廣野元久

Page 2: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  2/25

本章の概要

2つの量的データのばらつき方に直線的な傾向が見とめられる場合には , その傾向線 ( 回帰直線 )を ,

データから求めよう

回帰直線が計算できれば , その関係を利用して ,因果関係の検証や将来の予測を行ってみよう

JMP   IN を使って散布図に回帰直線を描画する方法や , その解釈を理解する

Page 3: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  3/25

1. 回帰分析

1.1 回帰分析とは 1.2 単回帰分析と重回帰分析 1.3 回帰係数の求め方 1.4 決定係数 1.5 回帰係数の有意性の検定 1.6 回帰分析の利用法

Page 4: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  4/25

1. 1回帰分析とは (1)

回帰分析とは 因果を持つ 2 つの量的データの直線的関係を

表す , 直線の方程式を求めること 町の人口とごみ排出量 一人当りのごみ排出量がほぼ同じなら , 人口が増

えれば , それだけごみ排出量は増えるであろう .

この関係を式 ( 直線 ) で表せれば ,将来の町の人口が分かれば , 町のごみ排出量が直ちに , 推定され , 市政に役立つであろう

Page 5: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  5/25

0

50000

100000

150000

ƒSƒ~

ŽûW

—Ê

ΜЯ

0 100000 300000 500000

lΞ

’¼ü‚Ì‚ ‚Ä‚Í‚ß

lŒû‚ƃSƒ~ŽûW—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

1. 1回帰分析とは (2)

原因となる 変量

説明変量 or独立変量 X

原因に左右されて結果として , ばらつく変量

被説明 変量 or従属 変量

回帰直線

Page 6: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  6/25

1. 1回帰分析とは (3)

x

N orm al D istribu tion

( )データ固有のばらつき 誤差

Regression Lineデータ共通の傾向

y

Page 7: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  7/25

1.2 単回帰分析と重回帰分析 (1)

結果 Y

原因 X

ε

Y a bX

残差

単回帰分析 単回帰式

定数項

傾き

誤差項

回帰係数

ごみ排出量 人口

Page 8: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  8/25

1.2 単回帰分析と重回帰分析 (2)

結果 Y

原因 1 X1

ε

1 1 2 2 p pY a b X b X b X

残差

重回帰分析 ( 原因がたくさんあるという意味 )

原因 2 X2 原因p X p

結果;ごみ排出量

原因;人口 商店の数 リサイクルの取組み 事業所数 etc….

Page 9: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  9/25

1.3 回帰係数の求め方 (1)

S m in

S

β 1β 0 a b

95%信頼楕円

最小 2 乗法のイメージ

要因Xと特性Yについて,n個のデータ対が得られ,要因xi(i=1,2,… ,n)と特性yi(i=1,2,… ,n)の間に一次関係があると仮定する. y xi i i 0 1

式の未知数 0 1, は,yiとその推定値yiとの差が全体としてできるだけ小さくなるように決める.

2ˆ mini iS y y

Page 10: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  10/25

1.3 回帰係数の求め方 (2)

y

x

,残差は 垂直方向最小

y

x

,残差は 直線の方向最小

回帰直線 めのこ

回帰直線はめのこで引いてはいけない

Page 11: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  11/25

1.4  決定係数 (1)

従属変数 Y の平方和 S は , 回帰で説明できる部分と , 回帰では説明できない部分に分解できる .

決定係数は , 従属変数 Y の平方和のうち ,回帰で説明できる平方和の割合を示すもの

2

YR

T

SR

S

回帰で説明がつく平方和決定係数

従属変量 の平方和

Page 12: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  12/25

1.4  決定係数 (2)

y

=

Y従属変数 の平方和

Ave.

回帰の平方和

+

残差平方和

20 0 1R 傾きがない:説明力 = =残差がゼロ:点は直線上にある

Page 13: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  13/25

1.5 回帰係数の有意性の検定

傾きbの検定帰無仮説 Ho :回帰直線の傾きは 0 である b= 0

( 説明変量xに , 従属変数yを説明する力はない xとyは無関係 )対立仮説 H1 :回帰直線の傾きは 0 でない b= 0

帰無仮説が棄却された:回帰直線は Y のばらつきを 説明するのに有効

帰無仮説が棄却できない:回帰直線は Y のばらつきを 説明のに有効でない

他の変量を探索

Page 14: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  14/25

1.6 回帰分析の利用法

因果の確認 知識経験として , 因果が想定される 2 変量が , 実際に

因果があるかどうかをデータから判断できる 金属の抵抗値は , 周辺の温度に依存する

予測 回帰式が有効なら , それを予測に用いることができる 周辺温度が 100℃ のときの抵抗値を予測できる

制御 説明変量をある値に固定すると , 従属変動のばらつき

は 小さくなり , 平均値も目的の値に留めることができる 抵抗値が 100Ω になるように , 周辺温度を 50℃ に制御 する ( 工場の製品管理などに使われる )

Page 15: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  15/25

2  単回帰分析の操作

2.1 単回帰分析の操作2.2 回帰分析の結果の書き方2.3 信頼区間曲線の表示2.4 残差の分析

Page 16: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  16/25

2.1  単回帰分析の操作( 1 )

廃棄物処理 .jmp をロードするここをクリック

Page 17: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  17/25

2.1  単回帰分析の操作( 2 )

1. 人口をクリック 2.X をクリック

3. 人口の 役割が決まる

4. ゴミ収集量をクリック 5.Y をクリック

6. ゴミ収集量の 役割が決まる

7.OK ボタンを押す

Page 18: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  18/25

0

50000

100000

150000

ƒSƒ~

ŽûW

—Ê

ΜЯ

0 100000 300000 500000

lΞ

’¼ü‚Ì‚ ‚Ä‚Í‚ß

lŒû‚ƃSƒ~ŽûW—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

2.1  単回帰分析の操作( 3 )

1. 人口とゴミ収集量の 散布図が表示される

2. ここをクリックする

3. 直線のあてはめをクリックする

4. 回帰直線 が表示 される

Page 19: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  19/25

ƒSƒ~ŽûW—Ê = 4811.3843 + 0.2998754 lŒû

R2掩—R“x’²®R2æŒë·‚Ì•W€•Î·(RMSE)Y‚Ì•½‹ÏƒIƒuƒUƒx[ƒVƒ‡ƒ“(‚Ü‚½‚Íd‚݂̇Œv)

0.966750.9643757598.027 58831.5 16

‚ ‚Ä‚Í‚ß‚Ì—v–ñ

ƒ‚ƒfƒ‹Œë·‘S‘Ì(C³Ï‚Ý)

—vˆö 1 14 15

Ž©—R“x2.3499e+10 8082202682.43072e10

•½•û˜a2.3499e10 57730019

•½‹Ï•½•û407.0500

F’l

<.0001p’l(Prob>F)

•ªŽU•ªÍ

Ø•ÐlŒû

€4811.38430.2998754

„’è’l3282.8650.014863

•W€Œë· 1.47 20.18

t’l0.1649<.0001

p’l(Prob>|t|)ƒpƒ‰ƒ[ƒ^„’è’l

’¼ü‚Ì‚ ‚Ä‚Í‚ß

2.1  単回帰分析の操作( 4 )

回帰式 人口 1 人増加すると ごみは 0.29988 t増加する決定係数 R2

標準誤差 回帰で説明できない 残差の標準偏差

回帰係数

回帰係数の検定結果 切片 : 定数項 人口 : 傾き 傾きのp値が <.0001 と 非常に小さいので高度に有意 回帰直線は意味がある

Page 20: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  20/25

2.2 回帰分析の結果の書き方

書き落としてはいけないこと回帰式回帰係数のt値 ( あるいは , 標準誤差 )決定係数標準誤差

2

4811.38 0.29988

1.47 20.18

0.967 . . 7598

t

R S E

ゴミ収集量 人口値

Page 21: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  21/25

0

50000

100000

150000

ƒSƒ~

ŽûW

—Ê

ΜЯ

0 100000 300000 500000lΞ

2.3  信頼区間曲線の表示 (1)

1. 直線のあてはめの▼マークをクリック

2. 回帰の信頼区間をクリック

3.95%の信頼区間 曲線が表示される

Page 22: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  22/25

0

50000

100000

150000

ƒSƒ~

ŽûW

—Ê

ΜЯ

0 100000 300000 500000

lΞ

’¼ü‚Ì‚ ‚Ä‚Í‚ß•½‹Ï‚Ì‚ ‚Ä‚Í‚ß

lŒû‚ƃSƒ~ŽûW—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW

2.3  信頼区間曲線の表示 (2)

1. ここをクリック

2. 平均のあてはめをクリック

3.Y の標本平均が表示される

標本平均の線の全域が信頼区間曲線内に含まれるとき

回帰の傾きは有意ではない

Page 23: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  23/25

-10000-5000

05000

100001500020000

Žc

·

ΜЯ

0 100000200000300000400000500000

lΞ

2.4  残差の分析( 1 )

目的 回帰モデル ( 回帰直線 ) がデータによく当てはま

っているかどうかのチェックを行う

1. ここをクリック2. 残差プロットをクリック

3. 残差プロットが表示される

ラベルで外れ値を表示

良いモデルは残差のプロットはランダムである

Page 24: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  24/25

2.4  残差の分析( 2 )

外れ値の特徴を調べる データの背後にある知識を活用して ,外れ値の 特徴を調べる この例では

厚木 ,大和 , 小田原 ,鎌倉

ホテルや 歓楽街

観光地 観光客などが多い ごみを出す人口に カウントされていない

Page 25: データ分析入門( 12 )

第 12  章 単回帰分析 廣野元久 高橋行雄  25/25

2.4  残差の分析( 3 )

系列相関時系列データの場合には , 残差に波状の系列相関が現れることがある

自己相関モデルを追加するなどの特殊なテクニックが必要

不等分散残差が説明変量の値に従い大きくなる

対数変換や 2次項の追加などの変数変換が必要