データ分析入門( 12 )
DESCRIPTION
データ分析入門( 12 ). 第 12 章 単回帰分析 廣野元久. 本章の概要. 2つの量的データのばらつき方に直線的な傾向が見とめられる場合には , その傾向線 ( 回帰直線 ) を , データから求めよう 回帰直線が計算できれば , その関係を利用して , 因果関係の検証や将来の予測を行ってみよう JMP IN を使って散布図に回帰直線を描画する方法や , その解釈を理解する. 1. 回帰分析. 1.1 回帰分析とは 1.2 単回帰分析と重回帰分析 1.3 回帰係数の求め方 1.4 決定係数 1.5 回帰係数の有意性の検定 - PowerPoint PPT PresentationTRANSCRIPT
1
データ分析入門( 12 )
第 12 章 単回帰分析廣野元久
第 12 章 単回帰分析 廣野元久 高橋行雄 2/25
本章の概要
2つの量的データのばらつき方に直線的な傾向が見とめられる場合には , その傾向線 ( 回帰直線 )を ,
データから求めよう
回帰直線が計算できれば , その関係を利用して ,因果関係の検証や将来の予測を行ってみよう
JMP IN を使って散布図に回帰直線を描画する方法や , その解釈を理解する
第 12 章 単回帰分析 廣野元久 高橋行雄 3/25
1. 回帰分析
1.1 回帰分析とは 1.2 単回帰分析と重回帰分析 1.3 回帰係数の求め方 1.4 決定係数 1.5 回帰係数の有意性の検定 1.6 回帰分析の利用法
第 12 章 単回帰分析 廣野元久 高橋行雄 4/25
1. 1回帰分析とは (1)
回帰分析とは 因果を持つ 2 つの量的データの直線的関係を
表す , 直線の方程式を求めること 町の人口とごみ排出量 一人当りのごみ排出量がほぼ同じなら , 人口が増
えれば , それだけごみ排出量は増えるであろう .
この関係を式 ( 直線 ) で表せれば ,将来の町の人口が分かれば , 町のごみ排出量が直ちに , 推定され , 市政に役立つであろう
第 12 章 単回帰分析 廣野元久 高橋行雄 5/25
0
50000
100000
150000
ƒSƒ~
ŽûW
—Ê
ΜЯ
0 100000 300000 500000
lΞ
’¼ü‚Ì‚ ‚Ä‚Í‚ß
lŒû‚ƃSƒ~ŽûW—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
1. 1回帰分析とは (2)
原因となる 変量
説明変量 or独立変量 X
原因に左右されて結果として , ばらつく変量
被説明 変量 or従属 変量
回帰直線
第 12 章 単回帰分析 廣野元久 高橋行雄 6/25
1. 1回帰分析とは (3)
x
N orm al D istribu tion
( )データ固有のばらつき 誤差
Regression Lineデータ共通の傾向
y
第 12 章 単回帰分析 廣野元久 高橋行雄 7/25
1.2 単回帰分析と重回帰分析 (1)
結果 Y
原因 X
ε
Y a bX
残差
単回帰分析 単回帰式
定数項
傾き
誤差項
回帰係数
ごみ排出量 人口
第 12 章 単回帰分析 廣野元久 高橋行雄 8/25
1.2 単回帰分析と重回帰分析 (2)
結果 Y
原因 1 X1
ε
1 1 2 2 p pY a b X b X b X
残差
重回帰分析 ( 原因がたくさんあるという意味 )
原因 2 X2 原因p X p
結果;ごみ排出量
原因;人口 商店の数 リサイクルの取組み 事業所数 etc….
第 12 章 単回帰分析 廣野元久 高橋行雄 9/25
1.3 回帰係数の求め方 (1)
S m in
S
β 1β 0 a b
95%信頼楕円
最小 2 乗法のイメージ
要因Xと特性Yについて,n個のデータ対が得られ,要因xi(i=1,2,… ,n)と特性yi(i=1,2,… ,n)の間に一次関係があると仮定する. y xi i i 0 1
式の未知数 0 1, は,yiとその推定値yiとの差が全体としてできるだけ小さくなるように決める.
2ˆ mini iS y y
第 12 章 単回帰分析 廣野元久 高橋行雄 10/25
1.3 回帰係数の求め方 (2)
y
x
,残差は 垂直方向最小
y
x
,残差は 直線の方向最小
回帰直線 めのこ
回帰直線はめのこで引いてはいけない
第 12 章 単回帰分析 廣野元久 高橋行雄 11/25
1.4 決定係数 (1)
従属変数 Y の平方和 S は , 回帰で説明できる部分と , 回帰では説明できない部分に分解できる .
決定係数は , 従属変数 Y の平方和のうち ,回帰で説明できる平方和の割合を示すもの
2
YR
T
SR
S
回帰で説明がつく平方和決定係数
従属変量 の平方和
第 12 章 単回帰分析 廣野元久 高橋行雄 12/25
1.4 決定係数 (2)
y
=
Y従属変数 の平方和
Ave.
回帰の平方和
+
残差平方和
20 0 1R 傾きがない:説明力 = =残差がゼロ:点は直線上にある
第 12 章 単回帰分析 廣野元久 高橋行雄 13/25
1.5 回帰係数の有意性の検定
傾きbの検定帰無仮説 Ho :回帰直線の傾きは 0 である b= 0
( 説明変量xに , 従属変数yを説明する力はない xとyは無関係 )対立仮説 H1 :回帰直線の傾きは 0 でない b= 0
帰無仮説が棄却された:回帰直線は Y のばらつきを 説明するのに有効
帰無仮説が棄却できない:回帰直線は Y のばらつきを 説明のに有効でない
他の変量を探索
第 12 章 単回帰分析 廣野元久 高橋行雄 14/25
1.6 回帰分析の利用法
因果の確認 知識経験として , 因果が想定される 2 変量が , 実際に
因果があるかどうかをデータから判断できる 金属の抵抗値は , 周辺の温度に依存する
予測 回帰式が有効なら , それを予測に用いることができる 周辺温度が 100℃ のときの抵抗値を予測できる
制御 説明変量をある値に固定すると , 従属変動のばらつき
は 小さくなり , 平均値も目的の値に留めることができる 抵抗値が 100Ω になるように , 周辺温度を 50℃ に制御 する ( 工場の製品管理などに使われる )
第 12 章 単回帰分析 廣野元久 高橋行雄 15/25
2 単回帰分析の操作
2.1 単回帰分析の操作2.2 回帰分析の結果の書き方2.3 信頼区間曲線の表示2.4 残差の分析
第 12 章 単回帰分析 廣野元久 高橋行雄 16/25
2.1 単回帰分析の操作( 1 )
廃棄物処理 .jmp をロードするここをクリック
第 12 章 単回帰分析 廣野元久 高橋行雄 17/25
2.1 単回帰分析の操作( 2 )
1. 人口をクリック 2.X をクリック
3. 人口の 役割が決まる
4. ゴミ収集量をクリック 5.Y をクリック
6. ゴミ収集量の 役割が決まる
7.OK ボタンを押す
第 12 章 単回帰分析 廣野元久 高橋行雄 18/25
0
50000
100000
150000
ƒSƒ~
ŽûW
—Ê
ΜЯ
0 100000 300000 500000
lΞ
’¼ü‚Ì‚ ‚Ä‚Í‚ß
lŒû‚ƃSƒ~ŽûW—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
2.1 単回帰分析の操作( 3 )
1. 人口とゴミ収集量の 散布図が表示される
2. ここをクリックする
3. 直線のあてはめをクリックする
4. 回帰直線 が表示 される
第 12 章 単回帰分析 廣野元久 高橋行雄 19/25
ƒSƒ~ŽûW—Ê = 4811.3843 + 0.2998754 lŒû
R2掩—R“x’²®R2æŒë·‚Ì•W€•Î·(RMSE)Y‚Ì•½‹ÏƒIƒuƒUƒx[ƒVƒ‡ƒ“(‚Ü‚½‚Íd‚݂̇Œv)
0.966750.9643757598.027 58831.5 16
‚ ‚Ä‚Í‚ß‚Ì—v–ñ
ƒ‚ƒfƒ‹Œë·‘S‘Ì(C³Ï‚Ý)
—vˆö 1 14 15
Ž©—R“x2.3499e+10 8082202682.43072e10
•½•û˜a2.3499e10 57730019
•½‹Ï•½•û407.0500
F’l
<.0001p’l(Prob>F)
•ªŽU•ªÍ
Ø•ÐlŒû
€4811.38430.2998754
„’è’l3282.8650.014863
•W€Œë· 1.47 20.18
t’l0.1649<.0001
p’l(Prob>|t|)ƒpƒ‰ƒ[ƒ^„’è’l
’¼ü‚Ì‚ ‚Ä‚Í‚ß
2.1 単回帰分析の操作( 4 )
回帰式 人口 1 人増加すると ごみは 0.29988 t増加する決定係数 R2
標準誤差 回帰で説明できない 残差の標準偏差
回帰係数
回帰係数の検定結果 切片 : 定数項 人口 : 傾き 傾きのp値が <.0001 と 非常に小さいので高度に有意 回帰直線は意味がある
第 12 章 単回帰分析 廣野元久 高橋行雄 20/25
2.2 回帰分析の結果の書き方
書き落としてはいけないこと回帰式回帰係数のt値 ( あるいは , 標準誤差 )決定係数標準誤差
2
4811.38 0.29988
1.47 20.18
0.967 . . 7598
t
R S E
ゴミ収集量 人口値
第 12 章 単回帰分析 廣野元久 高橋行雄 21/25
0
50000
100000
150000
ƒSƒ~
ŽûW
—Ê
ΜЯ
0 100000 300000 500000lΞ
2.3 信頼区間曲線の表示 (1)
1. 直線のあてはめの▼マークをクリック
2. 回帰の信頼区間をクリック
3.95%の信頼区間 曲線が表示される
第 12 章 単回帰分析 廣野元久 高橋行雄 22/25
0
50000
100000
150000
ƒSƒ~
ŽûW
—Ê
ΜЯ
0 100000 300000 500000
lΞ
’¼ü‚Ì‚ ‚Ä‚Í‚ß•½‹Ï‚Ì‚ ‚Ä‚Í‚ß
lŒû‚ƃSƒ~ŽûW—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
2.3 信頼区間曲線の表示 (2)
1. ここをクリック
2. 平均のあてはめをクリック
3.Y の標本平均が表示される
標本平均の線の全域が信頼区間曲線内に含まれるとき
回帰の傾きは有意ではない
第 12 章 単回帰分析 廣野元久 高橋行雄 23/25
-10000-5000
05000
100001500020000
Žc
·
ΜЯ
0 100000200000300000400000500000
lΞ
2.4 残差の分析( 1 )
目的 回帰モデル ( 回帰直線 ) がデータによく当てはま
っているかどうかのチェックを行う
1. ここをクリック2. 残差プロットをクリック
3. 残差プロットが表示される
ラベルで外れ値を表示
良いモデルは残差のプロットはランダムである
第 12 章 単回帰分析 廣野元久 高橋行雄 24/25
2.4 残差の分析( 2 )
外れ値の特徴を調べる データの背後にある知識を活用して ,外れ値の 特徴を調べる この例では
厚木 ,大和 , 小田原 ,鎌倉
ホテルや 歓楽街
観光地 観光客などが多い ごみを出す人口に カウントされていない
第 12 章 単回帰分析 廣野元久 高橋行雄 25/25
2.4 残差の分析( 3 )
系列相関時系列データの場合には , 残差に波状の系列相関が現れることがある
自己相関モデルを追加するなどの特殊なテクニックが必要
不等分散残差が説明変量の値に従い大きくなる
対数変換や 2次項の追加などの変数変換が必要