がうす・まるこふ の定理とかそのへん
TRANSCRIPT
5/11/2014 1
がうす・まるこふの定理 とかそのへん
@tanimocchi
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 2
自己紹介 Twitter ID: @tanimocchi
(もっちぃ)
数学科出身、博士(情報科学)
所属:タヒにかけ半導体
仕事:マーケティングなのか?
新規事業開拓なのか? 統計解析は必要! だと信じてる
統数研公開講座には時折参加してますので、ご一緒の際は宜しくお願いします。
アンケート設計・分析にも従事
今回の資料には、RやPythonなどのコードは一切ないです!
また、対象は「線形モデル」のみに限定しています!!
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 3
出典:「自然科学の統計学 (基礎統計学)」
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
「第2章 線形モデルと最小二乗法」から適当につまんだ感じ
5/11/2014 4
不偏性って?
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5
不遍性って? 全ての可能な標本それぞれに対して求めた推定量の期
待値 が、母集団特性値 に一致: ˆE E
D推定量:
C推定量:
A推定量:
B推定量:
ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値
:母集団特性値
5/11/2014 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 6
誤差の仮定と標本平均
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 7
誤差εiの仮定 仮定
仮定の多次元拡張
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
jiCov
V
E
ji
i
i
0,
0
2
無相関性:ⅲ
等分散性:ⅱ
普遍性 :ⅰ
誤差ベクトル:
:単位行列:零ベクトル、ここで、
無相関性:等分散性ⅲⅱ
平均ベクトル :普遍性 ⅰ
,,
,
1
2
n
V
E
ε
I0
Iε
0ε
I
εεε
εεεεyyyyy
2
21
2212
1211
,,
,,
,,
,
nnn
n
n
VCovCov
CovVCov
CovCovV
VCov
EEEEEEV
5/11/2014 8
線形モデル
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
XθεXθεXθyεXθy
X
θ
y
ε
I
0
EEEE
pnM
yy
n
n
n
1
,,
,,
,,
,,
1
1
1
線形モデル
画行列実験の計画で定まる計の元:既知係数行列
未知母数ベクトル:
観測値ベクトル:
誤差ベクトル:
:単位行列
:零ベクトル
5/11/2014 9
標本平均の性質:BLUE 命題:標本平均は線形結合で表される不偏推定量の中で最小分散
(最良線形不偏推定量:BLUE(Best Linear Unbiased Estimator))
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
で分散最小このとき
より、
件は、 であり、等号成立条相乗の関係から、 相加
が不偏性を持つ事から一方、
と書く。ここで、線形結合を
nnlylV
yn
yylni
nllll
lln
lllylEylE
ylEyl
lyVlylVylV
VEEEyEyV
yEyyl
n
i
n
i i
n
i ii
n
i
in
i iiin
ni
n
i
n
i i
n
i i
n
i i
n
i i
n
i ii
n
i ii
n
i ii
n
i ii
n
i i
n
i ii
n
i ii
n
i ii
iiiiii
iii
n
i ii
22
1
2
2
1
2
1
11
22
2
2
1
2
11
2
11111
11
2
1
2
1
2
11
22222
1
1
1 1
1
1,
5/11/2014 10
最小二乗法
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 11
最小二乗法の原理 母数θのある係数l=(l1,…,lp)Tによる線形結合
の線形推定量を考える。
一般のXに対して、lが与えられる度にlTθのBLUEを直接求める事は可能ではあるにしても煩雑。
そこでlとは無関係にデータyとその期待値の偏差二乗和
を最小にする解 を求めておき、単に とする事で、 のBLUE
を求めようというのが、最小二乗法の原理
⇒ ガウス・マルコフの定理
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
XθyXθyXθyθS 2
ppll 11θl
θθ
θl
θl
5/11/2014 12
正規方程式 最小二乗法の の満たす方程式
正規方程式の解 が偏差二乗和 を最小化
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
の正規方程式 θyXXθX
0XθXyXyX
θXXXXθ
yXθ
θ
θyX
θ
XθXθ
θ
yXθ
θ
Xθy
θ
θS
XθXθyXθXθyyyXθyXθyXθyXθyθS
2
θ wAA
w
Awwa
x
ax
x
xa
,
微分の公式
θ
θS
θSXθθXXθθXθXyθXy
θXyXθθXXθθXθXyXθθXXθθXθXyθXy
θθXθXyθθXθXyXθyXθyθS
=0 0
θXXθθXXθθXXθθθXX
θXXθθXXθθXXθθXXθθθXXθXXθθθXXθθXX
θXXθyXθθXXθyXθθθXXθXXθθyXθyX
θXyXθXθXθθXXθy
θXyXθθXXθθXθXy
5/11/2014 13
推定可能関数 任意の線形式 が推定可能とは限らない。
実際、 のランクが未知母数の次元pより小さいと、 より、正規方程式
の解は不定となり、 は一意に定まらない。
尚、偏差二乗和 は下に凸な二次式であり、正規方程式は の極小値を与える条件であるため、正規方程式の解が不能となる事はない。
線形モデル の母数に関する整形式 で、 の線形式から成る不偏推定量が存在するものを推定可能関数(Estimable Function)という。
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
θl
XPM
XX
yXXθX
θ
θS θS
εXθy θl y
5/11/2014 14
ガウス・マルコフの定理
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 15
ガウス・マルコフの定理 推論を推定可能モデルに限りと、最小二乗法に関する基本定理である、
次の定理が成り立つ。
証明の方針
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
乗解。を満たす任意の最小二
は、正規方程式を与える。但し、が一意に
について、能関数に関する任意の推定可 線形モデル
理ガウス・マルコフの定
yXθXXθθθl
θlεXθy
Theorem sMarkov'-Gauss
BLUE
を持つ。
小二乗解正規方程式も一意な最
り、自身も、推定可能であ関数が、従ってこの場合、任意の線形
のときのみ示す。の次元がフルランク、即ち
yXXXθ
θ
θXX
1
prank
5/11/2014 16
証明 [1/3] 不偏性
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
pp
ii
i
piEE
EE
,,,,,
1
0,0,1,0,,0
2121
11
1
θθ
θlθl
l
θlθl
θlXθXXXlyXXXlθl
yXXXlθl
θl
ここで、
となる事に注意。と置くと、
がわかる。特にの不偏推定量である事がとなって、
、操作が線形であるためを構成すると、期待値
に対して、今、任意の線形式
XθεXθεXθy EEEE 1
5/11/2014 17
証明 [2/3] 最小分散性 [1/2]
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
が成り立つ。
の分散はが成り立つから、
に対し、確率変数 次に、一般に2つの
が成り立つ。従って、
ここで、
ってとなるべきであり、よ
偏性からと置く。このとき、不
両者の差を
を考え、不偏推定量とは別に、勝手な線形次に
ybybyXXXlθlybθlyL
yL
0Xb
Xθbθ
Xθbybyb
ybθ
θlyLθ
ybyLXXXlyLθl
yLyθl
VCovVVV
YVYXCovXVYXV
YX
EE
E
E
,2
,2
,
0 ,
0 ,
,
:
t
1
1
5/11/2014 18
証明 [3/E] 最小分散性 [2/E]
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
のときに成立。、即ち尚等号は、である事が示された。
が量だったから、これでは任意の線形不偏推定ここで、
分散は常に非負
となる事から
の共分散は
確率変数を満たすとき、2つの定が無相関、等分散の仮 一方、誤差
0
BLUE
0,
,,,
0
,
,
V
111
22
,
2
,
2
θlyLyb
θlyL
θlybθlyL
yXbXXlbyXXXlybyXXXl
ba
εbεa
εεbεaεεbaεεba
XθXθθaεεbaεXθbεXθaXθXθa
XθXθθaεεbaXθθbXθθaXθXθa
XθXθθaεXθbεXθa
ybyayybaybya
ybya
Iσεε
VVVV
Cov
baba
CovbabaCovCov
EEEEE
EEE
E
E
EEECov
ybya
i
ii
ji
ijji
ji
jijijjii
iiii
5/11/2014 19
最小二乗推定量の分散
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 20
最小二乗推定量の分散 一般に線形推定量は任意の線形式
と表す事ができる。したがって、その分散は
のように求める事が出来る。特に がフルランクの場合、推定量
の分散は、
で与えられる。
特に、 自体の分散は、 とおけば、 の対角要素から
として求められ、同様に
のように表す事ができる。 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
ii yLt yLy
22 LLyL iiii yVLyLVV
X
yXXXlθl
1
L
21211211 lXXllXXXXXXlXXXlXXXlθl
V
i
0,,0,1,0,,0
i
l XX
要素の jiV i , 21
XX
要素の jiCov ji , , 21
XX
5/11/2014 21
最小二乗推定量の 標本分布
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
5/11/2014 22
正規線形モデル 線形モデル では、誤差に関して、
だけを仮定し、特別な分布を想定していない。
以下、
を仮定し、正規線形モデル(Normal Linear Model)に関して、最小二乗
推定量の標本分布を考察
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
εXθy
誤差ベクトル:
:単位行列:零ベクトル、ここで、
無相関性:等分散性ⅲⅱ
平均ベクトル :普遍性 ⅰ
,,
,
1
2
n
V
E
ε
I0
Iε
0ε
I0ε2
..
,Ndii
~
5/11/2014 23
最小二乗推定量の標本分布 [1/2] 正規線形モデルの場合、BLUEは更に強い最適性を持つ。
推定量 は、線形関数に限らず、全ての不偏推定量の中で考えても、最小分散の不偏推定量(証明略)
最小二乗推定量は の線形結合だから、再び正規分布に従うので、平均と分散が求まれば標本分布が定まる。
任意の推定可能関数 についても、そのBLUEである最小二乗推定 の期待値は であり、分散は、
特に、 がフルランクならば
となる。従って、最小二乗推定量の は以下の正規分布に従う。
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
y
y
θl
θl
θl
iiiii yLLyLV θl
ここで、22
X
21lXXlθl
V
θl
prankifN
prankifLN i
XlXXlθl
Xθl
21
22
,
,
5/11/2014 24
最小二乗推定量の標本分布 [2/E] 特に、 とすると、フルランクの場合、各傾き 及び、
それを纏めた は以下を満たす。
1st #みどりぼん 「データ解析のための統計モデリング入門」読書会
i
~
成分の~
21
21
,
,,
XXθθ
XX
N
iiN ii
0,,0,1,0,,0
i
l
θ
5/11/2014 38th Tokyo.R 25
Thanks a lot!