がうす・まるこふ の定理とかそのへん

25
5/11/2014 1 がうす・まるこふの定理 とかそのへん @tanimocchi 1 st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Upload: tadaaki-tanimoto

Post on 28-May-2015

1.613 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: がうす・まるこふ の定理とかそのへん

5/11/2014 1

がうす・まるこふの定理 とかそのへん

@tanimocchi

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 2: がうす・まるこふ の定理とかそのへん

5/11/2014 2

自己紹介 Twitter ID: @tanimocchi

(もっちぃ)

数学科出身、博士(情報科学)

所属:タヒにかけ半導体

仕事:マーケティングなのか?

新規事業開拓なのか? 統計解析は必要! だと信じてる

統数研公開講座には時折参加してますので、ご一緒の際は宜しくお願いします。

アンケート設計・分析にも従事

今回の資料には、RやPythonなどのコードは一切ないです!

また、対象は「線形モデル」のみに限定しています!!

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 3: がうす・まるこふ の定理とかそのへん

5/11/2014 3

出典:「自然科学の統計学 (基礎統計学)」

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

「第2章 線形モデルと最小二乗法」から適当につまんだ感じ

Page 4: がうす・まるこふ の定理とかそのへん

5/11/2014 4

不偏性って?

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 5: がうす・まるこふ の定理とかそのへん

5

不遍性って? 全ての可能な標本それぞれに対して求めた推定量の期

待値 が、母集団特性値 に一致: ˆE E

D推定量:

C推定量:

A推定量:

B推定量:

ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値

:母集団特性値

5/11/2014 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 6: がうす・まるこふ の定理とかそのへん

5/11/2014 6

誤差の仮定と標本平均

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 7: がうす・まるこふ の定理とかそのへん

5/11/2014 7

誤差εiの仮定 仮定

仮定の多次元拡張

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

jiCov

V

E

ji

i

i

0,

0

2

無相関性:ⅲ

等分散性:ⅱ

普遍性 :ⅰ

誤差ベクトル:

:単位行列:零ベクトル、ここで、 

無相関性:等分散性ⅲⅱ

平均ベクトル :普遍性       ⅰ

,,

,

1

2

n

V

E

ε

I0

I

εεε

εεεεyyyyy

2

21

2212

1211

,,

,,

,,

,

nnn

n

n

VCovCov

CovVCov

CovCovV

VCov

EEEEEEV

Page 8: がうす・まるこふ の定理とかそのへん

5/11/2014 8

線形モデル

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

XθεXθεXθyεXθy

X

θ

y

ε

I

0

EEEE

pnM

yy

n

n

n

1

,,

,,

,,

,,

1

1

1

   線形モデル 

画行列実験の計画で定まる計の元:既知係数行列 

未知母数ベクトル:

観測値ベクトル:

誤差ベクトル:

:単位行列

:零ベクトル 

Page 9: がうす・まるこふ の定理とかそのへん

5/11/2014 9

標本平均の性質:BLUE 命題:標本平均は線形結合で表される不偏推定量の中で最小分散

(最良線形不偏推定量:BLUE(Best Linear Unbiased Estimator))

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

で分散最小このとき

  より、 

件は、 であり、等号成立条相乗の関係から、  相加

    

が不偏性を持つ事から一方、

  

  

と書く。ここで、線形結合を

nnlylV

yn

yylni

nllll

lln

lllylEylE

ylEyl

lyVlylVylV

VEEEyEyV

yEyyl

n

i

n

i i

n

i ii

n

i

in

i iiin

ni

n

i

n

i i

n

i i

n

i i

n

i i

n

i ii

n

i ii

n

i ii

n

i ii

n

i i

n

i ii

n

i ii

n

i ii

iiiiii

iii

n

i ii

22

1

2

2

1

2

1

11

22

2

2

1

2

11

2

11111

11

2

1

2

1

2

11

22222

1

1

1 1

1

1,

Page 10: がうす・まるこふ の定理とかそのへん

5/11/2014 10

最小二乗法

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 11: がうす・まるこふ の定理とかそのへん

5/11/2014 11

最小二乗法の原理 母数θのある係数l=(l1,…,lp)Tによる線形結合

の線形推定量を考える。

一般のXに対して、lが与えられる度にlTθのBLUEを直接求める事は可能ではあるにしても煩雑。

そこでlとは無関係にデータyとその期待値の偏差二乗和

を最小にする解 を求めておき、単に とする事で、 のBLUE

を求めようというのが、最小二乗法の原理

⇒ ガウス・マルコフの定理

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

XθyXθyXθyθS 2

ppll 11θl

θθ

θl

θl

Page 12: がうす・まるこふ の定理とかそのへん

5/11/2014 12

正規方程式 最小二乗法の の満たす方程式

正規方程式の解 が偏差二乗和 を最小化

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

の正規方程式   θyXXθX

0XθXyXyX

θXXXXθ

yXθ

θ

θyX

θ

XθXθ

θ

yXθ

θ

Xθy

θ

θS

XθXθyXθXθyyyXθyXθyXθyXθyθS

2

θ wAA

w

Awwa

x

ax

x

xa

,

微分の公式

θ

θS

θSXθθXXθθXθXyθXy

θXyXθθXXθθXθXyXθθXXθθXθXyθXy

θθXθXyθθXθXyXθyXθyθS

=0 0

θXXθθXXθθXXθθθXX

θXXθθXXθθXXθθXXθθθXXθXXθθθXXθθXX

θXXθyXθθXXθyXθθθXXθXXθθyXθyX

θXyXθXθXθθXXθy

θXyXθθXXθθXθXy

Page 13: がうす・まるこふ の定理とかそのへん

5/11/2014 13

推定可能関数 任意の線形式 が推定可能とは限らない。

実際、 のランクが未知母数の次元pより小さいと、 より、正規方程式

の解は不定となり、 は一意に定まらない。

尚、偏差二乗和 は下に凸な二次式であり、正規方程式は の極小値を与える条件であるため、正規方程式の解が不能となる事はない。

線形モデル の母数に関する整形式 で、 の線形式から成る不偏推定量が存在するものを推定可能関数(Estimable Function)という。

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

θl

XPM

XX

yXXθX

θ

θS θS

 εXθy θl y

Page 14: がうす・まるこふ の定理とかそのへん

5/11/2014 14

ガウス・マルコフの定理

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 15: がうす・まるこふ の定理とかそのへん

5/11/2014 15

ガウス・マルコフの定理 推論を推定可能モデルに限りと、最小二乗法に関する基本定理である、

次の定理が成り立つ。

証明の方針

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

乗解。を満たす任意の最小二

は、正規方程式を与える。但し、が一意に

について、能関数に関する任意の推定可 線形モデル

理ガウス・マルコフの定

yXθXXθθθl

θlεXθy

Theorem sMarkov'-Gauss

BLUE

を持つ。

  

小二乗解正規方程式も一意な最

り、自身も、推定可能であ関数が、従ってこの場合、任意の線形

のときのみ示す。の次元がフルランク、即ち

yXXXθ

θ

θXX

1

prank

Page 16: がうす・まるこふ の定理とかそのへん

5/11/2014 16

証明 [1/3] 不偏性

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

pp

ii

i

piEE

EE

,,,,,

1

0,0,1,0,,0

2121

11

1

θθ

θlθl

l

θlθl

θlXθXXXlyXXXlθl

yXXXlθl

θl

ここで、

となる事に注意。と置くと、

  

がわかる。特にの不偏推定量である事がとなって、

  

、操作が線形であるためを構成すると、期待値

  

に対して、今、任意の線形式

XθεXθεXθy EEEE 1

Page 17: がうす・まるこふ の定理とかそのへん

5/11/2014 17

証明 [2/3] 最小分散性 [1/2]

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

が成り立つ。

  

の分散はが成り立つから、

  

に対し、確率変数 次に、一般に2つの

が成り立つ。従って、

  

ここで、

  

ってとなるべきであり、よ

  

偏性からと置く。このとき、不

  

両者の差を

を考え、不偏推定量とは別に、勝手な線形次に

ybybyXXXlθlybθlyL

yL

0Xb

Xθbθ

Xθbybyb

ybθ

θlyLθ

ybyLXXXlyLθl

yLyθl

VCovVVV

YVYXCovXVYXV

YX

EE

E

E

,2

,2

,

0 ,

0 ,

,

:

t

1

1

Page 18: がうす・まるこふ の定理とかそのへん

5/11/2014 18

証明 [3/E] 最小分散性 [2/E]

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

のときに成立。、即ち尚等号は、である事が示された。

が量だったから、これでは任意の線形不偏推定ここで、

分散は常に非負    

  

となる事から

  

  

    

  

  

  

  

の共分散は

  

確率変数を満たすとき、2つの定が無相関、等分散の仮 一方、誤差

0

BLUE

0,

,,,

0

,

,

V

111

22

,

2

,

2

θlyLyb

θlyL

θlybθlyL

yXbXXlbyXXXlybyXXXl

ba

εbεa

εεbεaεεbaεεba

XθXθθaεεbaεXθbεXθaXθXθa

XθXθθaεεbaXθθbXθθaXθXθa

XθXθθaεXθbεXθa

ybyayybaybya

ybya

Iσεε

VVVV

Cov

baba

CovbabaCovCov

EEEEE

EEE

E

E

EEECov

ybya

i

ii

ji

ijji

ji

jijijjii

iiii

Page 19: がうす・まるこふ の定理とかそのへん

5/11/2014 19

最小二乗推定量の分散

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 20: がうす・まるこふ の定理とかそのへん

5/11/2014 20

最小二乗推定量の分散 一般に線形推定量は任意の線形式

と表す事ができる。したがって、その分散は

のように求める事が出来る。特に がフルランクの場合、推定量

の分散は、

で与えられる。

特に、 自体の分散は、 とおけば、 の対角要素から

として求められ、同様に

のように表す事ができる。 1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

ii yLt yLy

22 LLyL iiii yVLyLVV

X

yXXXlθl

1

L

21211211 lXXllXXXXXXlXXXlXXXlθl

V

i

0,,0,1,0,,0

i

l XX

要素の jiV i , 21

XX

要素の jiCov ji , , 21

XX

Page 21: がうす・まるこふ の定理とかそのへん

5/11/2014 21

最小二乗推定量の 標本分布

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 22: がうす・まるこふ の定理とかそのへん

5/11/2014 22

正規線形モデル 線形モデル では、誤差に関して、

だけを仮定し、特別な分布を想定していない。

以下、

を仮定し、正規線形モデル(Normal Linear Model)に関して、最小二乗

推定量の標本分布を考察

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

 εXθy

誤差ベクトル:

:単位行列:零ベクトル、ここで、 

無相関性:等分散性ⅲⅱ

平均ベクトル :普遍性       ⅰ

,,

,

1

2

n

V

E

ε

I0

I0ε2

..

,Ndii

Page 23: がうす・まるこふ の定理とかそのへん

5/11/2014 23

最小二乗推定量の標本分布 [1/2] 正規線形モデルの場合、BLUEは更に強い最適性を持つ。

推定量 は、線形関数に限らず、全ての不偏推定量の中で考えても、最小分散の不偏推定量(証明略)

最小二乗推定量は の線形結合だから、再び正規分布に従うので、平均と分散が求まれば標本分布が定まる。

任意の推定可能関数 についても、そのBLUEである最小二乗推定 の期待値は であり、分散は、

特に、 がフルランクならば

となる。従って、最小二乗推定量の は以下の正規分布に従う。

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

y

y

θl

θl

θl

iiiii yLLyLV θl

 ここで、22

X

21lXXlθl

V

θl

prankifN

prankifLN i

XlXXlθl

Xθl

    

       

21

22

,

,

Page 24: がうす・まるこふ の定理とかそのへん

5/11/2014 24

最小二乗推定量の標本分布 [2/E] 特に、 とすると、フルランクの場合、各傾き 及び、

それを纏めた は以下を満たす。

1st #みどりぼん 「データ解析のための統計モデリング入門」読書会

i

 ~

 成分の~

21

21

,

,,

XXθθ

XX

N

iiN ii

0,,0,1,0,,0

i

l

θ

Page 25: がうす・まるこふ の定理とかそのへん

5/11/2014 38th Tokyo.R 25

Thanks a lot!