時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)...

8
時時時時時時時時時 時時時時時時時時時 時時時時時時時時時時時時時時時時 ±0.72 時時時時 15% 時時時時時時時時時 2014 時 4 時 20 時 時時時時

Upload: toshiyuki-shimono-

Post on 26-Jan-2015

129 views

Category:

Education


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

時系列の相関係数の解釈は注意を要する

ランダムウォーク同士の相関係数は±0.72 の外側に 15% が分布することなど

2014 年 4 月 20 日 下野寿之

Page 2: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

初めに:ブラウン運動とランダムウォーク

• ブラウン運動は花粉中の微粒子の “生きている” 運動として、 1828 年に植物学者のブラウンが発見、これを 1905 年にアインシュタインが熱運動に由来させる理論を発表

ブラウン運動は、 x 座標と y 座標をそれぞれランダムウォークとすることで作ることが出来る。

Page 3: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

“ ランダムウォークと時刻の相関係数” の分布についてのヒストグラム

• ±0.87 の外側に 20% が分布し、 ±0.94 の外側に 5% が分布する。 ±0.66 の外側に 50% が分布する。 ±0.89 の外側に 15% が分布し、 ±0.93 が最頻値である。

• 経済指標などの値の変動のグラフと共に、年や月との相関係数の高さを示すグラフがよく存在するが、大きな誤解を与えてしまう。相関係数が単に大きいことだけでは、ランダムウォークと弁別は困難。

Page 4: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

“ ランダムウォークと時刻の相関係数” の分布についてのヒストグラム

• ±0.67 の外側に 20% が分布し、 ±0.83 の外側に 5% が分布する。 ±0.41 の外側に 50% が分布し、 ±0.72 の外側に 15% が分布する。

• 2 個の時系列のグラフの 同じ時刻ごとの値のペアについて 相関係数が高くても、単にそれだけでは 将来の動き方が連動するとは、とても言いがたい。

Page 5: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

( 参考 ) 分位点プロット ― ヒストグラムでは分位を読み取ることは難しいので、分位点プロット化した。

0.00

0.25

0.50

0.75

1.00

0% 25% 50% 75% 100%

ランダムウォークに関係する相関係数の絶対値の分位点プロット

ランダムウォーク同士の相関係数の絶対値 ランダムウォークと等差数列の相関係数の絶対値

Page 6: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

参考 : 数の精度についての簡単な考察

信頼性の高い数値を求めるには、 K と L の値をいろいろ変化させて試す必要あり。

> K=1e5;L=31; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4160581 0.4175198 0.4163474> K=1e5;L=1e3; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4123227 0.4133370 0.4154217> K=1e5;L=1e2; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4160729 0.4155231 0.4121305> K=1e6;L=1e2; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4149759 0.4145197 0.4131180

Page 7: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

まとめ :

• 連続に変化するような時系列データについて、単に回帰を取るだけでは、ほとんど意味が無い。(相関係数 0.95 程度以上の場合は除く。)• 複数の連続に変化するような時系列データの、各時刻の値につ

いて、相関係数が高いことを根拠にそれらの時系列データの間に相関関係があるとは言えない。(相関係数 0.83 程度以上の場合は除く。)

Page 8: 時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)

さらに考察として加えたいこと

ヒストグラムの形は、数式で表すことはできないか? 2個のヒストグラムに何か関係は無いか? 今回のランダムウォークはガウス乱数を 1000 個用いて

累和をとることで生成したが、精度として十分であるか?

時系列データのトレンドを把握するには、計算上は差分を取ると良いと言えそうだが、では、どういう差分を取るのが適切であるか。

この話題は時系列関係なので、参考文献は多数あるはず(単位根検定などの話も重要。)