時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)...
DESCRIPTION
TRANSCRIPT
時系列の相関係数の解釈は注意を要する
ランダムウォーク同士の相関係数は±0.72 の外側に 15% が分布することなど
2014 年 4 月 20 日 下野寿之
初めに:ブラウン運動とランダムウォーク
• ブラウン運動は花粉中の微粒子の “生きている” 運動として、 1828 年に植物学者のブラウンが発見、これを 1905 年にアインシュタインが熱運動に由来させる理論を発表
ブラウン運動は、 x 座標と y 座標をそれぞれランダムウォークとすることで作ることが出来る。
“ ランダムウォークと時刻の相関係数” の分布についてのヒストグラム
• ±0.87 の外側に 20% が分布し、 ±0.94 の外側に 5% が分布する。 ±0.66 の外側に 50% が分布する。 ±0.89 の外側に 15% が分布し、 ±0.93 が最頻値である。
• 経済指標などの値の変動のグラフと共に、年や月との相関係数の高さを示すグラフがよく存在するが、大きな誤解を与えてしまう。相関係数が単に大きいことだけでは、ランダムウォークと弁別は困難。
“ ランダムウォークと時刻の相関係数” の分布についてのヒストグラム
• ±0.67 の外側に 20% が分布し、 ±0.83 の外側に 5% が分布する。 ±0.41 の外側に 50% が分布し、 ±0.72 の外側に 15% が分布する。
• 2 個の時系列のグラフの 同じ時刻ごとの値のペアについて 相関係数が高くても、単にそれだけでは 将来の動き方が連動するとは、とても言いがたい。
( 参考 ) 分位点プロット ― ヒストグラムでは分位を読み取ることは難しいので、分位点プロット化した。
0.00
0.25
0.50
0.75
1.00
0% 25% 50% 75% 100%
ランダムウォークに関係する相関係数の絶対値の分位点プロット
ランダムウォーク同士の相関係数の絶対値 ランダムウォークと等差数列の相関係数の絶対値
参考 : 数の精度についての簡単な考察
信頼性の高い数値を求めるには、 K と L の値をいろいろ変化させて試す必要あり。
> K=1e5;L=31; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4160581 0.4175198 0.4163474> K=1e5;L=1e3; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4123227 0.4133370 0.4154217> K=1e5;L=1e2; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4160729 0.4155231 0.4121305> K=1e6;L=1e2; replicate(3,median(replicate(K,abs(cor(cumsum(rnorm(L)),cumsum(rnorm(L))))))) ;[1] 0.4149759 0.4145197 0.4131180
まとめ :
• 連続に変化するような時系列データについて、単に回帰を取るだけでは、ほとんど意味が無い。(相関係数 0.95 程度以上の場合は除く。)• 複数の連続に変化するような時系列データの、各時刻の値につ
いて、相関係数が高いことを根拠にそれらの時系列データの間に相関関係があるとは言えない。(相関係数 0.83 程度以上の場合は除く。)
さらに考察として加えたいこと
ヒストグラムの形は、数式で表すことはできないか? 2個のヒストグラムに何か関係は無いか? 今回のランダムウォークはガウス乱数を 1000 個用いて
累和をとることで生成したが、精度として十分であるか?
時系列データのトレンドを把握するには、計算上は差分を取ると良いと言えそうだが、では、どういう差分を取るのが適切であるか。
この話題は時系列関係なので、参考文献は多数あるはず(単位根検定などの話も重要。)