nagoya.r #12 非線形の相関関係を検出する指標の算出

22
非線形相関関係検出する指標算出

Upload: yusaku-kawaguchi

Post on 23-Jul-2015

1.113 views

Category:

Education


0 download

TRANSCRIPT

非線形の相関関係を

検出する指標の算出

川口勇作 [email protected]

Nagoya.R #12

於:名古屋大学 2014/12/6

メニュー

1. はじめに

2. MIC

3. minervaパッケージ

はじめに

• 相関

1. 二つのものが密接にかかわり合い、一方が変化すれば他方も変化するような関係

2. 数学で、一方が増加すると、他方が増加または減少する、二つの変量の関係

(デジタル大辞泉より)

はじめに

• 相関

–一つの値が大きくなるにつれてもう一方の値が大きく/小さくなる関係

•気温とアイスの売上

•カロリー摂取量と体重

• TOEICスコアと年収

–線形の関係

10 15 20 25 30 35

20

40

60

80

10

01

20

14

0

気温

アイスの売上

はじめに

• けど…

–常に線形の関係ばかりじゃない

–非線形の関係

•年齢と身長 –若いうちは伸びる、年をとると縮む

•スポーツにおける緊張と成績 –緊張し過ぎ・リラックスし過ぎだと成績は悪い

–程よく緊張しているのが良い

»逆U字の関係

5 10 15

24

68

10

緊張

成績

はじめに

• ピアソンの積率相関係数

–線形の関係を想定

–非線形の関係はうまく検出できない

–さっきの緊張と成績の例:r = -.01

http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0#mediaviewer/File:Correlation_examples2.svg

はじめに

• 現実のデータは線形ばかりではない

• 世の中には確かに非線形の関係も存在する

• 線形だけでは現実は見れない

• 非線形の相関も見れる指標を…

MICとは

• 最大情報係数(Maximal

Information Coefficient, MIC)

–Reshef et al. (2011) が考案

–Science誌の解説文にて「21世紀の相関」と呼ばれた

–非線形の相関関係も検出できる指標

MIC

• MIC

–R2に準ずる値

–計算方法

•相互情報量が最大になるようにグリッドを引いて計算

•詳細は原著論文にて

MIC

原著論文より

MIC

原著論文より

MIC

http://lectures.molgen.mpg.de/algsysbio12/MINEPresentation.pdf

minervaパッケージ

• MICを計算するためのパッケージ

• 「mine」という関数で計算します

• 使い方

mine(x, y)

–これだけ

– cor関数と基本的に同じ使い方

minervaパッケージ

• mine関数を実行すると、MIC以外にも値がいくつか出てくる

–MAS

–MEV

–MCN

–MICR2

–なんかいっぱい出たー

minervaパッケージ

• 大事なものだけ

–MAS

•単調性の指標

–MICR2

• MICとピアソンの積率相関係数の2乗の差

•非線形性の指標

minervaパッケージ

• ちなみにさっきのデータなら…

• r = -.01

• MIC = 0.892

(r に換算すると およそ .90!)

5 10 15

24

68

10

緊張

成績

MICは万能か?

• 否

–関係性の強さはわかるが、値がどう変わるかまではMICの数値だけではわからない

•散布図やLoessによる平滑化曲線などと併用して、関係をみることが重要

–ビッグデータが前提

•小規模なデータには不適切かも?

参考資料

Reshef, D. N., Reshef, Y. A., Finucane, H. K., Grossman, S. R., McVean, G.,

Turnbaugh, P. J., Lander, E. S., Mitzenmacher, M., & Sabeti, P. C. (2011).

Detecting novel associations in large data sets. Science, 334, 1518–

1524.

“相関”の話&そのついでに“21世紀の相関(MIC)”の話(ややマニア向け)‐ Take a Risk:林岳彦の研究メモ: http://takehiko-i-

hayashi.hatenablog.com/entry/20130426/1366948560#fn5

非線形もOKな相関係数:MIC‐Logics of Blue:http://logics-of-

blue.com/%E9%9D%9E%E7%B7%9A%E5%BD%A2%E3%82%82ok%E

3%81%AA%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0%EF%

BC%9Amic/