pcaを用いた2群の有意差検定
DESCRIPTION
PCAを用いた2群の有意差検定. 中央大学理工学部物理学科田口善弘. 1. 2群(X群vsY群)の差の検定の問題点. X群4サンプル. Y群4サンプル. X群 vs Y群 ×. XA-XB + vs ○ YA-YB ー. 観測量 8 種. すべての実験条件の組み合わせを考えると数が発散 ↓ 多重比較の補正を考えなくてはならなくなり. A群 vs B群 ×. 変数選択. 評価軸の構成. 2群の平均の差 [判別 X ]. (XA + XB) – (YA + YB). Q9,Q10 Q11,Q12, ..... - PowerPoint PPT PresentationTRANSCRIPT
PCA を用いた 2 群の有意差検定
中央大学理工学部物理学科田口善弘
1 . 2 群 (X 群 vsY 群 ) の差の検定の問題点
X1
X2
X3
X4
Y1
Y2
Y3
Y4
Q1 - +
Q2
Q3
Q4
Q5
Q6
Q7
Q8条件 A A B B B B A A
X 群4サンプル Y 群4サンプル
XA-XB + vs ○YA-YB ー
観測量8種
すべての実験条件の組み合わせを考えると数が発散 ↓多重比較の補正を考えなくてはならなくなり ...
X 群 vs Y 群 ×
A 群 vs B 群 ×
(XA – XB) – (YA - YB)
(XA
+ X
B) –
(YA
+ Y
B)
Q1,Q2Q3,Q4
Q5,Q6Q7,Q8
Q9,Q10Q11,Q12, ..... QN
変数選択2 群の平均の差 [ 判別 X]
2(群内部分群間差)の差 [ 判別 ○ ]
評価軸の構成
0
0
機械学習でできるか?
線形判別 ×
( Q1,Q2,...,Q 7 ,Q8 ) × ( A,B )additive
変数選択
multiplicative
カーネルトリック+ SVM ×(Q1,Q2,...,QN,[A,B]) → f(Q1,Q2,...,QN,[A,B])
変数選択ができない
多分、できないわけじゃない。
なんらかの尤度を導入し、誤差(判別ミス)を最小にする最小限の変数選択( AIC 的に)ができるはず。僕にはわかりません。
→ もっとシンプルな事を考える
発想を変える → PCA
X1
X 2
YN
Q1,Q2,..,QN
PC1
PC2
サンプル( X,Y) の組み合わせとして主成分だけしか考えない
心: X 群と Y 群に「差」があるならそれは特徴量として現れるはず
具体例:SLE :全身性エリテマトーデスRA: 関節リウマチDM: 皮膚筋炎 → 遺伝子のプロモーター領域のメチル化(=Q) に有意の差があるか? (Javierre 2010)
サンプル: (X: 発症、 Y :非発症)[ 発症( X ) / 非発症( Y )双子+非発症(Y)同年齢・同性コントロール2=4 ]× 5 =20
結果:SLE でしか有意の差が見つからなかった。
部分群 [A , B]
DM の場合
PC2
PC
3
Q= プロモーターのメチル化
PC2 発症 vs 非発症 X 男性 vs 女性 ○
発症
双子
非発
症双
子非
発症
コン
トロ
ール
1非
発症
コン
トロ
ール
2
同年齢同性
グループ
PC3 発症 vs 非発症 ○ (but only within twins) 男女でメチル化が逆転
発症
双子
非発
症双
子
非発
症コ
ント
ロー
ル1
非発
症コ
ント
ロー
ル2
非発
症双
子
発症双子
男性 発症↑
女性 発症↓
発症双子 vs 非発症双子
男女でメチル化が逆転
P=3×10-13 P=2×10-11
P=2×10-7
P=3×10-13
P=2<10-16P=2×10-7 P=4×10-10
SLE,RA,DM の三種はいずれも自己免疫疾患で共通の遺伝子に異常が生じていることが期待される ↓まさにそうなっている!
また SLE の場合は原著と共通の遺伝子が選ばれていた。
まとめ
2 群の差の検定を行う場合、各群がサブグループに別れている場合に、教師無し学習( PCA )を用いて差が検出できる変数の選択、及び、変数の線形結合による差を検定する新たな合成指数を構成する事を提案した。
SLE,RA,DM の3種の自己免疫疾患において共通の遺伝子がプロモーター領域のメチル化に異常を引き起こしていることを検出した。