マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  ·...

60
マイクロアレイ解析手法 あれこれ 東京大学大学院・農学生命科学研究科 アグリバイオインフォマティクス人材養成ユニット 門田幸二

Upload: others

Post on 06-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

マイクロアレイ解析手法あれこれ

東京大学大学院・農学生命科学研究科

アグリバイオインフォマティクス人材養成ユニット

門田幸二

Page 2: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

自己紹介

2002/4

学位論文:「cDNAマイクロアレイを用

いた遺伝子発現解析手法の開発」

2003/11 2005/2

東大・院農 応用生命工学専攻

生物情報工学研究室(6号館)

(清水謙多郎教授)

放医研・先端遺伝子発現研究センター

東大・院農・アグリバイオ産総研・生命情報科学研究センター

マイクロアレイ

cDNA-AFLP (HiCEP)

Since 2002

「トランスクリプトーム解析」

Page 3: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

Contents

1. マイクロアレイ解析手法

組織特異的発現パターン検出法

二群間比較用の手法

2. cDNA-AFLP(HiCEP)Kadota et al., BMC Bioinformatics, 2005Kadota et al., submitted

Page 4: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

本日のお題

「マイクロアレイ解析手法あれこれ」

組織特異的(選択的)発現遺伝子検出法

二群間で発現の異なる遺伝子検出法

Page 5: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

組織特異的発現遺伝子検出法

ランキングに基づく方法Dixon test (Greller and Tobin, Genome Res., 1999)Pattern matching (Pavlidis and Noble, Genome Biol., 2001)Tissue specificity Index (Yanai et al., Bioinformatics, 2005)Entropy (Schug et al., Genome Biol., 2005)Tukey-Kramer’s Honest Significance Difference (HSD) test (Liang et al., Physiol. Genomics, 2006)

外れ値検出に基づく方法Akaike’s Information Criterion (AIC) (Kadota et al.,Physiol. Genomics, 2003)Sprent’s non-parametric method (Ge et al., Genomics, 2005)

組み合わせ(AIC + a modified entropy)ROKU (Kadota et al., BMC Bioinformatics, 2006)

1,ix

12,x11,x

1,nx

2,ix

22,x21,x

2,nx

3,ix

32,x31,x

3,nx

4,ix

42,x41,x

4,nx

様々な組織(条件)

ロク

Page 6: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

ランキングに基づく方法1

Dixon test Dixon WJ, Biometrics, 1953.一組織のみで高発現(低発現)しているパターンを検出

x

1

12

1

1

)(

618.0480

3380)(

xxxxD

xxxxD

n

n

nn

−−

=

=−−

=−−

= −

x

xsort

一般化 nx1−nx1x

高発現の場合:

低発現の場合:

統計量Dの大きい遺伝子を抽出

組織特異的発現遺伝子検出法 Greller and Tobin, Genome Res., 1999

Page 7: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

Dixon test(とその変法)の欠点

複数外れ値(二組織以上で高発現)に対応不可

複数の外れ値が互いに外れ値をかばいあう効果(マスク効果)の影響を受ける

in

xin

x1−

ix1

bn

xbn

x1−

bx1

an

xan

x1−

ax1

遺伝子i

遺伝子a

遺伝子b

6.0)(1

1 ≈−−

= −

xxxxD

n

nnx

1.0)(1

1 ≈−−

= −

xxxxD

n

nnx

03.0)(1

1 ≈−−

= −

xxxxD

n

nnx

組織特異的発現遺伝子検出法 上田太一郎, 応用統計学, 1996

Page 8: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

ランキングに基づく方法2

Tissue specificity index τ遺伝子発現ベクトル x = (x1, x2, …, xn)に対し、

例: x = (0, 8, 0, 0, 0, 2, 0, 2, 0, 0, 0, 0)p = (0, 1, 0, 0, 0, 0.25, 0, 0.25, 0, 0, 0, 0)τ(x) = (1+0+1+1+1+0.75+1+0.75+1+1+1+1)/(12-1) = 0.95τ(x)のとりうる範囲: 0 ≦τ≦1

)max(1

)1(1 x where , ii

n

i i xpn

p=

−=∑=τ

統計量τの大きい遺伝子を抽出

Yanai et al., Bioinformatics, 2005組織特異的発現遺伝子検出法

Housekeeping gene Tissue-specific gene

Page 9: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

ランキングに基づく方法3

エントロピー H遺伝子発現ベクトル x = (x1, x2, …, xn)に対し、そのエントロピーH(x)は以下の式で表される:

H(x)のとりうる範囲: 0 ≦ H(x) ≦log2(n)

組織特異的発現遺伝子検出法 Schug et al., Genome Biol., 2005

∑∑ =−== iiii

n

i i xxpppH where x ),(log)( 21

Tissue-specific gene Housekeeping gene

統計量の小さい遺伝子を抽出

Page 10: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

エントロピーH(とτ)の欠点

単純にエントロピーの低いもの(or τの高いもの)

を検出する方法だと、以下のような特異的発現パターンを検出するのが困難(上位にランクインしないから)。

ベースラインが高い 特異的低発現パターン 混合型

H(x)のとりうる範囲:0 ≦ H(x) ≦log2(n)

n = 10→3.32

H : Schug et al., Genome Biol., 2005τ:Yanai et al., Bioinformatics, 2005

Page 11: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

ランキングの改良

組織特異的低発現パターンなど様々な特異的発現パターンも含めて統一的にランキング可能にしたい

遺伝子発現ベクトルxを変換(x x’)

H(x’)でランキング

→一応目的達成

Kadota et al., BMC Bioinformatics, 2006

bwii Txx −='

点線:Tbwの値

赤丸:変換後の各要素(xi’)の値

ベースラインが高い 特異的低発現パターン 混合型

Page 12: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

しかし!

Page 13: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

H(x’)の問題点( H (x) とτ(x) 含む)

ランク上位 → 様々なタイプの組織特異的(選択的)遺伝子

どの組織で高発現(and/or 低発現)かは、教えて

くれない「大脳と眼球のみで特異的高発現な遺伝子」をランキングしたい

ランキングに基づく方法のみでは不十分

Page 14: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

組織特異的発現遺伝子検出法

ランキングに基づく方法Dixon test (Greller and Tobin, Genome Res., 1999)Pattern matching (Pavlidis and Noble, Genome Biol., 2001)Tissue specificity Index (Yanai et al., Bioinformatics, 2005)Entropy (Schug et al., Genome Biol., 2005)Tukey-Kramer’s Honest Significance Difference (HSD) test (Liang et al., Physiol. Genomics, 2006)

外れ値検出に基づく方法Akaike’s Information Criterion (AIC) (Kadota et al.,Physiol. Genomics, 2003)Sprent’s non-parametric method (Ge et al., Genomics, 2005)

組み合わせ(AIC + a modified entropy)ROKU (Kadota et al., BMC Bioinformatics, 2006)

1,ix

12,x11,x

1,nx

2,ix

22,x21,x

2,nx

3,ix

32,x31,x

3,nx

4,ix

42,x41,x

4,nx

様々な組織(条件)

ロク

Page 15: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

外れ値検出に基づく方法

Akaike’s Information Criterion (AIC) (Kadota et al., Physiol. Genomics, 2003)Sprent’s non-parametric method (Ge et al., Genomics, 2005)

長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

Kadota and Takahashi, AIST Today, 2003組織特異的発現遺伝子検出法

http://www.aist.go.jp/aist_j/aistinfo/aist_today/vol03_06/vol03_06_p28.pdf

Page 16: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

外れ値検出に基づく方法1Akaike’s Information Criterion (AIC)

様々な外れ値の組み合わせモデルからAICが最小の組み合わせ(MAICE)を探索

n

non n

nnnAIC !log2log ××+=∧

σ標準偏差

の数

(外れ値)の数

サンプル数

:ˆ::

:)(

σoutlier-Nonn

Outliern nnn

n

o

on =+

組織特異的発現遺伝子検出法Kadota et al., Physiol. Genomics, 2003上田太一郎, 応用統計学, 1996

Page 17: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

AIC計算例

x = (12, 51, 52, 54, 57, 59, 60, 63, 85, 88)様々な外れ値の組み合わせモデルからAICが最小の組み合わせ(MAICE)を探索

様々な外れ値の組み合わせモデル最大探索範囲Nmax = n/2 = 5 (原著論文)

組織特異的発現遺伝子検出法 Kadota et al., Physiol. Genomics, 2003

n

non n

nnnAIC !log2log ××+=∧

σ

標準偏差

の数

(外れ値)の数

サンプル数

:ˆ::

:)(

σoutlier-Nonn

Outliern nnn

n

o

on =+

デフォルトの結果

Page 18: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

AIC計算例

組織特異的発現遺伝子検出法 Kadota et al., Physiol. Genomics, 2003

n

non n

nnnAIC !log2log ××+=∧

σ

標準偏差

の数

(外れ値)の数

サンプル数

:ˆ::

:)(

σoutlier-Nonn

Outliern nnn

n

o

on =+

Nmaxが変わると得られる結果が異なる

ことには論文中では触れられていない

Nmax = 2

x = (12, 51, 52, 54, 57, 59, 60, 63, 85, 88)様々な外れ値の組み合わせモデルからAICが最小の組み合わせ(MAICE)を探索

様々な外れ値の組み合わせモデル最大探索範囲Nmax = n/2 = 5 (原著論文)

Page 19: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

外れ値検出に基づく方法2

Sprent’s non-parametric method遺伝子発現ベクトルx = (x1, x2, …, xn)に対して、

xi < median(x) - k×MAD(x) andxi > median(x) + k×MAD(x)

を満たすxiを外れ値とする

k = 5 (原著論文)

組織特異的発現遺伝子検出法 Ge et al., Genomics, 2005

kが変わると得られる結果が異なることに

は論文中では触れられていない

デフォルトの結果

Page 20: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

どっちが正しい?!

AIC Sprent’s method

デフォルトの結果

Page 21: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

実際のマイクロアレイデータに対していくら適用しようとも…

AICKadota et al., Physiol. Genomics, 2003

Sprent’s non-parametric methodGe et al., Genomics, 2005 (GSE2361)

1,ix

12,x11,x

1,nx

2,ix

22,x21,x

2,nx

3,ix

32,x31,x

3,nx

4,ix

42,x41,x

4,nx

1,ix

12,x11,x

1,nx

2,ix

22,x21,x

2,nx

3,ix

32,x31,x

3,nx

4,ix

42,x41,x

4,nx

36組織48組織

14,6

10 c

lone

s

< 22

,283

pro

bese

ts

Page 22: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

答えは分かりません (たぶん) !

T1組織特異的

低発現だね!

Page 23: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

ユーザー側の希望1

パラメータの変更(Nmax or k)に対して頑健AIC Sprent’s method AIC

Sprent’s method

Nmax

k

Kadota et al., Gene Regulation and Systems Biol., 1: 9-15, 2007

Page 24: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

実データ(36組織×22283 clones)比較結果AIC

Sprent’s method

Nmaxが変わって

も結果「外れ値の割合(縦軸)」があまり変わらない

デフォルト

kが変わると得ら

れる結果もどんどん変わってしまう

AIC

Sprent’s method

Kadota et al., Gene Regulation and Systems Biol., 1: 9-15, 2007

Page 25: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

ユーザー側の希望2実験データの(追加や)削除に対して頑健

AIC Sprent’s method

FNFPTNTPTNTPaccuracy

++++

=

))()()(( FNTNFPTPFPTNFNTPFNFPTNTPMCC

++++×−×

=

1.それぞれのデ

フォルトの結果を真実と仮定

Accuracy = 100%MCC = 100%

Accuracy = 92.2%MCC = 77.5%

2.一サンプルづつ

除いた場合の結果と比較

Kadota et al., Gene Regulation and Systems Biol., 1: 9-15, 2007

Page 26: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

実験データの(追加や)削除に対して頑健

実データ(36組織×22283 clones)比較結果

AIC Sprent’s method

デフォルト

結論:AICのほうがベター

ユーザー側の希望2Kadota et al., Gene Regulation and Systems Biol., 1: 9-15, 2007

Page 27: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

外れ値検出に基づく方法

Akaike’s Information Criterion (AIC) (Kadota et al., Physiol. Genomics, 2003)Sprent’s non-parametric method (Ge et al., Genomics, 2005)

長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能短所:選ばれたサブセット内のランキングが難しい

Kadota and Takahashi, AIST Today, 2003組織特異的発現遺伝子検出法

で、この4つう

ちどれが一番なんだね?

http://www.aist.go.jp/aist_j/aistinfo/aist_today/vol03_06/vol03_06_p28.pdf

Page 28: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

組織特異的発現遺伝子検出法(まとめ)

ロク

http://www.aist.go.jp/aist_j/aistinfo/aist_today/vol03_06/vol03_06_p28.pdf

Page 29: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

本日のお題

「マイクロアレイ解析手法あれこれ」

組織特異的発現遺伝子検出法

二群間で発現の異なる遺伝子検出法

Page 30: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

倍率変化(Fold change; FC)に基づく方法2-fold, 3-foldThe limit fold change model (Mutch et al., BMC Bioinformatics, 2002)Rank product (Breitling et al., FEBS Lett., 2004)…

t-statisticsに基づく方法Student’s (or Welch) t-testSAM (Tusher et al., PNAS, 2001)Samroc (Broberg, P., Genome Biol., 2003)Empirical bayes (Smyth, GK., Stat. Appl. Genet. Mol. Biol., 2004)…

その他Rank difference analysis of microarrays (RDAM; Martin et al., BMC Bioinformatics, 2004)Correspondence analysis (CA; Yano et al., Nucleic Acids Res., 2006)…

Page 31: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

倍率変化(Fold change; FC)に基づく方法の問題x-foldのxの根拠が希薄

発現量の低い遺伝子群(S/N比が低い)が検出される傾向Relative error increases at lower intensities (Quackenbush J., Nat. Genet., 2002)A greater inherent error in their measured levels (Mutch et al., BMC Bioinformatics, 2002)

x = 4x = 2B群A群

3,27

4 pr

obes

ets

Page 32: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

「倍率変化(Fold change; FC)に基づく方法の問題」に対する対策

発現強度依存の偏りを補正The limit fold change model (Mutch et al., BMC Bioinformatics, 2002)Intensity-dependent z-score (Quackenbush J., Nat. Genet., 2002)…

Page 33: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

「(classical) t-statisticsに基づく方法」の問題発現量の低い遺伝子群(S/N比が低い)が検出される傾向

max(data) = 10949

log2(data)

A群 B群rank(| t |)

B群A群

3,27

5 pr

obes

ets

Page 34: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法改良版t-statistic

Significance Analysis of Microarrays (SAM)分母に定数項(fugde factor) s0を付加

Tusher et al., PNAS, 2001

0ssBAd

+−

= s0 = 0 → Student’s t tests

BAt −=

s s

| t |

| d |

Page 35: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

SAMの効果「発現量の低い遺伝子群(S/N比が低い)が検出される傾向」が緩和

max(data) = 10949

log2(data)

A群 B群rank(| d |)

あやしげ?!な候補の順位を下げてくれる

Tusher et al., PNAS, 2001

B群A群

3,27

5 pr

obes

ets

Page 36: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

SAMの効果「発現量の低い遺伝子群(S/N比が低い)が検出される傾向」が緩和

副次的な効果:

「分母が0 → | t | = ∞となって計算不能だった遺伝子」

に対しても適切?!な統計量を与えることが可能に

0ssBAd

+−

=

B群A群

3,27

5 pr

obes

ets

Tusher et al., PNAS, 2001

Page 37: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

倍率変化(Fold change; FC)に基づく方法2-fold, 3-foldThe limit fold change model (Mutch et al., BMC Bioinformatics, 2002)Rank product (Breitling et al., FEBS Lett., 2004)…

t-statisticsに基づく方法Student’s (or Welch) t-testSAM (Tusher et al., PNAS, 2001)Samroc (Broberg, P., Genome Biol., 2003)Empirical bayes (Smyth, GK., Stat. Appl. Genet. Mol. Biol., 2004)…

その他Rank difference analysis of microarrays (RDAM; Martin et al., BMC Bioinformatics, 2004)Correspondence analysis (CA; Yano et al., Nucleic Acids Res., 2006)…

Page 38: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

倍率変化(Fold change; FC)に基づく方法Rank products

入力データ

総当りの発現比を計算

列ごとにRankを計算した後、

各行に対して相乗平均値(RPs)を計算

Breitling et al., FEBS Lett., 2004

nA = 3 nB = 3

(nA × nB) = 9通り

Page 39: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

倍率変化(Fold change; FC)に基づく方法Rank products (RP)

Breitling et al., FEBS Lett., 2004

t-testSAM

「Rank productsはSAMの結果とよく似ていた」と原著論文には書いてあったが…

Page 40: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

上位100遺伝子のオーバーラップ

Kadota et al., in preparation

60%以上重なっているので確かに似た結果を返す

Page 41: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

上位100遺伝子のオーバーラップ

Kadota et al., in preparation

用いるデータセットによってはかなり違った結果を返す

Page 42: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

上位100個のoverlap9 datasetsの平均

Jeffery et al., BMC Bioinformatics, 2006

Fold change系t-statistic系

Jefferyらの結論と同じ

Page 43: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法比較のための評価基準

分類精度の高さSVMK-NNNaïve Bayesetc…

実験データの(追加や)削除に対して頑健かどうか

K-Nearest Neighbor法

Jeffery et al., BMC Bioinformatics, 2006Breitling et al., FEBS Lett., 2004

Page 44: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

二群間で発現の異なる遺伝子検出法

比較のための評価基準1分類精度の高さ

10 samples

Rank products Area under a ROC curve (AUC)Empirical bayes

20 samples 30 samples

Jeffery et al., BMC Bioinformatics, 2006

1. SAM2. ANOVA3. Empirical bayes4. Template matching5. maxT6. BGA7. AUC8. Welch t statistic9. Fold change10. Rank products

Page 45: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

比較のための評価基準2-1実験データの(追加や)削除に対して頑健かどうか

Complete setでのランキング上位x個の順位のmedian がsubsetでどれだけ保持されているか

Breitling et al., FEBS Lett., 2004

x = 10 median = 5.5 (complete set)median = 7.5 (subset)

Complete set Subset (3 vs. 3)

Subsetで低い値をもつ よい方法

二群間で発現の異なる遺伝子検出法

Page 46: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

比較のための評価基準2-1実験データの(追加や)削除に対して頑健かどうか

Complete setでのランキング上位50個の順位のmedian がsubsetでどれだけ保持されているか (medianの最小値 = 25.5)

Kadota et al., in preparation二群間で発現の異なる遺伝子検出法

既存の手法の比較ではRank productsが圧倒的によい

Page 47: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

比較のための評価基準2-2実験データの(追加や)削除に対して頑健かどうか

Complete setでのランキング上位x個を、subsetでの上位x個中にど

れだけ保持できているか

6/10*100 = 60%

Complete set Subset (3 vs. 3)

二群間で発現の異なる遺伝子検出法Kadota et al., in preparation

Subsetで高い値をもつ よい方法

Page 48: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

比較のための評価基準2-2実験データの(追加や)削除に対して頑健かどうか

Complete setでのランキング上位50個を、subsetでの上位50個中にどれだけ保持できているか

二群間で発現の異なる遺伝子検出法Kadota et al., in preparation

既存の手法の比較ではRank productsが圧倒的によい

Page 49: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

こんな最近の比較結果もありますが…

Vardhanabhuti et al., OMICS, 2006(GCRMA coupled with) Cyber-T or SAM is the best.

Page 50: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

まとめ

分類精度の高さLow levels of noise and large sample size Area under a ROC curve (AUC)High levels of noise and small sample size Rank productsA range of sample sizes Empirical bayes t-statistic

実験データの(追加や)削除に対して頑健かどうかRank product

二群間で発現の異なる遺伝子検出法

10 samples

Rank products Area under a ROC curve (AUC)Empirical bayes

20 samples 30 samples

Jeffery et al., BMC Bioinformatics, 2006Breitling et al., FEBS Lett., 2004Kadota et al., in preparation

Page 51: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

「Rでマイクロアレイデータ解析」ちぇきっ!

Page 52: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

Contents

1. マイクロアレイ

組織特異的発現パターン検出法

二群間比較用の手法

2. cDNA-AFLP(HiCEP)データ解析手法について

Page 53: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

AATTCNNN NNNT GNNN NNNAAT

2. アダプター配列の結合

(cDNA-)AFLP法

GAATTCNNN NNNTTAACTTAAGNNN NNNAATT

1. 二種類の制限酵素によるゲノムDNA(cDNA)切断

EcoRI (rare cutter) MseI (frequent cutter)

TACTCAGGACTCATGAGTCCTGAGTAGCAG

CTCGTAGACTGCGTACCCATCTGACGCATGGTTAA

GAGCATCTGACGCATGGTTAAGGNN NNCAATGAGTCCTGAGTAGCAG

3. 予備PCR増幅(解析するDNA断片のサブグループ化;4×4=16分割)

CTCGTAGACTGCGTACCAATTCCNN NNGTTACTCAGGACTCATCGTC

A or G or T

GACTGCGTACCAATTCC

CAATGAGTCCTGAGTAG

プライマー(EcoRI + C)

プライマー(MseI + C)

53

35

非鋳型(sense)鎖鋳型(antisense)鎖

AFLP: Vos et al., Nucleic Acids Res., 1995

cDNA-AFLP: Bachem et al., Plant J., 1996

Page 54: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

AGCAATGAGTCCTGAGTAG4. 選択的PCR増幅

GAGCATCTGACGCATGGTTAAGGTG AGCAATGAGTCCTGAGTAGCAG

CTCGTAGACTGCGTACCAATTCCAC TCGTTACTCAGGACTCATCGTC

(cDNA-)AFLP法

GACTGCGTACCAATTCCACAFLPプライマー

AFLPプライマー

蛍光

蛍光5’

5’3’

3’

5. 電気泳動

GACTGCGTACCAATTCCAC TCGTTACTCAGGACTCATCCTGACGCATGGTTAAGGTG AGCAATGAGTCCTGAGTAG

senseantisense

選択塩基

選択塩基

-CAC TCG--GTG AGC-

-CAC TCG--GTG AGC-

-CAC TCG--GTG AGC-

AFLP: Vos et al., Nucleic Acids Res., 1995

cDNA-AFLP: Bachem et al., Plant J., 1996

Page 55: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

電気泳動法に基づく遺伝子発現解析

長所1. 解析対象となるゲノムの塩基配列情報を必要としない

2. 少量のDNA量で解析可能(PCR増幅を行うため)

短所1. 比較する実験数が増えるほど、フラグメント(ピーク)の

アラインメント精度が下がる

2. 切り出したゲル片には、(多くの場合)複数のDNAフラグメントが含まれる

→アノテーションが困難

転写物A 転写物K

Page 56: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

門田法1

再現性の良し悪しのスコア化

補正後のスコアによる評価

補正前

発現変動ピーク配列断片長 (bp)

サンプル間の正規化

補正後

Kadota et al., BMC Bioinformatics, 6: 43, 2005

Page 57: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

門田法2

フラグメント長補正

→アラインメント精度向上

Kadota et al., Algorithms Mol. Biol., 2: 5, 2007

Page 58: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

門田法2(利点)

遺伝子発現行列を作成可能

→既存のマイクロアレイ解析手法も適用可能

serial

Kadota et al., Algorithms Mol. Biol., 2: 5, 2007

Page 59: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

門田法2 (利点)発現変動ピーク上位6個の比較

門田法 従来法(t-test)

マイクロアレイ以外のトランスクリプトーム解析手法の開発もやってます

Kadota et al., Algorithms Mol. Biol., 2: 5, 2007

Page 60: マイクロアレイ解析手法 あれこれ › ~kadota › 20070412_kadota.pdf2007/04/12  · Sprent’s non-parametric method (Ge et al., Genomics, 2005) 長所:目的組織のみで発現の異なる遺伝子群を一意に抽出可能

謝辞

東京大学 大学院農学生命科学研究科清水謙多郎 教授中井雄治 特任准教授葉 佳臻 氏(アグリバイオ人材養成プログラム修了生)

秋田県立大学 生物資源科学部小西智一 准教授

放射線医学総合研究所 先端遺伝子発現研究G安倍真澄 グループリーダー荒木良子 チームリーダー

CBRC高橋勝利 元親分 挿絵担当:門田雅世