バイオインフォマティクス - lab...dnaマイクロアレイによる...
TRANSCRIPT
![Page 1: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/1.jpg)
バイオインフォマティクス(第5回)
慶應義塾大学生命情報学科
榊原康文
![Page 2: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/2.jpg)
クラスタリングとは
◆類似性にしたがって分類 (グループ分け)
クラスター : 内部の要素はお互いに似ているが、外部のものとは異なる集合
クラスタリングにより3つのグループに分類
![Page 3: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/3.jpg)
遺伝子のグループ化
遺伝子(それがコードするタンパク質)の機能の同定
同じ機能を持つ遺伝子をグループ化
① (アミノ酸)配列の相同性に基づくグループ化
◆ タンパク質のファミリー,スーパーファミリー,など
② マイクロアレイデータの発現プロファイルを用いた
遺伝子のクラスタリング
![Page 4: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/4.jpg)
DNAチップとマイクロアレイ解析
![Page 5: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/5.jpg)
DNAマイクロアレイによる遺伝子発現プロファイルの解析法
対象とする遺伝子のmRNAから cDNA を合成(長さを 500塩基程度にそろえる )
ガラス基板上にスポットし乾燥・固定化
正常細胞↓
mRNA↓
cDNA+蛍光色素Cy3(緑)
腫瘍細胞↓
mRNA↓
cDNA+蛍光色素Cy5(赤)
蛍光強度差を検出
![Page 6: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/6.jpg)
遺伝子発現プロファイルのクラスタリング
赤:好気性
緑:嫌気性
発現情報のみを用いて発現パターンの類似
した遺伝子をクラスター(グループ)にし
ていく
◼ 酵母(S. cerevisiae)の既知遺伝子で,似た機能
をもつものは同じクラスターに分類されることを
確認(Eisen et al.,PNAS, 1998.)
◼ クラスタリングによって得られた結果に対し,同
一クラスター内の既知遺伝子の生物学的な注
釈(アノテーション情報)をもとに未知遺伝子の
機能を推定
![Page 7: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/7.jpg)
マイクロアレイデータの発現プロファイル
● ●
● ●
●
● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ●
● ●
条件1
(時間1)
条件2
(時間2)
条件10
(時間10)
●
●
●
遺伝子1
遺伝子2
遺伝子16
● ●
● ● ●
● ●
● ●
●
●
● ● ●
●
● ●
●
●
●
● ● ●
条件1
条件2
条件10
...
遺伝子1
遺伝子2
遺伝子16
...
発現プロファイル
![Page 8: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/8.jpg)
発現プロファイルのクラスタリング
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
●
● ●
●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
条件1
条件2
条件10
...
遺伝子1’
遺伝子2’
遺伝子16’
...
クラスター1
クラスター2
クラスター3
発現プロファイル
![Page 9: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/9.jpg)
クラスタリングを用いたマイクロアレイ解析
◆発現データ (発現プロファイル)
– 行 : 遺伝子 (cDNA, EST, etc)
– 列 : 条件 (サンプル, 時間, etc)
Ngenes
M conditions
からなる N × M 行列
クラスタリング – 行 / 列成分に適用
– 要素 : 各遺伝子の各条件における発現レベル
![Page 10: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/10.jpg)
“Distinct types of diffuse large B-cell lymphoma identified by
gene Expression profiling”, Alizadeh et al., Nature, 2000
び慢性大B細胞リンパ腫(diffuse large B-cell lymphoma)
同一の組織学的所見だが,
臨床経過が著しく異なる患者の存在
階層クラスタリングを用いて
がん化前の分化状態で分類
(臨床経過の予測が可能に)
マイクロアレイ解析の実際例
マイクロアレイ実験からの大規模なデータは,コンピュータによる解析が不可欠!!
![Page 11: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/11.jpg)
クラスタリングの対象:二通り
① 条件にしたがって,遺伝子をクラスタリング
– 基本:遺伝子の分類
– 協調的に機能する / 類似の遺伝子セットの同定
– 典型的な発現パターンの同定 (細胞周期, 胞子形成, etc)
② 遺伝子にしたがって,条件をクラスタリング
– サンプルの分類(組織の状態の分類,疾患の分類)
– 条件の検定 (既知の機能分類に分けられたかどうか, etc)
(仮定 : 類似遺伝子なら発現プロファイルも似ている)
![Page 12: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/12.jpg)
クラスタリングとは
◆類似性にしたがって分類 (グループ分け)
良いクラスタリングの条件 : 内部の要素はお互いに似ているが,外部のものとは異なる集合
良いクラスタリング 悪いクラスタリング
![Page 13: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/13.jpg)
類似性の尺度
入力ベクトル x = (x1, …, xn), y = (y1, …, yn)
◆ユークリッド距離 :
◆マンハッタン距離 :
◆ (ピアソン)相関係数 :
=
−=n
i
iiE yxyxd1
2)(),(
.),(1
=
−=n
i
iiM yxyxd
==
=
−−
−−
=n
i
i
n
i
i
n
i
ii
C
yyxx
yyxx
yxd
1
2
1
2
1
)()(
))((
),(
(値域:−1≦ dC≦ 1)
![Page 14: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/14.jpg)
どの尺度を使えばいいのか?
0
1
2
3
4
1 2 3 4
1.0 2.0 3.0 4.0
A 1.0 1.0 1.5 1.5
B 2.5 2.5 3.5 3.5
C 1.5 1.5 1.0 1.0
B
A
C
dc(A, B) = 1
dc(A, C) = -1
dE(A, B) = 3.54
dE(A, C) = 1
ユークリッド距離
ピアソン相関係数
どの尺度を使うか 何を検出したいのか
![Page 15: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/15.jpg)
どの尺度を使えばいいのか?
◆ Correlation-based : 発現変化の相関をみる
◆ Distance-based : 発現変化の絶対量をみる
どの尺度を使うか 何を検出したいのか
(ピアソン相関係数,など)
(一般に,マンハッタン距離の方がoutlinerに対してロバスト)
条件が経過時間ならば Corrleation-based
条件が様々な環境(熱ショック, 飢餓)ならば Distance-based
![Page 16: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/16.jpg)
クラスタリングアルゴリズム
Unsupervised (教師なし, 事前ラベルなし) :
階層クラスタリング, k-means法,
fuzzy k-means法, SOM(自己組織化マップ)法
クラスタ内の類似度 = 最大, クラスタ外の類似度 = 最小
[目標]
◼ 類似性にしたがって分類 (グループ分け)
![Page 17: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/17.jpg)
階層的クラスタリング
◼ ボトムアップ的手法
• Step1. 各要素分のクラスタを考える
• Step2. 全てのペアの類似度を調べ,類似度が最大のペアを1つにマージする
• Step3. 全てのペアについて類似度を再計算
• Step4. クラスタが1つになるまで,Step2, 3 を繰り返す
現在のクラスタペアをマージしたクラスタを生成
![Page 18: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/18.jpg)
階層的クラスタリング
系統図(dendrogram)階層的クラスタリングの結果:
![Page 19: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/19.jpg)
階層的クラスタリング
◼ クラスタの類似度の計算
• 最短距離法. クラスタ間の最短距離
• 最長距離法. クラスタ間の最長距離
• 群間平均法. クラスタ間の平均距離
),(min),(,
yxdGGdji GyGx
ji
=
),(max),(,
yxdGGdji GyGx
ji
=
),(||||
1),(
,yxd
GGGGd
ji GyGxji
ji
=
![Page 20: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/20.jpg)
階層クラスタリング
◼ クラスタの類似度の計算
A
B
C
•最短距離法
•最長距離法
•群間平均法
A, C をマージ
![Page 21: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/21.jpg)
階層クラスタリング
◼ クラスタの類似度の計算
A
B
C
•最短距離法
•最長距離法
•群間平均法
B, C をマージ
![Page 22: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/22.jpg)
階層クラスタリング
◼ クラスタの類似度の計算
A
B
C
•最短距離法
•最長距離法
•群間平均法
A, C をマージ
![Page 23: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/23.jpg)
階層クラスタリング
◼ クラスタの類似度の計算
• 最短距離法. クラスタ間の最短距離
• 最長距離法. クラスタ間の最長距離
• 群間平均法. クラスタ間の平均距離
伸長したクラスタが得られる
コンパクトなクラスタが得られる
平均的なサイズのクラスタが得られる
![Page 24: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/24.jpg)
階層クラスタリング
Step1.データセット Step2-1.距離計算
Step2-2.マージ Step3.距離再計算
![Page 25: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/25.jpg)
階層クラスタリング例:ユークリッド距離 (群間平均法)
[1] [2]
A: 1 0
B: 2 2
C: 3 3
D: 0 -1
E: -1 1
A: B: C: D:
B: 2.236
C: 3.605 1.414
D: 1.414 3.605 5.000
E: 2.236 3.162 4.472 2.236
入力ベクトル
距離行列
距離マップ
系統樹
A
B
D
C
E
AB C D
E
![Page 26: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/26.jpg)
階層クラスタリング例:ユークリッド距離
最短距離法 最長距離法
AB C D
E
BDA C
E
![Page 27: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/27.jpg)
階層クラスタリング例:ピアソン相関係数 (群間平均法)
[1] [2]
A: 1 0
B: 2 2
C: 3 3
D: 0 -1
E: -1 1
A: B: C: D:
B: 0.292
C: 0.292 0.000
D: 1.000 1.707 1.707
E: 1.707 1.000 1.000 1.707
入力ベクトル
距離行列
距離マップ
系統樹
A
B
D
C
E
B
D
E
C
A
==
==
1
2
1
2
1),(
i
i
i
i
i
ii
C
yx
yx
yxd
![Page 28: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/28.jpg)
階層的クラスタリングの応用例
“Systematic Variation in gene expression patterns in
Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000
◼ がん細胞の種類に関して,遺伝子発現プロファイルを用いたクラスタリングによりグループ分けすることができた
CNS:中枢神経,renal:腎臓,ovarian:卵巣,leukaemia:白血病,
colon:結腸,melanoma:メラノーマ(黒色腫)
![Page 29: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/29.jpg)
k-means法
◼ トップダウン的手法
• Step1. 最終的なクラスタ数 k を設定
• Step2. 任意の k 個のクラスタ中心を設定 (random)
• Step3-1. 各要素を最も近いクラスタ中心に割り当てる(一般に,ユークリッド距離に関して)
• Step4. 重心が変化しなくなるまで,Step3 を繰り返す
各クラスタ中心を,そのクラスタ内の全要素の重心で置き換える
• Step3-2.
![Page 30: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/30.jpg)
1 2
Step1.データセット Step2.クラスタ中心設定
Step3-1.クラスタ割り当て Step3-2.新クラスタ中心算出
k-means法
1 2
2
1
1
1
11
1 1 1
1
1
1
1
12
22
2
2
2
2
2
2
2
2
2
![Page 31: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/31.jpg)
k-means法:ユークリッド距離
k=2 k=3
A
B
D
C
E
A
B
D
C
E
![Page 32: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/32.jpg)
k-means法の問題点
◼ 初期値に強く依存する
クラスタ数 : k
多くのヒューリスティックな解法が提案(ベイズ推論を用いる,など)
クラスタ中心の初期設定
事前に制約を設定する (Constrained k-means, etc)
◼ 得られた結果は k 個のクラスタのみ
各クラスタ間の関係などは不明
![Page 33: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/33.jpg)
クラスタリングによるマイクロアレイ解析は一般的だが …
⚫ 様々なアルゴリズムが存在する
それぞれに長所・短所があるので,目的に合わせて最適なアルゴリズム・パラメータを選択する
⚫ クラスタリング結果の妥当性・有意性評価は困難
ランダムデータからでも相関のあるクラスタは生成される
1. 注意深く,結果を解釈する (生物学的に)
2. 複数のソース(DNA配列情報, etc)と組み合わせて有意性の高い結果を得るようにする
まとめ
![Page 34: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)](https://reader036.vdocuments.pub/reader036/viewer/2022071113/5fe90a0555c6dc10fd24c1a7/html5/thumbnails/34.jpg)
階層クラスタリング演習問題
下記の4つの入力ベクトルを,階層クラスタリングを用いて,クラスタリングした結果の系統樹を書きなさい.この時,距離関数はユークリッド距離と群間平均法を用いなさい.
入力ベクトル
系統樹