遺伝子のアノテーション付加

27
遺伝子のアノテーション付加 東京理科大学 薬学研究科 薬科学専攻 露崎弘毅

Upload: antiplastics

Post on 02-Jul-2015

2.700 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: 遺伝子のアノテーション付加

遺伝子のアノテーション付加

東京理科大学 薬学研究科 薬科学専攻

露崎弘毅

Page 2: 遺伝子のアノテーション付加

遺伝子アノテーションとは

3. MeSHパッケージの紹介 / 2

RNA-Seq ChIP-Seq DNA Microarray SNP-array CAGE SAGE …

どんな機能に関わっているか

どこのパスウェイか

どんな転写因子 結合サイトをもつか

遺伝子リスト (数百遺伝子?)

アノテーション = 注釈をつける

HNRNPR ZNF436 TCEA3 ASAP3 E2F2 ID3 GALE HMGCL FUCA1 CNR2 …

ゲノムワイドな実験(数万遺伝子)

こいつら何者?

Page 3: 遺伝子のアノテーション付加

どんな遺伝子アノテーションがあるか

アノテーションの作業はこれら情報を辿っていかないといけないから地味に大変

アノテーションの種類(知識)

Entrez Gene ID : NCBIが定義した遺伝子のID Ensembl ID : ゲノムデータベースID EC number : 酵素ID OMIM :疾患のID PubMed : 文献のID GO ID : Gene Ontology ID KEGG ID : パスウェイデータベースID PDB ID : タンパク質データベースID …

Page 4: 遺伝子のアノテーション付加

BioConductorが扱う生物種

ここにある生物種は、何らかのアノテーション情報をRで利用する事ができる

ハマダラカ, シロイヌナズナ, 枯草菌, ウシ, 線虫, イヌ, ユウレイボヤ, ゼブラフィッシュ, キイロショウジョウバエ, カビの一種(和訳なし), 大腸菌, ニワトリ, 大豆, ヒト, 大麦, キラー酵母, イネいもち病菌, タルウマゴヤシ, マウス, アカパンカビ, ニジマス, イネ,チンパンジー, マラリヤ原虫, 緑膿菌, ラット, 出芽酵母, サトウキビ, 分裂酵母, 黄色ブドウ球菌, イノシシ,小麦, ブドウ, アフリカツメガエル, アフリカツメガエルの別種(和訳なし), トウモロコシ

http://bioconductor.wustl.edu/Organism.html

36生物種

Page 5: 遺伝子のアノテーション付加

今日のデモ

ラットのマイクロアレイのアノテーション

Affymetrix probe ID Entrez Gene ID

1367463_at 1367462_at 1367707_at 1367708_a_at 1367854_at …

114766 24791 50671 50671 24159 …

Entrez Gene Name

Prohibitin 2 Secreted protein, acidic, cysteine-rich (osteonectin) Fatty acid synthase Fatty acid synthase ATP citrate lyase …

Entrez Gene Symbol

Phb2 Sparc Fasn Fasn Acly …

Ensembl Gene ID

ENSRNOG00000012999 ENSRNOG00000021158 ENSRNOG00000012840 ENSRNOG00000012840 ENSRNOG00000018087 …

Page 6: 遺伝子のアノテーション付加

Gene Symbol , Gene Name, Entrez Gene ID, Ensembl Gene ID

# パッケージロード library(“rat2302.db”) # Q-valueでFDR < 0.2のものを 発現変動遺伝子とする Q <- read.table("Q.txt") probe <- rownames(Q)[which(Q < 0.2)] # probe ID → Gene Symbol gsymbol <- mget(probe,env=rat2302SYMBOL)

Page 7: 遺伝子のアノテーション付加

Gene Symbol , Gene Name, Entrez Gene ID, Ensembl Gene ID

# probe ID → Gene Name gname <- mget(probe,env=rat2302GENENAME) # probe ID → Entrez Gene ID entid <- mget(probe,env=rat2302ENTREZID) # probe ID → ENSEMBL Gene ID ensid <- mget(probe,env=rat2302ENSEMBL) # データ保存 result <- cbind(probe, gsymbol, gname, entid, ensid) write.table(result, "report.txt", row.names=F, quote=F)

Page 8: 遺伝子のアノテーション付加

probe gsymbol gname entid ensid 1367463_at Phb2 prohibitin 2 114766 ENSRNOG00000012999

1367507_at Nudt22 nudix (nucleoside diphosphate linked moiety X)-type motif 22

293703 ENSRNOG00000021158

1367562_at Sparc secreted protein, acidic, cysteine-rich (osteonectin)

24791 ENSRNOG00000012840

1367563_at Sparc secreted protein, acidic, cysteine-rich (osteonectin)

24791 ENSRNOG00000012840

1367574_at Vim vimentin 81818 ENSRNOG00000018087 1367707_at Fasn fatty acid synthase 50671 NA 1367708_a_at Fasn fatty acid synthase 50671 NA

1367720_at Alad aminolevulinate, delta-, dehydratase

25374 NA

report.txt

Page 9: 遺伝子のアノテーション付加

REACTOME

http://www.reactome.org/ReactomeGWT/entrypoint.html

メジャーな生物種のパスウェイデータベース

http://biocyc.org/

マイナーな生物種(バクテリア等)はBioCycが扱っていたりする

Page 10: 遺伝子のアノテーション付加

REACTOME

ここにGene IDをコピペ

Page 11: 遺伝子のアノテーション付加

REACTOME

全体のうち、エンリッチ(*)された部位が色が付く

該当部位を見れる

Page 12: 遺伝子のアノテーション付加

補足:エンリッチメント解析

Fisherのp値 (偶然とれてきたとしたらどれくらいまれか)

ある遺伝子機能(4)

赤以外の遺伝子機能(16)

計20

偶然だとしたら100回に3回

程度しか起こりえないほど、有意に赤球がとれてきた!

赤球:3 黒球:2 計5

全遺伝子

注目している遺伝子リスト (例:発現変動遺伝子)

3. MeSHパッケージの紹介 / 12

Page 13: 遺伝子のアノテーション付加

REACTOME

Page 14: 遺伝子のアノテーション付加

Gene Ontology

# ライブラリロード library(“GO.db”) library(“rat2302.db”) library(“Gostats”) # パラメーター設定 paraBP <- new(“GOHyperGParams”, geneIds=sig.geneid[,2], universeGeneIds=geneid[,2],annotation=“rat2302”, ontology=”BP”, pvalueCutoff=0.05, conditional=F, testDirection=“over”) # エンリッチメント解析 BP <- hyperGTest(paraBP) # 結果集計 summary(BP)

遺伝子の生物学的な機能をまとめている 手っ取り早く何しているのかわかって便利

Page 15: 遺伝子のアノテーション付加

Gene Ontology Biological Process

(320件) Molecular Function (95件) Cellular Component

(35件) triglyceride biosynthetic process neutral lipid biosynthetic process acylglycerol biosynthetic process glycerol ether biosynthetic process cellular response to lead ion response to lead ion triglyceride metabolic process acetyl-CoA metabolic process acylglycerol metabolic process neutral lipid metabolic process response to activity …

bacterial cell surface binding cargo receptor activity protein phosphorylated amino acid binding cell surface binding low-density lipoprotein receptor activity histone demethylase activity actin binding phosphoprotein binding hydro-lyase activity 1-phosphatidylinositol binding …

soluble fraction mitochondrion uropod trailing edge mitochondrial intermembrane space protein transporter complex NADPH oxidase complex endocytic vesicle proteinaceous extracellular matrix endocytic vesicle membrane microvillus …

Page 16: 遺伝子のアノテーション付加

MeSH (Medical Subject Headings)

論文にあてがわれた注釈情報

Page 17: 遺伝子のアノテーション付加

Gendoo

http://gendoo.dbcls.jp/

ここにGene IDをコピペ

ここで生物種を選択

Page 18: 遺伝子のアノテーション付加

Gendoo

MeSHTerm

Gene Symbol

色が濃いほど エンリッチされている

Page 19: 遺伝子のアノテーション付加

応用:MeSHパッケージ

二階堂愛: RIKEN CDB @dritoshi 担当:gendoo.Hs.db( https://github.com/dritoshi/gendoo.Hs.db)

師田郷太: UW-Madison @chikudaisei 担当:meshr(https://github.com/morota/meshr)

露崎弘毅 : Tokyo University of Science @antiplastics 担当:MeSH.db(https://github.com/kokitsuyuzaki/MeSH.db)

仲里猛 : DBCLS @chalkless Gendooを開発(2008)

目的 MeSHをRで使えるようにする

Page 20: 遺伝子のアノテーション付加

応用:MeSHパッケージ

meshr (検定パッケージ)

MeSH.db (MeSHのデータ本体)

gendoo.Hs.db (Gene IDとMeSH IDの対応)

呼び出し

Gene ID Gene ID , MeSH Term, Fisher’s p-value

HNRNPR ZNF436 TCEA3 ID3 …

なんらかの遺伝子に対するID

(gene synbol)

10236 80818 6920 55616 …

10236 Cancer 0.0467 80818 Cell division 0.031 6920 Leukocyte 0.643 55616 Nervous systems 0.943 …

エンリッチメント解析

Page 21: 遺伝子のアノテーション付加

MeSHパッケージ群の使い方 GOによる遺伝子アノテーション

3. MeSHパッケージの紹介 / 21

MeSHによる遺伝子アノテーション

# ライブラリロード library(“GO.db”) library(“rat2302.db”) library(“Gostats”) # パラメーター設定 paraBP <- new(“GOHyperGParams”, geneIds=sig.geneid[,2], universeGeneIds=geneid[,2],annotation=“rat2302”, ontology=”BP”, pvalueCutoff=0.05, conditional=F, testDirection=“over”) # エンリッチメント解析 BP <- hyperGTest(paraBP) # 結果集計 summary(BP)

# ライブラリロード library(“MeSH.db”) library(“gendoo.Rn.db”) library(“meshr”) # パラメーター設定 paraA <- new(“MeSHHyperGparams”, geneIds=sig.geneid[,2], universeGeneIds=geneid[,2],annotation=“GendooMeSHA”, pvalueCutoff=0.05, pAdjust=“none”) # エンリッチメント解析 A <- meshHyperGTest(paraA) # 結果集計 summary(A)

Page 22: 遺伝子のアノテーション付加

まとめ

• 遺伝子アノテーション

= 遺伝子の情報をたぐり寄せる事

• 様々なデータベースが様々な情報をまとめているので、探すのが一苦労

• Rだとアノテーションパッケージで楽できる

Page 23: 遺伝子のアノテーション付加

補足:BioCyc http://biocyc.org/

ここで生物種を選択

Page 24: 遺伝子のアノテーション付加

補足:BioCyc 対応生物種はすごく多い

Page 25: 遺伝子のアノテーション付加

補足:BioCyc

パスウェイを見たい場合ここをクリック

Page 26: 遺伝子のアノテーション付加

補足:BioCyc

ハイライトできる

Page 27: 遺伝子のアノテーション付加

補足:BioCyc

注目したいところだけ色が変わる