遺伝子のアノテーション付加
TRANSCRIPT
遺伝子のアノテーション付加
東京理科大学 薬学研究科 薬科学専攻
露崎弘毅
遺伝子アノテーションとは
3. MeSHパッケージの紹介 / 2
RNA-Seq ChIP-Seq DNA Microarray SNP-array CAGE SAGE …
どんな機能に関わっているか
どこのパスウェイか
どんな転写因子 結合サイトをもつか
遺伝子リスト (数百遺伝子?)
アノテーション = 注釈をつける
HNRNPR ZNF436 TCEA3 ASAP3 E2F2 ID3 GALE HMGCL FUCA1 CNR2 …
ゲノムワイドな実験(数万遺伝子)
こいつら何者?
どんな遺伝子アノテーションがあるか
アノテーションの作業はこれら情報を辿っていかないといけないから地味に大変
アノテーションの種類(知識)
Entrez Gene ID : NCBIが定義した遺伝子のID Ensembl ID : ゲノムデータベースID EC number : 酵素ID OMIM :疾患のID PubMed : 文献のID GO ID : Gene Ontology ID KEGG ID : パスウェイデータベースID PDB ID : タンパク質データベースID …
BioConductorが扱う生物種
ここにある生物種は、何らかのアノテーション情報をRで利用する事ができる
ハマダラカ, シロイヌナズナ, 枯草菌, ウシ, 線虫, イヌ, ユウレイボヤ, ゼブラフィッシュ, キイロショウジョウバエ, カビの一種(和訳なし), 大腸菌, ニワトリ, 大豆, ヒト, 大麦, キラー酵母, イネいもち病菌, タルウマゴヤシ, マウス, アカパンカビ, ニジマス, イネ,チンパンジー, マラリヤ原虫, 緑膿菌, ラット, 出芽酵母, サトウキビ, 分裂酵母, 黄色ブドウ球菌, イノシシ,小麦, ブドウ, アフリカツメガエル, アフリカツメガエルの別種(和訳なし), トウモロコシ
http://bioconductor.wustl.edu/Organism.html
36生物種
今日のデモ
ラットのマイクロアレイのアノテーション
Affymetrix probe ID Entrez Gene ID
1367463_at 1367462_at 1367707_at 1367708_a_at 1367854_at …
114766 24791 50671 50671 24159 …
Entrez Gene Name
Prohibitin 2 Secreted protein, acidic, cysteine-rich (osteonectin) Fatty acid synthase Fatty acid synthase ATP citrate lyase …
Entrez Gene Symbol
Phb2 Sparc Fasn Fasn Acly …
Ensembl Gene ID
ENSRNOG00000012999 ENSRNOG00000021158 ENSRNOG00000012840 ENSRNOG00000012840 ENSRNOG00000018087 …
Gene Symbol , Gene Name, Entrez Gene ID, Ensembl Gene ID
# パッケージロード library(“rat2302.db”) # Q-valueでFDR < 0.2のものを 発現変動遺伝子とする Q <- read.table("Q.txt") probe <- rownames(Q)[which(Q < 0.2)] # probe ID → Gene Symbol gsymbol <- mget(probe,env=rat2302SYMBOL)
Gene Symbol , Gene Name, Entrez Gene ID, Ensembl Gene ID
# probe ID → Gene Name gname <- mget(probe,env=rat2302GENENAME) # probe ID → Entrez Gene ID entid <- mget(probe,env=rat2302ENTREZID) # probe ID → ENSEMBL Gene ID ensid <- mget(probe,env=rat2302ENSEMBL) # データ保存 result <- cbind(probe, gsymbol, gname, entid, ensid) write.table(result, "report.txt", row.names=F, quote=F)
probe gsymbol gname entid ensid 1367463_at Phb2 prohibitin 2 114766 ENSRNOG00000012999
1367507_at Nudt22 nudix (nucleoside diphosphate linked moiety X)-type motif 22
293703 ENSRNOG00000021158
1367562_at Sparc secreted protein, acidic, cysteine-rich (osteonectin)
24791 ENSRNOG00000012840
1367563_at Sparc secreted protein, acidic, cysteine-rich (osteonectin)
24791 ENSRNOG00000012840
1367574_at Vim vimentin 81818 ENSRNOG00000018087 1367707_at Fasn fatty acid synthase 50671 NA 1367708_a_at Fasn fatty acid synthase 50671 NA
1367720_at Alad aminolevulinate, delta-, dehydratase
25374 NA
report.txt
REACTOME
http://www.reactome.org/ReactomeGWT/entrypoint.html
メジャーな生物種のパスウェイデータベース
http://biocyc.org/
マイナーな生物種(バクテリア等)はBioCycが扱っていたりする
REACTOME
ここにGene IDをコピペ
REACTOME
全体のうち、エンリッチ(*)された部位が色が付く
該当部位を見れる
補足:エンリッチメント解析
Fisherのp値 (偶然とれてきたとしたらどれくらいまれか)
ある遺伝子機能(4)
赤以外の遺伝子機能(16)
計20
偶然だとしたら100回に3回
程度しか起こりえないほど、有意に赤球がとれてきた!
赤球:3 黒球:2 計5
全遺伝子
注目している遺伝子リスト (例:発現変動遺伝子)
3. MeSHパッケージの紹介 / 12
REACTOME
Gene Ontology
# ライブラリロード library(“GO.db”) library(“rat2302.db”) library(“Gostats”) # パラメーター設定 paraBP <- new(“GOHyperGParams”, geneIds=sig.geneid[,2], universeGeneIds=geneid[,2],annotation=“rat2302”, ontology=”BP”, pvalueCutoff=0.05, conditional=F, testDirection=“over”) # エンリッチメント解析 BP <- hyperGTest(paraBP) # 結果集計 summary(BP)
遺伝子の生物学的な機能をまとめている 手っ取り早く何しているのかわかって便利
Gene Ontology Biological Process
(320件) Molecular Function (95件) Cellular Component
(35件) triglyceride biosynthetic process neutral lipid biosynthetic process acylglycerol biosynthetic process glycerol ether biosynthetic process cellular response to lead ion response to lead ion triglyceride metabolic process acetyl-CoA metabolic process acylglycerol metabolic process neutral lipid metabolic process response to activity …
bacterial cell surface binding cargo receptor activity protein phosphorylated amino acid binding cell surface binding low-density lipoprotein receptor activity histone demethylase activity actin binding phosphoprotein binding hydro-lyase activity 1-phosphatidylinositol binding …
soluble fraction mitochondrion uropod trailing edge mitochondrial intermembrane space protein transporter complex NADPH oxidase complex endocytic vesicle proteinaceous extracellular matrix endocytic vesicle membrane microvillus …
MeSH (Medical Subject Headings)
論文にあてがわれた注釈情報
Gendoo
http://gendoo.dbcls.jp/
ここにGene IDをコピペ
ここで生物種を選択
Gendoo
MeSHTerm
Gene Symbol
色が濃いほど エンリッチされている
応用:MeSHパッケージ
二階堂愛: RIKEN CDB @dritoshi 担当:gendoo.Hs.db( https://github.com/dritoshi/gendoo.Hs.db)
師田郷太: UW-Madison @chikudaisei 担当:meshr(https://github.com/morota/meshr)
露崎弘毅 : Tokyo University of Science @antiplastics 担当:MeSH.db(https://github.com/kokitsuyuzaki/MeSH.db)
仲里猛 : DBCLS @chalkless Gendooを開発(2008)
目的 MeSHをRで使えるようにする
応用:MeSHパッケージ
meshr (検定パッケージ)
MeSH.db (MeSHのデータ本体)
gendoo.Hs.db (Gene IDとMeSH IDの対応)
呼び出し
Gene ID Gene ID , MeSH Term, Fisher’s p-value
HNRNPR ZNF436 TCEA3 ID3 …
なんらかの遺伝子に対するID
(gene synbol)
10236 80818 6920 55616 …
10236 Cancer 0.0467 80818 Cell division 0.031 6920 Leukocyte 0.643 55616 Nervous systems 0.943 …
エンリッチメント解析
MeSHパッケージ群の使い方 GOによる遺伝子アノテーション
3. MeSHパッケージの紹介 / 21
MeSHによる遺伝子アノテーション
# ライブラリロード library(“GO.db”) library(“rat2302.db”) library(“Gostats”) # パラメーター設定 paraBP <- new(“GOHyperGParams”, geneIds=sig.geneid[,2], universeGeneIds=geneid[,2],annotation=“rat2302”, ontology=”BP”, pvalueCutoff=0.05, conditional=F, testDirection=“over”) # エンリッチメント解析 BP <- hyperGTest(paraBP) # 結果集計 summary(BP)
# ライブラリロード library(“MeSH.db”) library(“gendoo.Rn.db”) library(“meshr”) # パラメーター設定 paraA <- new(“MeSHHyperGparams”, geneIds=sig.geneid[,2], universeGeneIds=geneid[,2],annotation=“GendooMeSHA”, pvalueCutoff=0.05, pAdjust=“none”) # エンリッチメント解析 A <- meshHyperGTest(paraA) # 結果集計 summary(A)
まとめ
• 遺伝子アノテーション
= 遺伝子の情報をたぐり寄せる事
• 様々なデータベースが様々な情報をまとめているので、探すのが一苦労
• Rだとアノテーションパッケージで楽できる
補足:BioCyc 対応生物種はすごく多い
補足:BioCyc
パスウェイを見たい場合ここをクリック
補足:BioCyc
ハイライトできる
補足:BioCyc
注目したいところだけ色が変わる