有用データベースとwebサーバー - hgcryamasi/others/20080425_mgs_lecture/...2008/04/25...
TRANSCRIPT
本日の講義に当たって
• 質問がありましたら、いつでも途中で止めてください。
• メディカルゲノムの学生の方へ–講義の最後にアンケートを提出してください。 → 出席とみなします。
introduction
世界中の有用サーバーを使わないなんてもったいない!!
スタート:cDNA配列を得た
>cDNA_testCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGC
クローニング
シークエンス
実験データから
NCBIでBLASTをかける• NCBI(http://www.ncbi.nlm.nih.gov/)
BLASTsearch
BLASTresult
各データベースへのリンク*UniGene
ESTを含めたcDNAを機械的にクラスタリングした物
*GEO
マイクロアレイによる発現データ
*Gene
Entrez Geneによる遺伝子のアノテーション
*Structure
立体構造
*Map viewer
ゲノム上での位置
Entrez Gene
Entrez Gene 詳細1
EntrezGene:GO
遺伝子の機能を大まかに見積もることができる
遺伝子機能のデジタルな分類が可能
GeneOntology(GO)とはhttp://www.geneontology.org/
生物学用語の階層構造を表記
遺伝子のアノテーションとして使われる
GeneOntologyの例
似ている配列が発見できない・・・
• 1.その前に– その配列は、ゴミではありませんか?
• AAAAAAAA・・・・・– 大腸菌の一部ではないですか?
• 大腸菌・ベクターをクローニングしてしまった・・・。
– 他の生物種は試してみましたか?• (トマトではないですか?)
• 2.ゲノムに当ててみましょう。
GenomeBrowser
• NCBI– http://www.ncbi.nlm.nih.gov/Genomes/
• Ensembl– http://www.ensembl.org/index.html
• UCSC Genome browser– http://genome.ucsc.edu/
UCSC Genome browserhttp://genome.ucsc.edu/
BLAT:ゲノムへのマッピング
Browser
detail
Genome browserの内側:download
ゲノム配列
refGene.txt
26250行
ゲノムにマッピングの結果・・・
• 1.ゲノムにマッピングできた。– 報告されているESTはありますか?– その領域の保存はどうですか?
• 2.ゲノムにマッピングできない– 意味のある配列だと思いますか?
アミノ酸に翻訳して考えてみましょう
InterProScanによる機能推定http://www.ebi.ac.uk/Tools/InterProScan/タンパク質の機能モチーフ・ドメイン等の統合検索システム
InterProScan結果
InterProScan詳細
タンパク質の局在予測(PSORT)
http://psort.ims.u-tokyo.ac.jp/
WoLFPSORT
Paul Horton先生
WoLF PSORT結果
特徴の似ているタンパク質の局在を元に多数決を取る
さて・・・
• 目的のcDNAの同定・あるいは類似配列がわかった。• CDSのアノテーションはできた。• ゲノム上のどこにあるか分かった
それで満足ですか?
ゲノムを使わないないなんてもったいない!!
転写制御(プロモータ)を調べてみよう
genome
mRNA(full) AAAA
転写開始領域の解析には5’端が保証された配列が不可欠
TTTTTTTTGenbankTTTT
Refseq cDNA TTTT
転写開始点はどこ?
5’端配列
プロモータ同定に必要な配列転写
TTTT完全長cDNA5’端が保証
転写開始点データベースDBTSS
DBTSSは多量の5’端配列をゲノムにマップしたデータベース
• 5’端の保証された多量のcDNA配列– Oligo-capping法(東大医科研、かずさDNA研)– CAP-Trapper法(理研)
ゲノム
5’端配列
転写開始点 転写開始点
DBTSS:DataBaseofTranscritptionStartSites
!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2 %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2
3#456 78869#"5 :%; 76;<87 666=>7 ;>>? @ @ @ @ @ @
3#457 7887.+45 :%66 <8877A 6>=><A ?==B @ &&6 ==<>7 6<B8B 7;>? @
3#45= 788=.+C5 :%6= <8877A 6?8?B< 667=< ?<;8 &&7 A>878? 6?A<<B ;A7< B>;A
3#45< 788<-!3 :%6B <8877A 7;;;?< 6AA=B 67;>8 &&= A>878? 7?8;6< 6666B 68?==
3#45A 788A9#" :%6; 6;>87?A 6=A?888 6?;A= 6A7B7 &&A A>878? =B<<>; 6<;<B 6<6B7
:0&+$ &!0*#
DBTSSデータ数
DBTSS登録遺伝子数
ヒト・マウス遺伝子の9割近い遺伝子について転写開始点情報がある
Ver. 5では
ヒト 19753 / 22682(87.1%)
マウス 14746 / 17213(85.7%)
Ver. 6 (2007 Sep)では、SOLEXAのデータを導入
DBTSS検索と結果
プロモータ配列の入手
比較ゲノム例
比較ゲノムによるプロモータ解析が可能
human
mouse
アライメントTSS付近詳細
局所アライメント
転写開始点の多様性
一つの遺伝子の転写開始点は一つとは限らない
そろっている 揺らぎがある
選択的
甲状腺
その他
代表転写開始点の決定
Case 1
Case 2
ignored
ignored
ORF5’UTR
TSS with max number ofclones
Median locus ofTSS
代表転写開始点をもとにしたプロモータ配列はダウンロード可能
fixedTSSsの定義
TSS>=50%,#clones>=10 ↓fixedTSS
425117TSSs(15262遺伝子)↓
#clones>=10408341TSSs(10578遺伝子)
921fixedTSS(921遺伝子)
DBTSS ver. 5を使用
Sequencelogo
Weblogohttp://weblogo.berkeley.edu/
Weblogoのホームページより引用
SEQLOGOhttp://www.bioinf.ebc.ee/EP/EP/
Sequencelogo
Ribosomal proteinのmRNATSS付近-10~+10 45種
SEQLOGO入力
配列
マトリックスも可
SEQLOGO結果
Ribosome protein遺伝子(45種)
それ以外の遺伝子(880種)
Motif検索の必要性• 同じように発現する遺伝子は、同じ転写因子によって制御されている?
遺伝子領域A
遺伝子領域B
遺伝子領域C
遺伝子領域D
プロモータ
モチーフ
どうやって、モチーフ、プロモータを求めるか
既知Motifの探索
• TRANSFAC– Publicは無償だが、有償の方がデータ多い– 重複がある。– DBTSSにLinkがある– http://www.biobase.de/
• JASPAR– 無償– 重複なし– http://jaspar.genereg.net
JASPAR:Toppage
JASPAR:入力画面
JASPAR:結果
未知Motifの探索の限界
確率的手法
・MEME、Gibbs、CONSENSUS….
! " # ! $ ! " ! #
" % & % % % % & % %
# % % & % % % % % &
! & % % & % & % & %
$ % % % % & % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % & %
# % % & % % % % % &
! " # ! $ ! " ! #
" % & % % % % & % %
# % % & % % % % % &
! & % % & % & % & %
$ % % % % & % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % & %
# % % & % % % % % &
! " # ! $ ! " ! #
" % & % % % % & % %
# % % ' % % % % % &
! & % % ( % & % & %
$ % % % % ) % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % ' %
# % % & % % % % % (
配列が3つだったら・・・・→ 3次元配列がnだったら ・・・・→ n次元!!!
既存の確率的手法の問題点• 得られたモチーフが最適解とは限らない• パラメータ調整の必要性• プログラム間での結果比較が難しい
Motif 1 sites sorted by position p-value--------------------------------------------------------------------------------Sequence name Start P-value Site ------------- ----- --------- ---------------SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTTSEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTCSEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAASEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGCSEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGGSEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGGSEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCGSEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGASEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA --------------------------------------------------------------------------------
MEME
MOTIF A
1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 10310-1 4 ttc TCAATCGTAG agtatgctta 13
Gibbs
モチーフ発見ツール Melina2
2.パラメータ、プログラムを設定
3.submit
1.配列をFASTAフォーマットで入力
Melina2結果画面
3.既知の類似モチーフ検索
2.sequence logo
1.モチーフを選択
Melina2結果画面
3.既知の類似モチーフ検索
2.sequence logo
1.モチーフを選択
4.プロモータ上の探索
miRNAdatabase:miRBase
http://microrna.sanger.ac.uk/
miRBase::Targets入力
miRBase::Targets結果
miRBase::Sequences
miRBase::Sequences 詳細1
pre-matureな配列
miRBase::Sequences詳細2
matureな配列
参考文献
Database issue
Web server issue
少しだけコンピュータの宣伝
• 便利なツールがあるので、できるだけそれを利用
• 大量に処理したいときには向いていないこともある・・・
ほんの少しのコンピュータの知識でも、かなりのことができます。
1.UNIX
2.R (http://www.r-project.org/)
3.Perl, ruby, python, C++, C・・・
例えば
問 refGene.txtを利用して、染色体ごとの遺伝子数を求めよ。
cut -f 3 refGene.txt | sort |uniq -c
Mac OSXであればすぐにできます。1.アプリケーション
ー ユーティリティ
ー ターミナルを立ち上げる
2.refGene.txtをデスクトップに置く
3. cd ~/Desktop
4. cut -f 3 refGene.txt | sort |uniq -c
もったいないものだな。研究に計算機を使わないなんて!!
HGCスーパーコンピュータwebページhttps://supcom.hgc.jp/japanese/
申請書を
ダウンロード
HGCスーパーコンピュータ
最後に
• 本日のスライドは– http://www.hgc.jp/~ryamasi/othersに置いておきます。
• 何かご質問等ありましたらお気軽に[email protected]までメール下さい。