データベース活用による 知のめぐりのよい細胞生物学
Post on 06-May-2015
616 Views
Preview:
DESCRIPTION
TRANSCRIPT
© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構
データベース活用による知のめぐりのよい細胞生物学
大学共同利用機関法人 情報・システム研究機構(ROIS)ライフサイエンス統合データベースセンター(DBCLS)
坊農 秀雅Online supplemental material: http://bit.ly/dbcls130515
こんな本にも関わってきました
2
低酸素(hypoxia)
3
代謝経路を制御するシグナル伝達経路
4
From Nat. Med. 11, 1047-1048 (2005)
mammal
C.elegans
orthologs homologs
比較ゲノム
5Nature 464, 670-671 (2010)より
7
http://genome.cshlp.org/content/23/5/749
8Nature 464, 670-671 (2010)より
DBCLS: Database Center for Life Science•ライフサイエンス統合データベースセンター ‒ライフサイエンス分野のデータベース統合化の拠点‒ Since 2007‒@東京大学本郷キャンパス内•が、東大の機関ではありません
9
バイオサイエンスデータベースセンター(NBDC)
•National Bioscience Database Center‒Since 2011•独立行政法人 科学技術振興機構(JST)の傘下
10http://biosciencedbc.jp/nbdc.cgi?lng=ja&gg=org_membersより引用
NBDC web site
11
統合DBとは?
•安心してすぐに利用できるデータを提供‒「ぐるなび」、「食べログ」、「クックパッド」
•公共DBとして外に出す際にデータを綺麗に‒「分別回収→リサイクル」
•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力
ライフサイエンスデータのロジスティクス(流通業)
DBを試薬に例える。昔はほぼ一択だったのがたくさん出てきてどれがいいのか全くわからない状態どころか、何が出回っているのかさえ実態がつかめないという
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
free!14
就職しても登録なしで
sound from http://famicom-music.net/famicompiano/f-contents/l&e-1.html
統合TV (togoTV)•動画によるDBやツールのチュートリアル‒ 各DBやツール名、
•統合データベース講演会AJACSの動画も•YouTubeでも•約680の動画 (アップデート込)
15
で検索
クリエイティブ・コモンズ 表示 2.1 日本
16
統合TV(togoTV)
17
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
19
20
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
First author’sとは?Nature, Science, Cell などに代表されるトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について論文の著者自身の執筆による専門分野の異なる生命科学研究者にむけた日本語によるレビューを、誰でも自由に閲覧・利用できるようウェブ上にていち早く無料で公開するサイト。DBCLS謹製。
22
クリエイティブ・コモンズ 表示 2.1 日本 23
24
ライフサイエンス領域融合レビュー
生命科学において注目される分野・学問領域における最新の研究成果について、第一線の研究者の執筆による日本語の レビューを、だれでも自由に閲覧・利用できるよう、無料で公開します。
25
New!
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
27
高血圧
28
29
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
31
32
33
LifeScience Dictionaryのサイトにリンク
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
DNA DB overview
35
GGRNA
36
GGRNA検索例
37
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
GEO overview(目次)• http://lifesciencedb.jp/geo/
39
RefEx
40
RefEx liver specific genes
41
RefEx:Specific gene(HIF1A)
42
43
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseq vs マイクロアレイ
44
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseqとは?•「次世代シーケンサを利用して、サンプル中の RNA の中身に関する情報を得るために cDNA をシーケンシングする方法」–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳
• Whole transcriptome shutgun sequencing(WTSS) や
• Transcriptome sequencingとも45
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseq データ解析の流れ1
ゲノムに対する多重配列アラインメント
.bam
ゲノムアノテーション
.gtf
予測転写単位ごとの(推定)発現量情報
SRR001356.1 2023DAAXX:5:1:123:563 length=33TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC+SRR001356.1 2023DAAXX:5:1:123:563 length=33-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I@SRR001356.2 2023DAAXX:5:1:123:476 length=33TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG+SRR001356.2 2023DAAXX:5:1:123:476 length=33IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III@SRR001356.3 2023DAAXX:5:1:121:746 length=33GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT+SRR001356.3 2023DAAXX:5:1:121:746 length=33IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQゲノム .fa
1.tophat (bowtie)
2.cufflinks
3.cummeRbund46
遺伝子アノテーション
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
データ形式の実際(RNAseq)• FASTQ形式
–4行/readが基本単位
–3000万read ->1億行超/file
•ファイルサイズも2Gbyte/file超–FAT32フォーマットでは…
•いわゆる「開く」ことが不可能
→コマンドライン操作
SRR001356.1 2023DAAXX:5:1:123:563 length=33TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC+SRR001356.1 2023DAAXX:5:1:123:563 length=33-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I@SRR001356.2 2023DAAXX:5:1:123:476 length=33TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG+SRR001356.2 2023DAAXX:5:1:123:476 length=33IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III@SRR001356.3 2023DAAXX:5:1:121:746 length=33GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT+SRR001356.3 2023DAAXX:5:1:121:746 length=33IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
47
% less SRR001356.fastq
% tophat -p8 -o tophat_out bowtie2/cel215 SRR001356.fastq
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
RNAseq データ解析の流れ2•最近はgenomeがなくてもする方法も–transcriptome の de novo
assembly•「UniGeneを自分で作る」
–現状、より膨大な計算時間が
• immature• state-of-the-art 48
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
マイクロアレイ解析
遺伝子アノテーション
Genespringoligoprobeに対応する遺伝子ごとの発現量 49
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
データ形式の実際(マイクロアレイ)•タブ区切りテキスト
–数万(=スポットの数)行
• (古い)Excelでも「開ける」–Excel2003の行数制限内
•コマンドライン操作なしで中身が直接見れる
50
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
マイクロアレイ• mature•ある程度(技術として)枯れてきた
•本もそれなりに出ている
51
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
データ解析に必要なものマイクロアレイ RNAseq
解析ソフト遺伝子
アノテーションゲノム
アノテーションゲノム配列
コマンドライン操作
計算機パワー
+++ +++
+++ +++
- ++
- ++
+ +++
+ +++52
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
結論•手堅く出したいのなら マイクロアレイ
•出すのを試したいのならRNAseq
53
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
公共データベースのデータで まずは練習を…
SRA(DRA) GEO ArrayExpress
GenomeMetagenome
RNAseqChIPseq
microarray(GeneChip, Oligoarray)
• SRAxxxxx, SRPxxxxx,SRXxxxxx• ERAxxxxx, ERPxxxxx,ERXxxxxx• DRAxxxxx, DRPxxxxx,DRXxxxxx
• GSExxxxx• E-xxx
command(control)+ F で検索 54
© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本
探し方例: 論文から
55
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
57
http://sra.dbcls.jp/
http://g86.dbcls.jp/togopic© 2011 DBCLS Licensed under CC 表示 2.1 日本
SRAs(Survey of Read Archives)DBCLS SRA
SRAの統計値
58
© 2011 DBCLS Licensed under CC 表示 2.1 日本
SRAの統計値2
59
© 2011 DBCLS Licensed under CC 表示 2.1 日本
Search NGS data by disease
60
Search NGS data by publication
61
PUBLISHED OR NOT公開されたデータを元にした論文はあるのか
62
19%
paper publishednot published
NUMBER OF SUBMITTED STUDY
「論文を公開してからデータを公開する」とは限らない
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
DDBJ
64
DOR
65
66
今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD
‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ
http://bit.ly/dbcls130515
68
69
70
統合DB=ライフサイエンスデータの「上水処理場」+「下水処理場」
•安心してすぐに利用できるデータを提供‒「ミネラルウォーターを買わなくても飲用できるように」•公共DBとして外に出す際にデータを綺麗に‒「油を流しに捨てないで!」
ライフサイエンスの「ライフライン」http://rise-eco.jp/recycle.html
•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力
72
LSQA http://qa.lifesciencedb.jp/
73
★http://bit.ly/dbcls130515bono@dbcls.jp / bonohu
からスカイツリー方向を臨む
top related