データベース活用による 知のめぐりのよい細胞生物学

73
© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構 データベース活用による 知のめぐりのよい細胞生物学 大学共同利用機関法人 情報・システム研究機構(ROIS) ライフサイエンス統合データベースセンター(DBCLS) 坊農 秀雅 Online supplemental material: http://bit.ly/dbcls130515

Upload: hidemasa-bono

Post on 06-May-2015

616 views

Category:

Education


7 download

DESCRIPTION

講演「データベース活用による知のめぐりのよい細胞生物学」90分のスライド。こののち、以下の講習会90分 http://motdb.dbcls.jp/?AJACS39

TRANSCRIPT

Page 1: データベース活用による 知のめぐりのよい細胞生物学

© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構

データベース活用による知のめぐりのよい細胞生物学

大学共同利用機関法人 情報・システム研究機構(ROIS)ライフサイエンス統合データベースセンター(DBCLS)

坊農 秀雅Online supplemental material: http://bit.ly/dbcls130515

Page 2: データベース活用による 知のめぐりのよい細胞生物学

こんな本にも関わってきました

2

Page 3: データベース活用による 知のめぐりのよい細胞生物学

低酸素(hypoxia)

3

Page 4: データベース活用による 知のめぐりのよい細胞生物学

代謝経路を制御するシグナル伝達経路

4

From Nat. Med. 11, 1047-1048 (2005)

mammal

C.elegans

orthologs homologs

比較ゲノム

Page 5: データベース活用による 知のめぐりのよい細胞生物学

5Nature 464, 670-671 (2010)より

Page 6: データベース活用による 知のめぐりのよい細胞生物学

kongetu 今月だと

6

http://genome.cshlp.org/

Page 8: データベース活用による 知のめぐりのよい細胞生物学

8Nature 464, 670-671 (2010)より

Page 9: データベース活用による 知のめぐりのよい細胞生物学

DBCLS: Database Center for Life Science•ライフサイエンス統合データベースセンター ‒ライフサイエンス分野のデータベース統合化の拠点‒ Since 2007‒@東京大学本郷キャンパス内•が、東大の機関ではありません

9

Page 10: データベース活用による 知のめぐりのよい細胞生物学

バイオサイエンスデータベースセンター(NBDC)

•National Bioscience Database Center‒Since 2011•独立行政法人 科学技術振興機構(JST)の傘下

10http://biosciencedbc.jp/nbdc.cgi?lng=ja&gg=org_membersより引用

Page 11: データベース活用による 知のめぐりのよい細胞生物学

NBDC web site

11

Page 12: データベース活用による 知のめぐりのよい細胞生物学

統合DBとは?

•安心してすぐに利用できるデータを提供‒「ぐるなび」、「食べログ」、「クックパッド」

•公共DBとして外に出す際にデータを綺麗に‒「分別回収→リサイクル」

•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力

ライフサイエンスデータのロジスティクス(流通業)

DBを試薬に例える。昔はほぼ一択だったのがたくさん出てきてどれがいいのか全くわからない状態どころか、何が出回っているのかさえ実態がつかめないという

Page 13: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 14: データベース活用による 知のめぐりのよい細胞生物学

free!14

就職しても登録なしで

sound from http://famicom-music.net/famicompiano/f-contents/l&e-1.html

Page 15: データベース活用による 知のめぐりのよい細胞生物学

統合TV (togoTV)•動画によるDBやツールのチュートリアル‒ 各DBやツール名、

•統合データベース講演会AJACSの動画も•YouTubeでも•約680の動画             (アップデート込)

15

で検索

クリエイティブ・コモンズ 表示 2.1 日本

Page 16: データベース活用による 知のめぐりのよい細胞生物学

16

Page 17: データベース活用による 知のめぐりのよい細胞生物学

統合TV(togoTV)

17

Page 18: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 19: データベース活用による 知のめぐりのよい細胞生物学

19

Page 20: データベース活用による 知のめぐりのよい細胞生物学

20

Page 21: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 22: データベース活用による 知のめぐりのよい細胞生物学

First author’sとは?Nature, Science, Cell などに代表されるトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について論文の著者自身の執筆による専門分野の異なる生命科学研究者にむけた日本語によるレビューを、誰でも自由に閲覧・利用できるようウェブ上にていち早く無料で公開するサイト。DBCLS謹製。

22

Page 23: データベース活用による 知のめぐりのよい細胞生物学

クリエイティブ・コモンズ 表示 2.1 日本 23

Page 24: データベース活用による 知のめぐりのよい細胞生物学

24

Page 25: データベース活用による 知のめぐりのよい細胞生物学

ライフサイエンス領域融合レビュー

生命科学において注目される分野・学問領域における最新の研究成果について、第一線の研究者の執筆による日本語の レビューを、だれでも自由に閲覧・利用できるよう、無料で公開します。

25

New!

Page 26: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 27: データベース活用による 知のめぐりのよい細胞生物学

27

高血圧

Page 28: データベース活用による 知のめぐりのよい細胞生物学

28

Page 29: データベース活用による 知のめぐりのよい細胞生物学

29

Page 30: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 31: データベース活用による 知のめぐりのよい細胞生物学

31

Page 32: データベース活用による 知のめぐりのよい細胞生物学

32

Page 33: データベース活用による 知のめぐりのよい細胞生物学

33

LifeScience Dictionaryのサイトにリンク

Page 34: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 35: データベース活用による 知のめぐりのよい細胞生物学

DNA DB overview

35

Page 36: データベース活用による 知のめぐりのよい細胞生物学

GGRNA

36

Page 37: データベース活用による 知のめぐりのよい細胞生物学

GGRNA検索例

37

Page 38: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 39: データベース活用による 知のめぐりのよい細胞生物学

GEO overview(目次)• http://lifesciencedb.jp/geo/

39

Page 40: データベース活用による 知のめぐりのよい細胞生物学

RefEx

40

Page 41: データベース活用による 知のめぐりのよい細胞生物学

RefEx liver specific genes

41

Page 42: データベース活用による 知のめぐりのよい細胞生物学

RefEx:Specific gene(HIF1A)

42

Page 43: データベース活用による 知のめぐりのよい細胞生物学

43

Page 44: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseq vs マイクロアレイ

44

Page 45: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseqとは?•「次世代シーケンサを利用して、サンプル中の RNA の中身に関する情報を得るために cDNA をシーケンシングする方法」–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳

• Whole transcriptome shutgun sequencing(WTSS) や

• Transcriptome sequencingとも45

Page 46: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseq データ解析の流れ1

ゲノムに対する多重配列アラインメント

.bam

ゲノムアノテーション

.gtf

予測転写単位ごとの(推定)発現量情報

SRR001356.1 2023DAAXX:5:1:123:563 length=33TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT+SRR001356.3 2023DAAXX:5:1:121:746 length=33IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

FASTQゲノム .fa

1.tophat (bowtie)

2.cufflinks

3.cummeRbund46

遺伝子アノテーション

Page 47: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

データ形式の実際(RNAseq)• FASTQ形式

–4行/readが基本単位

–3000万read ->1億行超/file

•ファイルサイズも2Gbyte/file超–FAT32フォーマットでは…

•いわゆる「開く」ことが不可能

→コマンドライン操作

SRR001356.1 2023DAAXX:5:1:123:563 length=33TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT+SRR001356.3 2023DAAXX:5:1:121:746 length=33IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

47

% less SRR001356.fastq

% tophat -p8 -o tophat_out bowtie2/cel215 SRR001356.fastq

Page 48: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseq データ解析の流れ2•最近はgenomeがなくてもする方法も–transcriptome の de novo

assembly•「UniGeneを自分で作る」

–現状、より膨大な計算時間が

• immature• state-of-the-art 48

Page 49: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

マイクロアレイ解析

遺伝子アノテーション

Genespringoligoprobeに対応する遺伝子ごとの発現量 49

Page 50: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

データ形式の実際(マイクロアレイ)•タブ区切りテキスト

–数万(=スポットの数)行

• (古い)Excelでも「開ける」–Excel2003の行数制限内

•コマンドライン操作なしで中身が直接見れる

50

Page 51: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

マイクロアレイ• mature•ある程度(技術として)枯れてきた

•本もそれなりに出ている

51

Page 52: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

データ解析に必要なものマイクロアレイ RNAseq

解析ソフト遺伝子

アノテーションゲノム

アノテーションゲノム配列

コマンドライン操作

計算機パワー

+++ +++

+++ +++

- ++

- ++

+ +++

+ +++52

Page 53: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

結論•手堅く出したいのなら マイクロアレイ

•出すのを試したいのならRNAseq

53

Page 54: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

公共データベースのデータで まずは練習を…

SRA(DRA) GEO ArrayExpress

GenomeMetagenome

RNAseqChIPseq

microarray(GeneChip, Oligoarray)

• SRAxxxxx, SRPxxxxx,SRXxxxxx• ERAxxxxx, ERPxxxxx,ERXxxxxx• DRAxxxxx, DRPxxxxx,DRXxxxxx

• GSExxxxx• E-xxx

command(control)+ F で検索 54

Page 55: データベース活用による 知のめぐりのよい細胞生物学

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

探し方例: 論文から

55

Page 56: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 57: データベース活用による 知のめぐりのよい細胞生物学

57

http://sra.dbcls.jp/

http://g86.dbcls.jp/togopic© 2011 DBCLS Licensed under CC 表示 2.1 日本

SRAs(Survey of Read Archives)DBCLS SRA

Page 58: データベース活用による 知のめぐりのよい細胞生物学

SRAの統計値

58

© 2011 DBCLS Licensed under CC 表示 2.1 日本

Page 59: データベース活用による 知のめぐりのよい細胞生物学

SRAの統計値2

59

© 2011 DBCLS Licensed under CC 表示 2.1 日本

Page 60: データベース活用による 知のめぐりのよい細胞生物学

Search NGS data by disease

60

Page 61: データベース活用による 知のめぐりのよい細胞生物学

Search NGS data by publication

61

Page 62: データベース活用による 知のめぐりのよい細胞生物学

PUBLISHED OR NOT公開されたデータを元にした論文はあるのか

62

19%

paper publishednot published

NUMBER OF SUBMITTED STUDY

「論文を公開してからデータを公開する」とは限らない

Page 63: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 64: データベース活用による 知のめぐりのよい細胞生物学

DDBJ

64

Page 65: データベース活用による 知のめぐりのよい細胞生物学

DOR

65

Page 66: データベース活用による 知のめぐりのよい細胞生物学

66

Page 67: データベース活用による 知のめぐりのよい細胞生物学

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

Page 68: データベース活用による 知のめぐりのよい細胞生物学

68

Page 69: データベース活用による 知のめぐりのよい細胞生物学

69

Page 70: データベース活用による 知のめぐりのよい細胞生物学

70

Page 71: データベース活用による 知のめぐりのよい細胞生物学

統合DB=ライフサイエンスデータの「上水処理場」+「下水処理場」

•安心してすぐに利用できるデータを提供‒「ミネラルウォーターを買わなくても飲用できるように」•公共DBとして外に出す際にデータを綺麗に‒「油を流しに捨てないで!」

ライフサイエンスの「ライフライン」http://rise-eco.jp/recycle.html

•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力

Page 72: データベース活用による 知のめぐりのよい細胞生物学

72

LSQA http://qa.lifesciencedb.jp/

Page 73: データベース活用による 知のめぐりのよい細胞生物学

73

★http://bit.ly/[email protected] / bonohu

からスカイツリー方向を臨む