データベース活用による 知のめぐりのよい細胞生物学

Post on 06-May-2015

616 Views

Category:

Education

7 Downloads

Preview:

Click to see full reader

DESCRIPTION

講演「データベース活用による知のめぐりのよい細胞生物学」90分のスライド。こののち、以下の講習会90分 http://motdb.dbcls.jp/?AJACS39

TRANSCRIPT

© ライフサイエンス統合データベースセンター/大学共同利用機関法人 情報・システム研究機構

データベース活用による知のめぐりのよい細胞生物学

大学共同利用機関法人 情報・システム研究機構(ROIS)ライフサイエンス統合データベースセンター(DBCLS)

坊農 秀雅Online supplemental material: http://bit.ly/dbcls130515

こんな本にも関わってきました

2

低酸素(hypoxia)

3

代謝経路を制御するシグナル伝達経路

4

From Nat. Med. 11, 1047-1048 (2005)

mammal

C.elegans

orthologs homologs

比較ゲノム

5Nature 464, 670-671 (2010)より

kongetu 今月だと

6

http://genome.cshlp.org/

8Nature 464, 670-671 (2010)より

DBCLS: Database Center for Life Science•ライフサイエンス統合データベースセンター ‒ライフサイエンス分野のデータベース統合化の拠点‒ Since 2007‒@東京大学本郷キャンパス内•が、東大の機関ではありません

9

バイオサイエンスデータベースセンター(NBDC)

•National Bioscience Database Center‒Since 2011•独立行政法人 科学技術振興機構(JST)の傘下

10http://biosciencedbc.jp/nbdc.cgi?lng=ja&gg=org_membersより引用

NBDC web site

11

統合DBとは?

•安心してすぐに利用できるデータを提供‒「ぐるなび」、「食べログ」、「クックパッド」

•公共DBとして外に出す際にデータを綺麗に‒「分別回収→リサイクル」

•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力

ライフサイエンスデータのロジスティクス(流通業)

DBを試薬に例える。昔はほぼ一択だったのがたくさん出てきてどれがいいのか全くわからない状態どころか、何が出回っているのかさえ実態がつかめないという

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

free!14

就職しても登録なしで

sound from http://famicom-music.net/famicompiano/f-contents/l&e-1.html

統合TV (togoTV)•動画によるDBやツールのチュートリアル‒ 各DBやツール名、

•統合データベース講演会AJACSの動画も•YouTubeでも•約680の動画             (アップデート込)

15

で検索

クリエイティブ・コモンズ 表示 2.1 日本

16

統合TV(togoTV)

17

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

19

20

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

First author’sとは?Nature, Science, Cell などに代表されるトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について論文の著者自身の執筆による専門分野の異なる生命科学研究者にむけた日本語によるレビューを、誰でも自由に閲覧・利用できるようウェブ上にていち早く無料で公開するサイト。DBCLS謹製。

22

クリエイティブ・コモンズ 表示 2.1 日本 23

24

ライフサイエンス領域融合レビュー

生命科学において注目される分野・学問領域における最新の研究成果について、第一線の研究者の執筆による日本語の レビューを、だれでも自由に閲覧・利用できるよう、無料で公開します。

25

New!

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

27

高血圧

28

29

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

31

32

33

LifeScience Dictionaryのサイトにリンク

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

DNA DB overview

35

GGRNA

36

GGRNA検索例

37

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

GEO overview(目次)• http://lifesciencedb.jp/geo/

39

RefEx

40

RefEx liver specific genes

41

RefEx:Specific gene(HIF1A)

42

43

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseq vs マイクロアレイ

44

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseqとは?•「次世代シーケンサを利用して、サンプル中の RNA の中身に関する情報を得るために cDNA をシーケンシングする方法」–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳

• Whole transcriptome shutgun sequencing(WTSS) や

• Transcriptome sequencingとも45

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseq データ解析の流れ1

ゲノムに対する多重配列アラインメント

.bam

ゲノムアノテーション

.gtf

予測転写単位ごとの(推定)発現量情報

SRR001356.1 2023DAAXX:5:1:123:563 length=33TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC+SRR001356.1 2023DAAXX:5:1:123:563 length=33-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I@SRR001356.2 2023DAAXX:5:1:123:476 length=33TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG+SRR001356.2 2023DAAXX:5:1:123:476 length=33IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III@SRR001356.3 2023DAAXX:5:1:121:746 length=33GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT+SRR001356.3 2023DAAXX:5:1:121:746 length=33IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

FASTQゲノム .fa

1.tophat (bowtie)

2.cufflinks

3.cummeRbund46

遺伝子アノテーション

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

データ形式の実際(RNAseq)• FASTQ形式

–4行/readが基本単位

–3000万read ->1億行超/file

•ファイルサイズも2Gbyte/file超–FAT32フォーマットでは…

•いわゆる「開く」ことが不可能

→コマンドライン操作

SRR001356.1 2023DAAXX:5:1:123:563 length=33TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC+SRR001356.1 2023DAAXX:5:1:123:563 length=33-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I@SRR001356.2 2023DAAXX:5:1:123:476 length=33TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG+SRR001356.2 2023DAAXX:5:1:123:476 length=33IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III@SRR001356.3 2023DAAXX:5:1:121:746 length=33GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT+SRR001356.3 2023DAAXX:5:1:121:746 length=33IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

47

% less SRR001356.fastq

% tophat -p8 -o tophat_out bowtie2/cel215 SRR001356.fastq

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

RNAseq データ解析の流れ2•最近はgenomeがなくてもする方法も–transcriptome の de novo

assembly•「UniGeneを自分で作る」

–現状、より膨大な計算時間が

• immature• state-of-the-art 48

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

マイクロアレイ解析

遺伝子アノテーション

Genespringoligoprobeに対応する遺伝子ごとの発現量 49

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

データ形式の実際(マイクロアレイ)•タブ区切りテキスト

–数万(=スポットの数)行

• (古い)Excelでも「開ける」–Excel2003の行数制限内

•コマンドライン操作なしで中身が直接見れる

50

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

マイクロアレイ• mature•ある程度(技術として)枯れてきた

•本もそれなりに出ている

51

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

データ解析に必要なものマイクロアレイ RNAseq

解析ソフト遺伝子

アノテーションゲノム

アノテーションゲノム配列

コマンドライン操作

計算機パワー

+++ +++

+++ +++

- ++

- ++

+ +++

+ +++52

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

結論•手堅く出したいのなら マイクロアレイ

•出すのを試したいのならRNAseq

53

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

公共データベースのデータで まずは練習を…

SRA(DRA) GEO ArrayExpress

GenomeMetagenome

RNAseqChIPseq

microarray(GeneChip, Oligoarray)

• SRAxxxxx, SRPxxxxx,SRXxxxxx• ERAxxxxx, ERPxxxxx,ERXxxxxx• DRAxxxxx, DRPxxxxx,DRXxxxxx

• GSExxxxx• E-xxx

command(control)+ F で検索 54

© 2013 坊農秀雅 Licensed under CC 表示 2.1 日本

探し方例: 論文から

55

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

57

http://sra.dbcls.jp/

http://g86.dbcls.jp/togopic© 2011 DBCLS Licensed under CC 表示 2.1 日本

SRAs(Survey of Read Archives)DBCLS SRA

SRAの統計値

58

© 2011 DBCLS Licensed under CC 表示 2.1 日本

SRAの統計値2

59

© 2011 DBCLS Licensed under CC 表示 2.1 日本

Search NGS data by disease

60

Search NGS data by publication

61

PUBLISHED OR NOT公開されたデータを元にした論文はあるのか

62

19%

paper publishednot published

NUMBER OF SUBMITTED STUDY

「論文を公開してからデータを公開する」とは限らない

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

DDBJ

64

DOR

65

66

今日紹介する内容•統合TV•カタログ&コンテンツ‒IntegbioDBカタログ‒新着論文レビュー‒領域融合レビュー•検索‒生命科学DB横断検索‒Allie:略語検索エンジン‒inMeXes -> LSD

‒DNA DB overview•GGRNA (RefSeq search)‒GEO overview•RefEx‒DBCLS SRA•アーカイブ‒DDBJ, DOR, DRA‒生命科学DBアーカイブ

http://bit.ly/dbcls130515

68

69

70

統合DB=ライフサイエンスデータの「上水処理場」+「下水処理場」

•安心してすぐに利用できるデータを提供‒「ミネラルウォーターを買わなくても飲用できるように」•公共DBとして外に出す際にデータを綺麗に‒「油を流しに捨てないで!」

ライフサイエンスの「ライフライン」http://rise-eco.jp/recycle.html

•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力

72

LSQA http://qa.lifesciencedb.jp/

73

★http://bit.ly/dbcls130515bono@dbcls.jp / bonohu

からスカイツリー方向を臨む

top related