ajacs advanced: ngsデータベース検索

53
情報・システム研究機構 ライフサイエンス統合データベースセンター 仲里 猛留 Research Organization of Information and Systems (ROIS) Database Center for Life Science (DBCLS), NAKAZATO, Takeru 2015/1/27 @chalkless 1データ解析よろず相談会:AJACS advanced (AJACSa) NGSデータベース検索 遺伝研W412 撮影

Upload: takeru-nakazato

Post on 30-Jul-2015

393 views

Category:

Science


0 download

TRANSCRIPT

Page 1: AJACS advanced: NGSデータベース検索

情報・システム研究機構 ライフサイエンス統合データベースセンター

仲里 猛留

Research Organization of Information and Systems (ROIS)Database Center for Life Science (DBCLS),

NAKAZATO, Takeru

2015/1/27

@chalkless

第1回 データ解析よろず相談会:AJACS advanced (AJACSa)

NGSデータベース検索

遺伝研W412撮影可

Page 2: AJACS advanced: NGSデータベース検索

自己紹介

Page 3: AJACS advanced: NGSデータベース検索

3

仲里 猛留名前なかざと たけるふりがな

所属 情報・システム研究機構 ライフサイエンス統合  データベースセンター

Twitter chalkless

詳しくは所属のページをごらんください...

質問などどうぞ

http://dbcls.rois.ac.jp/~nakazato/

Page 4: AJACS advanced: NGSデータベース検索

4

Wet浸透圧調節・イオン輸送イオントランスポーターの

クローニング

東工大院・生命理工

阪大院・情報科学文献情報を利用した  マイクロアレイデータの  生物学的知見の付与

99.4

02.4

05.10

08.9

15.1

07.4

NEC バイオIT事業推進センター文献検索(もどき)ツールの開発

遺伝子(群)への文献情報を用いた アノテーションづけ

07.9

Dry

ライフサイエンス 統合データベースセンター

遺伝子、疾患のアノテーションキーワードづけ、用語整備

NGSデータの整理

休眠時代

(部署解体 → 異動)毎日、PowerPointで営業資料作成

Dry

Dry

Page 5: AJACS advanced: NGSデータベース検索

こんな実験生物を使っていました...

Page 6: AJACS advanced: NGSデータベース検索

血圧調節 分子生物学っぽく 言ってみる イオン濃度調節

mouse の系高Na食 or 高K食変化が見にくい

ウナギ 淡水と海水を行き来(サケ、マスと同じ)

SWFWbloodurine

Anguilla japonica

淡水/海水で遺伝子発現が どうかわるか。 (イオントランスポーター中心)

wet時代・ ウナギの海水適応機構

Page 7: AJACS advanced: NGSデータベース検索

組織局在

膵臓と後腸に強い発現

wet時代・ ウナギの海水適応機構

Page 8: AJACS advanced: NGSデータベース検索

8

経時変化

淡水 → 海水 で発現増大

wet時代・ ウナギの海水適応機構

Page 9: AJACS advanced: NGSデータベース検索

9

H2O H2O

Na+

Cl-

Ca2+

Mg2+

HCO3-

HCO3-

Osm

H2O

eSult ?

腸内

血液

腸細胞

wet時代・ ウナギの海水適応機構海水適応に伴う浸透圧適応モデル

Page 10: AJACS advanced: NGSデータベース検索

ライフサイエンス統合データベースセンター特任助教。博士(情報科学)。東京工業大学の学部 ・修士課程にて魚類の遺伝子研究を行い、2002年修了。同年、NECバイオ IT事業推進センターに入社し、遺伝子発現データの解析用ソフトの開発を行う。2007 年同部門の解体に伴い、現職に転職。2008 年大阪大学情報科学研究科にて博士号取得。最近は、公共データベース中のNGS データを検索するウェブサービスを作成。研究活動も行う。

自分の研究用に検索エンジンを作ったら、世界中のユーザーから反響があった。大勢の役に立ててうれしかった

仲 里猛 留Nakazato Takeru

25www.nature.com/naturedigest ©2014 Nature Japan K.K., trading as Nature Publishing Group. All rights reserved.

ワタクシも取材してもらいました (Natureダイジェスト '15年1月号)

Page 11: AJACS advanced: NGSデータベース検索

本題だんだん

Page 12: AJACS advanced: NGSデータベース検索

アンケート

Page 13: AJACS advanced: NGSデータベース検索

NGS機器を使っている

NGSのデータ解析をしている

NGSをやってみたい

Page 14: AJACS advanced: NGSデータベース検索

本題

Page 15: AJACS advanced: NGSデータベース検索

次世代シーケンサー(NGS)

電気泳動式 キャピラリ式 NGS

Next Generation Sequencing → High-Throughput Sequencing

ABI社

北海道システム社

750 (base/lane) × 48/4 lanes = 9kbase

500 (base/lane) × 96 lane = 48kbase

36 (base/seq) × 300M seq/run = 10.8Gbase

次世代とか新型とか

Page 16: AJACS advanced: NGSデータベース検索

ちっとも新しくない 「新しい昆虫採集案内」

昭和46年出版 昭和52年改訂

Page 17: AJACS advanced: NGSデータベース検索

PubMed

BLAST

Page 18: AJACS advanced: NGSデータベース検索

データベース 検索システム

GenBankEMBLDDBJ

BLAST

MEDLINE

塩基配列

文献

登録

Entrez Gene

登録

整理

Page 19: AJACS advanced: NGSデータベース検索
Page 20: AJACS advanced: NGSデータベース検索

NGSデータ

SRA

データベース 検索システム

GenBankEMBLDDBJ

BLAST

MEDLINE

塩基配列

文献

登録

登録

登録SRA Search

Page 21: AJACS advanced: NGSデータベース検索

SRA:

Sequence Read Archive

ちなみに、昔は Short Read Archive

Page 22: AJACS advanced: NGSデータベース検索

データを使ってもらう

データを集める

Page 23: AJACS advanced: NGSデータベース検索

Total: 52,387

3,660

Page 24: AJACS advanced: NGSデータベース検索

Total: 3.3 petabase

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?

Page 25: AJACS advanced: NGSデータベース検索

JGA (Japanese Genotype-Phenotype Archive)Controlled-access データのアーカイブ

Page 26: AJACS advanced: NGSデータベース検索

DRAへのデータ登録

http://trace.ddbj.nig.ac.jp/dra/submission.html

Page 27: AJACS advanced: NGSデータベース検索

FASTQ データ@DRR001107.1 GEZQ5FO01EEA7F length=77GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTG...+DRR001107.1 GEZQ5FO01EEA7F length=77C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!000...

4行1組 1行目: @ + タイトル 2行目:塩基配列 3行目: + (+ タイトル) 4行目:シーケンスクオリティ

+

メタデータ = 実験情報プロジェクト名、生物種、シーケンサー、...

× 数千万 数十億

Page 28: AJACS advanced: NGSデータベース検索

mappingde novo assemble

Quality check

データベース検索

Download自分で

発現量解析 SNP検出ゲノム

Page 29: AJACS advanced: NGSデータベース検索

http://trace.ddbj.nig.ac.jp/DRASearch/

SRAを検索してみましょう

Page 30: AJACS advanced: NGSデータベース検索

SRAのデータ構造(簡略版)

http://trace.ddbj.nig.ac.jp/dra/submission.html に現バージョン(後出)あり

Page 31: AJACS advanced: NGSデータベース検索

ワインが飲みたい

どれにする?

どうしようかなぁ...

Page 32: AJACS advanced: NGSデータベース検索

Soleil Hikumo Rouge名前タイプワイナリー

ブドウ品種製造年

生産地

赤で重くないやつ

→ 中身のクオリティによる足切り

赤旭洋酒山梨ピノノワール+ベイリーA

2012年

→ メタデータによる選択

Page 33: AJACS advanced: NGSデータベース検索

目的が多種多様

SRAの検索は意外とツラい

ゲノム、発現解析、エピゲ、メタゲ、...

対象生物種も多種多様

データベースの構造

ヒト、マウス、メタゲノム、微生物、...

study:プロジェクト情報experiment:個々の実験情報

Page 34: AJACS advanced: NGSデータベース検索

DBCLS SRAhttp://sra.dbcls.jp/

Page 35: AJACS advanced: NGSデータベース検索

35

生物種による検索上のレベルや下のレベルでも検索可能

Page 36: AJACS advanced: NGSデータベース検索

論文からの検索

Page 37: AJACS advanced: NGSデータベース検索

疾患から検索

Page 38: AJACS advanced: NGSデータベース検索

Total: 52,387

3,660

http://sra.dbcls.jp/trends.html

Page 39: AJACS advanced: NGSデータベース検索

http://sra.dbcls.jp/trends.html

HiSeq 2000

GA II454 GS GLX Titanium

Page 40: AJACS advanced: NGSデータベース検索

NCBI SRA やめます事件 (2011/2/22)http://www.nlm.nih.gov/pubs/techbull/jf11/jf11_ncbi_reprint_sra.html

発現はGEOへ

Page 41: AJACS advanced: NGSデータベース検索

BioProject

SRA GEO

Project Summary

Run data

Umbrella Project

Study

Sample

Platform

Sample

Run data

Primary Project

Exp

Run

BioSample

Sample

SRAのデータ構造(最新版)

http://trace.ddbj.nig.ac.jp/dra/submission.html を改

Page 42: AJACS advanced: NGSデータベース検索

http://aoe.dbcls.jp/

AOE(あおい):遺伝子発現データの目次サイト※ マイクロアレイ+NGS

Page 43: AJACS advanced: NGSデータベース検索

PMID: 24167589

Page 44: AJACS advanced: NGSデータベース検索

NGS(発現)データの (生物学的)解釈

[参考]

Page 45: AJACS advanced: NGSデータベース検索

mappingde novo assemble

Quality check

データベース検索

Download自分で

発現量解析 SNP検出ゲノム

Page 46: AJACS advanced: NGSデータベース検索

Statistics

?

wt/diseaseDrug(+/-)

microarray

Interpretation frombiological viewpoint

...

k-means

raw data (sequence)

normalization

clustering

PCA

gene list (cluster) What is biological features?

What is relationships toinitial conditions?

mapping

Next generation Sequencing

raw data (intensity)

No

biology!

Page 47: AJACS advanced: NGSデータベース検索

Gene Ontology

DNA binding

androgen receptor binding

enzyme binding

transcription coactivator activity

tubulin binding

ubiquitin protein ligase binding

...

Molecular Function Biological Process

DNA damage response, signal transduction by p53 class mediator

resulting in transcription of p21 class mediator

G2 DNA damage checkpoint

androgen receptor signaling pathway

apoptotic process

cellular response to indole-3-methanol

chromosome segregation

double-strand break repair via homologous recombination

positive regulation of DNA repair

positive regulation of protein ubiquitination

postreplication repair

regulation of cell proliferation

regulation of transcription from RNA polymerase II promoter

regulation of transcription from RNA polymerase III promoter

response to DNA damage stimulus

response to estrogen stimulus

response to ionizing radiation

...

BRCA1-A complex

BRCA1-BARD1 complex

gamma-tubulin ring complex

nucleus

protein complex

ribonucleoprotein complex

ubiquitin ligase complex

Cellular Component

Example) BRCA1 (Gene ID: 672)

Controlled vocabulary for representing biological features

Page 48: AJACS advanced: NGSデータベース検索

GO assign and enrichment analysishttp://david.abcc.ncifcrf.gov/

TogoTV (Tutorial movie)http://togotv.dbcls.jp/

Page 49: AJACS advanced: NGSデータベース検索

Gene Ontology, ...

DNA binding

androgen receptor binding

enzyme binding

transcription coactivator activity

tubulin binding

ubiquitin protein ligase binding

...

Molecular Function Biological Process

DNA damage response, signal transduction by p53 class mediator

resulting in transcription of p21 class mediator

G2 DNA damage checkpoint

androgen receptor signaling pathway

apoptotic process

cellular response to indole-3-methanol

chromosome segregation

double-strand break repair via homologous recombination

positive regulation of DNA repair

positive regulation of protein ubiquitination

postreplication repair

regulation of cell proliferation

regulation of transcription from RNA polymerase II promoter

regulation of transcription from RNA polymerase III promoter

response to DNA damage stimulus

response to estrogen stimulus

response to ionizing radiation

...

BRCA1-A complex

BRCA1-BARD1 complex

gamma-tubulin ring complex

nucleus

protein complex

ribonucleoprotein complex

ubiquitin ligase complex

Cellular Component

Example) BRCA1 (Gene ID: 672)

No information on

diseases and anatomy

Page 50: AJACS advanced: NGSデータベース検索

MeSH terms

50

Medical Subject Headings

> 23,000 terms

Controlled vocabulary

15 categories

Disease, Drugs, Anatomy, ...

Gene MeSH

Article

Page 51: AJACS advanced: NGSデータベース検索

MeSH keywords related to BRCA1

51

Example) BRCA1 (Gene ID: 672)

Breast Neoplasms

Ovarian Neoplasms

BRCA1 Protein

Tumor Suppressor Proteins

Rad51 Recombinase

Breast

Chromosomes, Human, Pair 17

0

0

0

5.91 × 10-136

1.66 × 10-54

1.52 × 10-43

9.03 × 10-23

Disease

Chemicals and Drugs

Anatomy

MeSH Terms Category p-value

Page 52: AJACS advanced: NGSデータベース検索

Differences and similarities between type 1/2 diabetes

52

MeSH keywords type 1

diabe

tes

type 2

diabe

tes

10e-1010e-0910e-0810e-0710e-0610e-0510e-0410e-0310e-020.050.100.200.300.400.500.751

p-valueCategory

Diseases

Chemicalsand drugs

Anatomy

Diabetes MellitusDiabetes Mellitus, Type 1Diabetes Mellitus, Type 2

Autoimmune DiseasesInsulin Resistance

ObesityInsulin

AdiponectinPancreas

SpleenAdipocytes

Page 53: AJACS advanced: NGSデータベース検索

Implementation

53

http://gendoo.dbcls.jp/

Reference: Gendoo: Functional profiling of gene and disease features using MeSH vocabulary. Nucleic Acids Res, 37 (Suppl. 2), 2009. PMID: 19498079