ddbj センターにおける一次データベースの展開

28
DDBJ センターにおける 一次データベースの展開 児玉 悠一 Kodama Yuichi, Ph.D DDBJ センター、アノテータ DDBJ center, annotator

Upload: dna-data-bank-of-japan-center

Post on 07-Jan-2017

151 views

Category:

Education


3 download

TRANSCRIPT

Page 1: DDBJ センターにおける一次データベースの展開

DDBJ センターにおける一次データベースの展開

児玉 悠一Kodama Yuichi, Ph.D

DDBJ センター、アノテータDDBJ center, annotator

Page 2: DDBJ センターにおける一次データベースの展開

現状↓課題↓対応

Page 3: DDBJ センターにおける一次データベースの展開

現状

Page 4: DDBJ センターにおける一次データベースの展開

2016年12月1日

DDBJ センターが運営するデータベース

INSDC: 非アクセス制限データベース

個人レベルの遺伝型と表現型

JGA

アクセス制限データベース

ヒトデータ審査委員会

アセンブリ

アノテーション

リード

Quality value

アライメント

(bam)

DRA

BioProjectBioSample

第39回日本分子生物学会年会 2F3 フォーラム 3

DDBJ (Traditional)

Page 5: DDBJ センターにおける一次データベースの展開

2016年12月1日

アノテーション付き塩基配列: Traditional

第39回日本分子生物学会年会 2F3 フォーラム

2,200億塩基 + WGS: 1.7兆塩基, 37.5万生物種

http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html

4

Page 6: DDBJ センターにおける一次データベースの展開

2016年12月1日

次世代シークエンスデータ: DRA

第39回日本分子生物学会年会 2F3 フォーラム 5

Page 7: DDBJ センターにおける一次データベースの展開

2016年12月1日

データ量の増大: DRA

3.5 ペタバイト (4,000兆塩基)

年率1.3倍 (ストレージ技術革新1.4倍)

第39回日本分子生物学会年会 2F3 フォーラム

http://trace.ddbj.nig.ac.jp/stat_e.html

6

Page 8: DDBJ センターにおける一次データベースの展開

2016年12月1日

アクセス制限ヒトデータ: JGA

第39回日本分子生物学会年会 2F3 フォーラム 7

アクセス制限が必要なヒトデータのためのデータベースシステムの運用

NBDC ヒトデータ共有ガイドラインに従い、データの登録と利用を委員会で審査

Page 9: DDBJ センターにおける一次データベースの展開

2016年12月1日

JGA データモデル

EBI EGA と同様の SRA をベースにしたデータモデル

第39回日本分子生物学会年会 2F3 フォーラム

Data setJGAD

PolicyJGAP

Data set 1

Policy 1

Study

Data 1

Analysis 1

Experiment 1

Sample 1

Submission JGA

StudyJGAS

ExperimentJGAX

SampleJGAN

DataJGAR

AnalysisJGAZ

Data 2

Experiment 2

Sample 2

Analysis 2

アクセッション番号プレフィックス

8

Page 10: DDBJ センターにおける一次データベースの展開

2016年12月1日

JGA サンプル数とデータ量

8,139 Samples, 37 テラバイト (非公開含む)

第39回日本分子生物学会年会 2F3 フォーラム 9

Page 11: DDBJ センターにおける一次データベースの展開

課題

Page 12: DDBJ センターにおける一次データベースの展開

運用上の課題

Page 13: DDBJ センターにおける一次データベースの展開

2016年12月1日

DDBJ センター陣容

第39回日本分子生物学会年会 2F3 フォーラム

アノテータ 開発チーム エンジニア

教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1)

アノテータ: 14 (Ph.D 8)

広報: 3

運用チーム: 9

スパコンチーム: 6

秘書: 2

計: 40

センター長

データベース部門

構築チーム 情報チーム

システム管理部門

運用チーム スパコンチーム

12

14 3 9 6

Page 14: DDBJ センターにおける一次データベースの展開

2016年12月1日

課題1: 人手不足

第39回日本分子生物学会年会 2F3 フォーラム

教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1)

アノテータ: 14 (Ph.D 8)

広報: 3

運用チーム: 9

スパコンチーム: 6

秘書: 2

計: 40

ウェブ登録: 5

Mass Submission System: 2

更新: 3

特許: 1

BioProject/BioSample/DRA/JGA: 3

Traditional

GenBank: 16

dbGaP: 8

13

Page 15: DDBJ センターにおける一次データベースの展開

2016年12月1日

課題2:予算不足

第39回日本分子生物学会年会 2F3 フォーラム

SRA ファイルサイズ

(TB)

運用データベース数

予算

Trace Archive

SRA

BioProject

JGA

BioSample

14

Page 16: DDBJ センターにおける一次データベースの展開

2016年12月1日

課題3:ラインナップ不足

第39回日本分子生物学会年会 2F3 フォーラム

Annotatedsequences

Capillaryreads

NGS reads Study Sample AssemblyFunctional genomics

VariationGenotype

and phenotype

NCBI GenBank Trace ArchiveSequence Read Archive

BioProject BioSample Assembly GEO dbSNP/dbVar dbGaP

EBI European Nucleotide Archive (ENA) ArrayExpress EVA/DGVa EGA

DDBJ DDBJ Trace ArchiveSequence Read Archive

BioProject BioSampleAssembly準備中

DOR JGA

INSDC データ交換 データ交換計画中

NGS 生データと定量データが有機的に連携しない (SRA ⇔ GEO)

個人ゲノムデータと多型データが連携しない (dbGaP ⇔ dbSNP)

15

Page 17: DDBJ センターにおける一次データベースの展開

政策的な課題

Page 18: DDBJ センターにおける一次データベースの展開

2016年12月1日

ヒトデータ共有: 圧倒的な物量差

第39回日本分子生物学会年会 2F3 フォーラム

dbGaP

JGA

EGA

• Subjects: 1,099,979

• 5,000兆塩基

• Data access requests: 24,718

• 3.4 PB 制限公開

• 8,000 download accounts

• 年間 3.2 PB のダウンロード

• 37 TB をアーカイブ• ExAC• gnomAD

17

Page 19: DDBJ センターにおける一次データベースの展開

2016年12月1日

ヒトデータ共有: 政策が大事

第39回日本分子生物学会年会 2F3 フォーラム

dbGaP

JGA

EGA

NIH GDS Policy (2015)

• Human Data の非公開期間は半年まで

• Trusted Partner 認定したクラウド

での dbGaP データ利用を解禁

• EGA インフラのローカル構築

をサポート

• 統合認証基盤

NBDC ヒトデータ共有ガイドライン

• 改正個人情報保護法 (2017.4)• 第五期科学技術基本計画 (2016.4-) オープンサイエンスの推進

18

Page 20: DDBJ センターにおける一次データベースの展開

対応どうする?

Page 21: DDBJ センターにおける一次データベースの展開

2016年12月1日

自動化1: Validator 開発中

第39回日本分子生物学会年会 2F3 フォーラム

BioProject/BioSample/DRA validator のチェック結果を登録者に提示

20

Page 22: DDBJ センターにおける一次データベースの展開

2016年12月1日

自動化2: GenBank PGAP

第39回日本分子生物学会年会 2F3 フォーラム

GenBank 原核生物ゲノム登録者の多くが PGAP による自動アノテーションを選択

DDBJ Traditional DB, まずは登録者とのやり取りをメールからアカウント経由に

切り替えることから

http://nar.oxfordjournals.org/content/early/2016/06/24/nar.gkw569/F3.expansion.html

21

Page 23: DDBJ センターにおける一次データベースの展開

2016年12月1日

登録窓口の集約:先進ゲノム (旧 ゲノム支援)

第39回日本分子生物学会年会 2F3 フォーラム 22

https://www.genome-sci.jp/old2010-2015/about/about_index.html

シークエンス拠点に登録窓口を集約

大型プロジェクトは計画作成時にデータ登録の組み込みを!

Page 24: DDBJ センターにおける一次データベースの展開

2016年12月1日

データの圧縮: SRA

第39回日本分子生物学会年会 2F3 フォーラム

Quality value はファイルの7割程度を占めているが, 余り使われていない

→ INSDC は研究者コミュニティとの議論を開始

塩基配列はリファレンスとの差分のみを保存 (CRAM, cSRA)

23

http://www.uppmax.uu.se/support/user-guides/using-cram-to-compress-bam-files

Page 25: DDBJ センターにおける一次データベースの展開

2016年12月1日

Annotatedsequences

Capillaryreads

NGS reads Study Sample AssemblyFunctional genomics

VariationGenotype

and phenotype

NCBI GenBank Trace ArchiveSequence Read Archive

BioProject BioSample Assembly GEO dbSNP/dbVar dbGaP

EBI European Nucleotide Archive (ENA) ArrayExpress EVA/DGVa EGA

DDBJ DDBJ Trace ArchiveSequence Read Archive

BioProject BioSampleAssembly準備中

DOR JGA

INSDC データ交換 データ交換計画中

サービスの拡充: DDBJ Omics Archive

第39回日本分子生物学会年会 2F3 フォーラム 24

https://twitter.com/ArrayExpressEBI/status/733302530080440320

DBCLS 坊農さんの協力により ArrayExpress データ (> 50 TB) のミラー ftp サイト提供開始!

https://twitter.com/ArrayExpressEBI/status/803205740529909760

Page 26: DDBJ センターにおける一次データベースの展開

2016年12月1日

We need more collaboration!

第39回日本分子生物学会年会 2F3 フォーラム 25

大量遺伝情報研究室

ゲノム進化研究室

Page 27: DDBJ センターにおける一次データベースの展開

2016年12月1日

教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1)

アノテータ: 14 (Ph.D 8)

広報: 3

運用チーム: 9

スパコンチーム: 6

秘書: 2

計: 40

自前開発を増やす

第39回日本分子生物学会年会 2F3 フォーラム 26

アノテータ 開発チーム エンジニア

RDF, Ruby

Page 28: DDBJ センターにおける一次データベースの展開

謝辞

予算文部科学省ゲノム支援NBDC

DDBJ センタースタッフ高木 利久有田 正規中村 保一大久保 公策小笠原 理神沼 英里奥田 喜弘

秘書槇 美香村形 直子

構築チーム真島 淳小菅 武英時松 敏明筒井 波留江嶋 真由美大城戸 利久李 慶範坂井 勝呂杉田 里江三村 公子青野 英雄児玉 悠一福田 亜沙美向田 志保

情報チーム小平 順子鈴木 紀美子横山 会美

運用チーム渡邊 康司藤本 昌宏土橋 雪乃真嶋 久子松森 藤高佐藤 誠椎田 愛美加藤 健児深澤 智幸

スパコンチーム川越 千晴石川 直史安田 智彦芦澤 佑治平井 朝裕渡辺 知佳

DBCLS小原 雄治坊農 秀雅仲里 猛留内藤 雄樹小野 浩雅大田 達郎山本 泰智片山 俊明川島 秀一

先進ゲノム小原 雄治黒川 顕

NCBI/NLM/NIHEBI/EMBL

過去の在籍者の皆様

登録者・利用者の皆様

大量遺伝情報研究室中村 保一神沼 英里藤澤 貴智谷澤 靖洋望月 孝子

データベース運用開発研究室菅原 秀明

NBDC高木 利久星 潤一堀尾 徹松平 洋一舘澤 博子河野 信箕輪 真理川嶋 実苗三橋 信孝宮崎 和典

DDBJ と遺伝研スーパーコンピュータシステムの活動は皆様の謝辞で評価されています。DDBJ のデータベースや検索・解析ツール, 遺伝研スーパーコンピュータシステムの資源を利用して得られた成果を発表される際には, 謝辞の記載をお願いいたします。

http://www.ddbj.nig.ac.jp/ddbjingtop-j.html