ddbj センターにおける一次データベースの展開
TRANSCRIPT
DDBJ センターにおける一次データベースの展開
児玉 悠一Kodama Yuichi, Ph.D
DDBJ センター、アノテータDDBJ center, annotator
現状↓課題↓対応
現状
2016年12月1日
DDBJ センターが運営するデータベース
INSDC: 非アクセス制限データベース
個人レベルの遺伝型と表現型
JGA
アクセス制限データベース
ヒトデータ審査委員会
アセンブリ
アノテーション
リード
Quality value
アライメント
(bam)
DRA
BioProjectBioSample
第39回日本分子生物学会年会 2F3 フォーラム 3
DDBJ (Traditional)
2016年12月1日
アノテーション付き塩基配列: Traditional
第39回日本分子生物学会年会 2F3 フォーラム
2,200億塩基 + WGS: 1.7兆塩基, 37.5万生物種
http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html
4
2016年12月1日
次世代シークエンスデータ: DRA
第39回日本分子生物学会年会 2F3 フォーラム 5
2016年12月1日
データ量の増大: DRA
3.5 ペタバイト (4,000兆塩基)
年率1.3倍 (ストレージ技術革新1.4倍)
第39回日本分子生物学会年会 2F3 フォーラム
http://trace.ddbj.nig.ac.jp/stat_e.html
6
2016年12月1日
アクセス制限ヒトデータ: JGA
第39回日本分子生物学会年会 2F3 フォーラム 7
アクセス制限が必要なヒトデータのためのデータベースシステムの運用
NBDC ヒトデータ共有ガイドラインに従い、データの登録と利用を委員会で審査
2016年12月1日
JGA データモデル
EBI EGA と同様の SRA をベースにしたデータモデル
第39回日本分子生物学会年会 2F3 フォーラム
Data setJGAD
PolicyJGAP
Data set 1
Policy 1
Study
Data 1
Analysis 1
Experiment 1
Sample 1
Submission JGA
StudyJGAS
ExperimentJGAX
SampleJGAN
DataJGAR
AnalysisJGAZ
Data 2
Experiment 2
Sample 2
Analysis 2
アクセッション番号プレフィックス
8
2016年12月1日
JGA サンプル数とデータ量
8,139 Samples, 37 テラバイト (非公開含む)
第39回日本分子生物学会年会 2F3 フォーラム 9
課題
運用上の課題
2016年12月1日
DDBJ センター陣容
第39回日本分子生物学会年会 2F3 フォーラム
アノテータ 開発チーム エンジニア
教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1)
アノテータ: 14 (Ph.D 8)
広報: 3
運用チーム: 9
スパコンチーム: 6
秘書: 2
計: 40
センター長
データベース部門
構築チーム 情報チーム
システム管理部門
運用チーム スパコンチーム
12
14 3 9 6
2016年12月1日
課題1: 人手不足
第39回日本分子生物学会年会 2F3 フォーラム
教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1)
アノテータ: 14 (Ph.D 8)
広報: 3
運用チーム: 9
スパコンチーム: 6
秘書: 2
計: 40
ウェブ登録: 5
Mass Submission System: 2
更新: 3
特許: 1
BioProject/BioSample/DRA/JGA: 3
Traditional
GenBank: 16
dbGaP: 8
13
2016年12月1日
課題2:予算不足
第39回日本分子生物学会年会 2F3 フォーラム
SRA ファイルサイズ
(TB)
運用データベース数
予算
Trace Archive
SRA
BioProject
JGA
BioSample
14
2016年12月1日
課題3:ラインナップ不足
第39回日本分子生物学会年会 2F3 フォーラム
Annotatedsequences
Capillaryreads
NGS reads Study Sample AssemblyFunctional genomics
VariationGenotype
and phenotype
NCBI GenBank Trace ArchiveSequence Read Archive
BioProject BioSample Assembly GEO dbSNP/dbVar dbGaP
EBI European Nucleotide Archive (ENA) ArrayExpress EVA/DGVa EGA
DDBJ DDBJ Trace ArchiveSequence Read Archive
BioProject BioSampleAssembly準備中
DOR JGA
INSDC データ交換 データ交換計画中
NGS 生データと定量データが有機的に連携しない (SRA ⇔ GEO)
個人ゲノムデータと多型データが連携しない (dbGaP ⇔ dbSNP)
15
政策的な課題
2016年12月1日
ヒトデータ共有: 圧倒的な物量差
第39回日本分子生物学会年会 2F3 フォーラム
dbGaP
JGA
EGA
• Subjects: 1,099,979
• 5,000兆塩基
• Data access requests: 24,718
• 3.4 PB 制限公開
• 8,000 download accounts
• 年間 3.2 PB のダウンロード
• 37 TB をアーカイブ• ExAC• gnomAD
17
2016年12月1日
ヒトデータ共有: 政策が大事
第39回日本分子生物学会年会 2F3 フォーラム
dbGaP
JGA
EGA
NIH GDS Policy (2015)
• Human Data の非公開期間は半年まで
• Trusted Partner 認定したクラウド
での dbGaP データ利用を解禁
• EGA インフラのローカル構築
をサポート
• 統合認証基盤
NBDC ヒトデータ共有ガイドライン
• 改正個人情報保護法 (2017.4)• 第五期科学技術基本計画 (2016.4-) オープンサイエンスの推進
18
対応どうする?
2016年12月1日
自動化1: Validator 開発中
第39回日本分子生物学会年会 2F3 フォーラム
BioProject/BioSample/DRA validator のチェック結果を登録者に提示
20
2016年12月1日
自動化2: GenBank PGAP
第39回日本分子生物学会年会 2F3 フォーラム
GenBank 原核生物ゲノム登録者の多くが PGAP による自動アノテーションを選択
DDBJ Traditional DB, まずは登録者とのやり取りをメールからアカウント経由に
切り替えることから
http://nar.oxfordjournals.org/content/early/2016/06/24/nar.gkw569/F3.expansion.html
21
2016年12月1日
登録窓口の集約:先進ゲノム (旧 ゲノム支援)
第39回日本分子生物学会年会 2F3 フォーラム 22
https://www.genome-sci.jp/old2010-2015/about/about_index.html
シークエンス拠点に登録窓口を集約
大型プロジェクトは計画作成時にデータ登録の組み込みを!
2016年12月1日
データの圧縮: SRA
第39回日本分子生物学会年会 2F3 フォーラム
Quality value はファイルの7割程度を占めているが, 余り使われていない
→ INSDC は研究者コミュニティとの議論を開始
塩基配列はリファレンスとの差分のみを保存 (CRAM, cSRA)
23
http://www.uppmax.uu.se/support/user-guides/using-cram-to-compress-bam-files
2016年12月1日
Annotatedsequences
Capillaryreads
NGS reads Study Sample AssemblyFunctional genomics
VariationGenotype
and phenotype
NCBI GenBank Trace ArchiveSequence Read Archive
BioProject BioSample Assembly GEO dbSNP/dbVar dbGaP
EBI European Nucleotide Archive (ENA) ArrayExpress EVA/DGVa EGA
DDBJ DDBJ Trace ArchiveSequence Read Archive
BioProject BioSampleAssembly準備中
DOR JGA
INSDC データ交換 データ交換計画中
サービスの拡充: DDBJ Omics Archive
第39回日本分子生物学会年会 2F3 フォーラム 24
https://twitter.com/ArrayExpressEBI/status/733302530080440320
DBCLS 坊農さんの協力により ArrayExpress データ (> 50 TB) のミラー ftp サイト提供開始!
https://twitter.com/ArrayExpressEBI/status/803205740529909760
2016年12月1日
We need more collaboration!
第39回日本分子生物学会年会 2F3 フォーラム 25
大量遺伝情報研究室
ゲノム進化研究室
2016年12月1日
教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1)
アノテータ: 14 (Ph.D 8)
広報: 3
運用チーム: 9
スパコンチーム: 6
秘書: 2
計: 40
自前開発を増やす
第39回日本分子生物学会年会 2F3 フォーラム 26
アノテータ 開発チーム エンジニア
RDF, Ruby
謝辞
予算文部科学省ゲノム支援NBDC
DDBJ センタースタッフ高木 利久有田 正規中村 保一大久保 公策小笠原 理神沼 英里奥田 喜弘
秘書槇 美香村形 直子
構築チーム真島 淳小菅 武英時松 敏明筒井 波留江嶋 真由美大城戸 利久李 慶範坂井 勝呂杉田 里江三村 公子青野 英雄児玉 悠一福田 亜沙美向田 志保
情報チーム小平 順子鈴木 紀美子横山 会美
運用チーム渡邊 康司藤本 昌宏土橋 雪乃真嶋 久子松森 藤高佐藤 誠椎田 愛美加藤 健児深澤 智幸
スパコンチーム川越 千晴石川 直史安田 智彦芦澤 佑治平井 朝裕渡辺 知佳
DBCLS小原 雄治坊農 秀雅仲里 猛留内藤 雄樹小野 浩雅大田 達郎山本 泰智片山 俊明川島 秀一
先進ゲノム小原 雄治黒川 顕
NCBI/NLM/NIHEBI/EMBL
過去の在籍者の皆様
登録者・利用者の皆様
大量遺伝情報研究室中村 保一神沼 英里藤澤 貴智谷澤 靖洋望月 孝子
データベース運用開発研究室菅原 秀明
NBDC高木 利久星 潤一堀尾 徹松平 洋一舘澤 博子河野 信箕輪 真理川嶋 実苗三橋 信孝宮崎 和典
DDBJ と遺伝研スーパーコンピュータシステムの活動は皆様の謝辞で評価されています。DDBJ のデータベースや検索・解析ツール, 遺伝研スーパーコンピュータシステムの資源を利用して得られた成果を発表される際には, 謝辞の記載をお願いいたします。
http://www.ddbj.nig.ac.jp/ddbjingtop-j.html