Transcript

第25回 DDBJing 講習会 in 三島 (2012.1.26)

DDBJ Sequence Read Archive (DRA)

の紹介

国立遺伝学研究所

生命情報・DDBJ研究センター

日本DNAデータバンク

児玉 悠一

次世代 (以降) シークエンサ

から出力される

1次データのための公共データベース

DDBJ Sequence Read Archive

国際協力

SRA 2007 年~

ERA 2008 年~

DRA 2008 年~

Sequence Read Archive

データ形式は3極で同一 形式は共同で策定

登録はどこか1極でOK 公開データは共有される

次世代データの流れ

1次データ

アノテーションされた塩基配列データ

定量データ

解析パイプライン

プロジェクトデータ

1次データ ベースコール

Quality

スポット座標

454 (Roche)

Solexa (Illumina)

SOLiD (ABI) etc

登録対象

画像データ

配列のみのデータ @SRR001654.1 9460:7:1:830:763 length=36

GTCAATATTAATCATACCAATATACTCAAAAAATAA

+SRR001654.1 9460:7:1:830:763 length=36

I+-&*4)%+5'#%/)&$%$#%"#&%'%"$%#%%!""

@SRR001654.2 9460:7:1:402:781 length=36

GGTCTAAAAAGCAAAATTCAGTCTTCAAAATAATTC

+SRR001654.2 9460:7:1:402:781 length=36

II+(%$+%'&+*-0+/*("%&+"*&"(*$""#%%&$

@SRR001654.3 9460:7:1:433:775 length=36

GTGCTTTTTTTTTTCCAGGAAGTTGTCTCCTCTATC

+SRR001654.3 9460:7:1:433:775 length=36

II3DI>IIIIIIIB7.,&%&'&)."+%,$"&$&"%#

fastq データ 塩基配列 + Quality Value

メタデータ (データに関する情報:実験手法、解析方法 etc)

ランデータ

登録に必要なデータ

“メタデータ” + “ランデータ” どんな実験? どんな研究?

どんなサンプル?

ランの結果

メタデータ

6個の オブジェクト

アクセッション番号は それぞれのオブジェクトに

対して発行されます

実体は XML ファイル

ランデータは Run の下に

メタデータ in XML

<?xml version="1.0" encoding="UTF-8"?>

<EXPERIMENT_SET xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">

<EXPERIMENT alias="2010007891" expected_number_runs="8" expected_number_spots="547063"

expected_number_reads="547063" accession="SRX000017">

<TITLE>454 sequencing of Roseburia faecis M72/1 genomic fragment library</TITLE>

<STUDY_REF accession="SRP000011" refname="2005892953"/>

<DESIGN>

<DESIGN_DESCRIPTION>454 Sequencing of Roseburia faecis M72/1 Whole Genome Shotgun

Library</DESIGN_DESCRIPTION>

<SAMPLE_DESCRIPTOR accession="SRS000011" refname="Roseburia faecis M72/1"/>

<LIBRARY_DESCRIPTOR>

<LIBRARY_NAME>2010007891</LIBRARY_NAME>

<LIBRARY_STRATEGY>WGS</LIBRARY_STRATEGY>

<LIBRARY_SOURCE>GENOMIC</LIBRARY_SOURCE>

<LIBRARY_SELECTION>RANDOM</LIBRARY_SELECTION>

<LIBRARY_LAYOUT>

<SINGLE/>

</LIBRARY_LAYOUT>

</LIBRARY_DESCRIPTOR>

<SPOT_DESCRIPTOR>

<SPOT_DECODE_SPEC>

<NUMBER_OF_READS_PER_SPOT>2</NUMBER_OF_READS_PER_SPOT>

<READ_SPEC>

<READ_INDEX>0</READ_INDEX>

Submission

Study

Experiment (24 h)

Experiment (12 h)

Experiment (0h)

Sample

Run Run

Run

24 h

12 h

0 h

例) 培養細胞: 薬剤処理 0, 12, 24 h 後の転写プロファイル解析

登録後オブジェクトを追加できます

オブジェクトでデータを表現

データ登録

登録者

ランデータ

メタデータ

ファイルを転送

ファイル受付サーバ

登録受付システム D-way 登録マニュアルに従い、まずは D-way アカウントを申請してください

http://trace.ddbj.nig.ac.jp/dra/submission.shtml

ウェブ上で作成

登録ポータル D-way

アカウント申請後に 知らされる ID とパスワードで

ログインします

新規登録 (drauser-0004)

の詳細画面に移動します

新規登録を作成

登録詳細画面

メタデータ作成ツール MetaDefine

を起動します

メタデータの作成

オブジェクト に対応したタブ

XML を意識することなく、 情報を入力していくだけで メタデータを作成できます

ポップアップ説明

入力支援

メタデータの投稿

テンプレートや 過去の登録内容を 利用できます

入力内容をチェックします。 エラーメッセージが表示された場合は

内容を修正します

チェックが通ったメタデータを投稿します

ランデータの転送

詳細はウェブサイトをご覧くださいhttp://trace.ddbj.nig.ac.jp/dra/documentation.shtml

登録に対応するディレクトリ drauser/submission/drauser-0004

にファイルを転送

ランデータファイル

ファイル受付サーバ

機種 ファイル

454 sff

Illumina qseq

SOLiD csfasta + QV.qual

ランデータのチェック

ランデータファイルのチェックを開始

ランデータファイルの情報

表示されるエラーメッセージに従い メタデータの修正やランデータファイルの

再転送をしてください

アクセッション番号発行

アクセッション番号

メタデータとランデータが揃い status が data_validated になった後、査定を開始します。

不備がなければアクセッション番号を発行します。

※不備がある場合は Submission.Contact に記入された メールアドレス宛に問い合わせます

※Contact にはできるだけ複数の連絡先を指定してください

データの更新は D-way から

メタデータの更新

例) pubmed id の追加

公開予定日の変更

※1年後まで指定でき、延長可能です

※2日前から変更できません

データの公開

生物名 etc での絞り込み

検索結果リスト

ダウンロード

指定された公開予定日になるとデータが自動的に公開されます。 公開されたデータは EBI/NCBI SRA にミラーされます

詳細

1次データ

アノテーションされた塩基配列データ

定量データ

プロジェクトデータ

BioProject

次世代シークエンサの登場で 生産性が飛躍的に向上!

↓ これらをつなぐ ID がない!

BioProject

↓ 1つのプロジェクト/ラボからのデータが 複数のデータベースに登録されるように

データをグループ化

複数のデータベースに存在するデータをグループ化

例) ゲノム支援プロジェクト

動物ゲノム

植物ゲノム

大きなプロジェクトは2階層で表現

プロジェクトの登録

ゲノム配列の登録 (必須) 複数のデータベースにまたがって登録する 複数のプロジェクトメンバーからの登録 登録するデータ量が多い

プロジェクトを登録するケース

D-way から

プロジェクトのゴール、研究費、対象生物、データの種類 etc を登録

連絡先

DDBJ Sequence Read Archive

http://trace.ddbj.nig.ac.jp/dra

[email protected]

DDBJ BioProject

http://trace.ddbj.nig.ac.jp/bioproject

[email protected]

謝辞

大久保公策,中村保一,菅原秀明,神沼英里 野崎亜沙美,藤本昌宏,風間考弘


Top Related