次世代シーケンサー - fujita health universitykyori-mb/molecularbiology/workshop/...total...

次世代シーケンサーGenome Analyzerで解明するゲノムy

2009年11月26日2009年11月26日イルミナ株式会社

マーケティング部田中亜矢子

© 2009 Illumina Inc All rights reserved© 2009 Illumina, Inc. All rights reserved.Illumina, illuminaDx, Solexa, Making Sense Out of Life, Oligator, Sentrix, GoldenGate, GoldenGate Indexing, DASL, BeadArray, Array of Arrays, Infinium, BeadXpress, VeraCode, IntelliHyb,iSelect, CSPro, and GenomeStudio are registered trademarks or trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners.

今日の内容今日の内容

イルミナGenome Analyzer– 基本原理– 性能アプリケーション– アプリケーション

研究例エピゲノム解析トランスクリプトム解析– エピゲノム解析、トランスクリプトーム解析バイサルファイトシーケンス

RNAシーケンスChIPシーケンス

– ターゲットリシーケンス診断手法開発の応用– 診断手法開発への応用

– シーケンスキャプチャー法

22

シケンスキャプチャ法

Genome AnalyzerのワークフローGenome Analyzer のワクフ

サンプル調製シーケンスデータ解析

DNA

リシーケンス

de novo アセンブル

次世代シーケンサーGenome Analyzer システム

DNAメチル化

ヒストン修飾

RNA 遺伝子発現

Small RNA

33

これまでの従来型シーケンサーとの比較れまでの従来型シケンサとの比較

従来型キャピラリシーケンサー次世代シーケンサー

Genome AnalyzerGenome Analyzer原理酵素反応→電気泳動→塩基読み取り酵素反応→塩基読み取り

スループット800bp x 384並列 100bp x2 x135M並列

スルプット＝約30万塩基情報＝約270億塩基情報より長く、より正確に低コストで、より多くのデータを

ヒトゲノム解読「ヒトゲノムプロジェクト」約30日約570万円で可能ヒトゲノム解読

（30億塩基）

「ヒトゲノムプロジェクト」

13年で3000億円

約30日、約570万円で可能（x27で実施した場合）

従来型キャピラリシーケンサー vs 次世代シーケンサー時間約分時間：約160分の1 コスト：約52,000分の1

ランあたりのデータ量：9万倍

44

1塩基合成をもちいた Genome Analyzer ワークフロー5’3’

1塩基合成をもちいた Genome Analyzer ワクフ

DNA(0.1-1.0 ug) T

A

AG

T

C

A

GCT

A

GT

CC

A

G

T

CA

A

A

G

T

CCC

CA

A

A

G

T

CCC

C

G

T

C AG

GA

T

T

C

C

AG

GA

T

T

C

C

5’1. サンプル調製 2. クラスター形成

1 2 3 7 8 94 5 6

3. シーケンス

1 2 3 7 8 94 5 6

T G C T A C G A T …

55

4. イメージ処理 5. 塩基決定

イメージ解析から塩基配列決定：ベースコールおよびアライメントイメジ解析から塩基配列決定：スルおよびアライメント

各クラスタごとの各クラスターごとの塩基配列よみとり（「リード」とよぶ）

各塩基のクオリティスコアリファレンスへのアライメント結果

66

アライメント結果

データ解析のながれと対応する解析ツールデタ解析のながれと対応する解析ツル

視覚化

一次解析二次解析三次解析下流解析

Sequencing Control Software

Pipeline Genome StudioPipeline

Pipeline Visual ControllerDNAシーケンスRNAシーケンスChIPシーケンス

CASAVA

3rd Party Software

77

新製品 cBot Cluster Generation System:新しいクラスター増幅装置

これまでのCluster Station & PCを一体化これまでのCluster Station & PCを一体化

使いやすさを改善

1. 試薬キットの簡素化による操作性の向上2. ハンズオン＆ランタイムの短縮3. ソフトウェアの改善4. マニフォールドの簡素化5. その他

Genome Analyzerのシンプルなワークフローをさらに使いやすく

88

Genome Analyzerのシンプルなワクフをさらに使いやすく

シングルリード法・ペアエンド法シングルリド法アンド法

シングルエンド

DNA断片の片側を100bp読み取り

ペアエンド

DNA断片の両端を100bp読み取りDNA断片の両端を100bp読み取り

DNA断片の長さにより、さらに2つに区分– 200-500bp ペアエンド法（イルミナシステムのみ）ペアエンド法p– 2-5kb メイトペア法

ペアエンド法200-400bp

メイトペア法・両端を読むことで、データ量が2倍にアライメント時の効率アップ

99

メイトペア法2-5kb

・アライメント時の効率アップ

GAIIx現在のパフォーマンスGAIIx 現在のフォマンス

リード長ラン

日数リード数 Gb/ラン Gb/日 basecall

>Q30 精度完全

致率

コスト

/Mb日数 >Q30 一致率 /Mb

1x 35bp 2 138-168M 4.5-6 2.3-3 75-90% >99% >90% 109円

GAIIx

新試薬

2x 35bp 4 276-336M 6.5-11.5 2.4-2.9 75-90% >99% >90% 102円

2x 50bp 5 276-336M 13.5-16.5 2.7-3.3 75-90% >99% >85% 83円

2x 75bp 7.5 276-336M 20.5-25 2.7-3.3 70-85% >98.5% >80% 62円

2x 100bp 9.5 276-336M 27.5-33 2.9-3.3 ≧70% >98% >70% 58円

1010

アプリケーションコスト例アプリケションスト例

アプリケーションコストアプリケションコスト

ヒトゲノムリシーケンス

3Gb （x38）

100bp ペアエンド、フローセル4枚

フローセルごとにコントロール1レーン

約760万円

66円/Mb

バクテリアゲノムシーケンス

5Mb (x825) 7種

100bp ペアエンド、フローセル1枚

バクテリア1種 1レーン

フローセルごとにコントロール1レーン

約230万円

78円/Mb

ルとにントルン

mRNAシーケンス 100bp シングルリード、フローセル1枚約104万円

72円/Mb

Small RNA 36bp シングルリード、フローセル1枚約65万円

約5,000円/Millionタグ

ChIPシーケンス 50bpシングルリード、フローセル1枚約80万円

1.5億>タグ約5,400円/Millionタグ

1111

現在のパフォーマンスと今後のロードマップ現在のフォマンスと今後のドマップ

ランあたり95Gb産出へむけてリド長を増やす• リード長を増やす

• リード数（クラスター数）を増やす

1212

Genome Analyzerの更なる進化Genome Analyzerの更なる進化

リード長を伸ばす– 現在100bpを 125bp 150bpへ– 現在100bpを 125bp, 150bpへ– 試薬とアルゴリズムの改良

– 短鎖ペアエンド法と150bpを組み合わせると：

ひとつづきの250bp配列情報

クラスター密度を増やし、抽出アルゴリズムを改良

1313

Genome Analyzerの特長Genome Analyzerの特長

短いリード（100塩基＋）を大量に（>1億リード）現在のスループット： 33Gb （100bpペアエンド法）– 現在のスループット： 33Gb （100bpペアエンド法）

自動化されたシンプルなワークフロー

ゲノムセンターから研究室まで世界中で広く導入されている実績ゲノムセンタから研究室まで、世界中で広く導入されている実績

– 多くの手法がGAで開発されている– 圧倒的な論文数（2009年10月現在 400報以上）

さらなる改良

– 販売開始から1年でデータ量15倍– 2009年末までに95G達成を目標

多様なアプリケーションに対応

Genome Epigenome T i tGenome• SNP• CNV

•染色体再編成

Epigenome• DNAメチル化•ヒストン修飾

• DNA結合タンパク

Transcriptome• 遺伝子発現• microRNA

• エクソンスプライス

1414

リード長、リード数とアプリケーションリド長、リド数とアプリケション

リシーケンス

mRNAシーケンス

S ll RNA

リシケンス

d バクテリア

DNAメチル化

Small RNA de novoバクテリア

35 50 75 100 200

ChIPシーケンス de novoシーケンス真核生物、メタゲノム

Genome Analyzer

リード数が必要

リード長、リード数（データ量）が必要

1515

必要必要

GenomeGenome

どう読むか何を読むか

• シーケンス（de novo アセンブル）

• リシーケンス

• ヒト• 動物• 植物 • リシーケンス

どこを読むか

• 植物• 微生物• メタゲノム

• 全ゲノム• ターゲット領域

どれだけ読むか

• 10x• 20x• 30x

1616

Epigenome：バイサルファイトシーケンスEpigenome：イサルファイトシケンス

MethylC-Seq

Bisulphite-Seq

Reduced Representation BS-SeqSeq

Methyl-Seq*

Lister, Ecker ‘09

1717

Epigenome：ChIP-SeqEpigenome：ChIP Seq

遺伝子発現調節の全ゲノム網羅的解析

クロマチン免疫沈降で回収したDNA断片をシーケンス

– DNAメチル化– 転写因子結合

プロモーター

エンハンサー

節領発現調節領域

– クロマチン構造– RNA結合タンパク

1818

TranscriptomeTranscriptome

mRNA-Seq: ランダムプライマーを用いてmRNAから全長cDNA合成cDNA合成

– スプライスバリアント– cSNP– 新規転写産物 Total RNA

Directional RNA-Seq Workflow

新規転写産物

ストランド情報をもつプロトコルもご提供 Poly-A Selection

Small RNA: マイクロRNA、siRNAなどのSmall RNA全長をシーケンス

S ll RNA探索

RNA fragment clean-up

mRNA Fragmentation

– Small RNA探索RNA Adapter Ligations

Perform RT-PCR Amplification

Purify Library

1919

今日の内容今日の内容

イルミナGenome Analyzer– 基本原理– 性能アプリケーション– アプリケーション

研究例エピゲノム解析トランスクリプトム解析– エピゲノム解析、トランスクリプトーム解析バイサルファイトシーケンス

RNAシーケンスChIPシーケンス

– ターゲットリシーケンス診断手法開発の応用– 診断手法開発への応用

– シーケンスキャプチャー法

2020

シケンスキャプチャ法

エピゲノム解析トランスクリプトム解析トランスクリプトーム解析

2121

高解像度DNAメチル化解析高解像度DNAメチル化解析

Nature. 2009 Oct 14.

ES細胞(H1)と胎児繊維芽細胞(IMR90)でのDNAメチル化比較– MethylC-Seq (+ Bisulphite PCR)

RNA S– mRNA-Seq– ChIP-Seq – Small RNA

2222

細胞間でのメチル化部位の違いを比較細胞間でのメチル化部位の違いを比較

MethylC-Seq + Bisulfate PCR

2323

Non-mCG DNAメチル化の特徴Non mCG DNAメチル化の特徴

TSSからの距離とDNAメチル化度合いの関係– Exon領域ではnon-mCGなDNAメチル化の割合が高い– Exon領域ではnon-mCGなDNAメチル化の割合が高い– 転写レベルとの関係があるのではないか?

2424

Non-mCGなDNAメチル化度合いと遺伝子発現との相関Non mCGなDNAメチル化度合いと遺伝子発現との相関

Strand-specific RNA-Seq

2525

DNA-タンパク質相互作用とDNAメチル化DNA タンク質相互作用とDNAメチル化

ChIP-Seq

2626

DNAメチル化の全体像DNAメチル化の全体像

2727

リシーケンス

2828

アフリカ人ゲノムリシーケンスアフリカ人ゲノムリシケンス

Nature 2008 Nov 6; 456(7218):53-9

3つのリシーケンスプロジェクトをまとめた論文– BACクローン：6番染色体MHC領域 162Kb

X染色体リンパ球芽培養細胞 153Mb– X染色体：リンパ球芽培養細胞 153Mb– 全ゲノム：ヨルバ族アフリカ人男性 3Gb

135Gb, 2x 35 PE, 4,000M リード数

2929

200bp, 2kb インサートペアエンド

リシーケンス： SNP探索と検証リシケンス： SNP探索と検証

約400万のSNPを検出74%は既知のSNP (db SNP)

Study Human– 74% は既知のSNP (db SNP)

ジェノタイピングアレイ HapMap 550

SNP数 552,710ジェノタイピングアレイ

(HumanHap550)での検証552 710 SNP

カバー率 99.60%

コールの一致 99 57%– 552,710 SNP– コール一致：99.57%

ホモザイガスSNP 99.91%

コルの致 99.57%

コールの不一致 0.43%

GT>Seq 0 35% (1 940)ヘテロザイガスSNP 98.74%

– コール不一致：0 43%

- GT>Seq 0.35% (1,940)

- Seq>GT 0.05% (258)

– コル不致：0.43%GT>Seq 0.35%Seq>GT 0.05%他

- その他 0.03% (183)

3030

その他 0.03%

SNPをコールするにはどれだけのカバレッジが必要か?SNPをルするにはどれだけのカレッジが必要か?

■ All SNP▲ Heterozygous SNP● Homozygous SNP

3131

3.6kbにわたるホモザイガスな欠失3.6kbにわたるホモザイガスな欠失

異常な長さ（2kp以上）でマップされたペアエンドリード

2kbでマップされたペアエンドリード

異常な長さ（200bp以上）でマップされたペアエンドリード

200bpでマップされたペアエンドリード

3232

ヘテロザイガスな欠失テザイガスな欠失

リード深度の変化から29 kbのヘテロザイガスな欠失を検出– McCarroll et al. (2006)のLOHデータと比較して検証– この欠失はTuzun et al. (2005)でも観察されている

3 5

4 0

4 5

403 5

4 0

4 5

4040

度

1 5

2 0

2 5

3 0

de

p

20

30

depth

1 5

2 0

2 5

3 0

de

p

20

30

depth20

30

depth

リード深度

0

5

1 0

0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 0 4 5 0 0 5 0 0 0

w i n d o w

0

10

0

5

1 0

0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 0 4 5 0 0 5 0 0 0

w i n d o w

0

10

0

10リ

3333

癌における転座の例癌における転座の例

Identification of somatically acquired rearrangementsin cancer using genome-wide massively parallel

3434

paired-end sequencingNature Genetics, 2008

リファレンスにない配列の挿入を検出配列の挿入を検出

常なさ異常な長さ（200bp以下）でマップされたペアエンドリード

片側しかマップされなかったペアエンドリード

200bpでマップされたペアエンドリード

短鎖インサートペアエンドでのみ短鎖インサートペアエンドでのみ検出できた81bpの配列挿入

3535

局所的なde novoアセンブルが明らかにした挿入配列局所的なde novoアセンブルが明らかにした挿入配列

リファレンスにマップリファレンスにマップしなかった塩基配列リード

de novoでアセンブルして挿入配列の同定して挿入配列の同定

3636

200bp以下の挿入はこんなにある200bp以下の挿入はんなにある

3737

ターゲットキャプチャー法

3838

ターゲットリシーケンスタゲットリシケンス

SureSelect Target Enrichment System

ジジ社アジレントテクノロジー社

全ゲノムを使ってGAサンプル調製後、目的領域からデザインしたオリゴ（ビオチン）をハイブリしてからデザインしたオリゴ（ビオチン）をハイブリしてキャプチャー

– 最大3 3Mbの領域を対象最大3.3Mbの領域を対象– 120mer オリゴ、55K種類– GAでシーケンス（1レーン）

3939

ターゲットリシーケンスタゲットリシケンス

ヒトの全エクソン領域をキャプチャートの全クソン領域をキャプチャ

ペアエンド法と組み合わせて利用

4040

Genome Analyzerの特長Genome Analyzerの特長

短いリード（100塩基＋）を大量に（>1億リード）現在のスループット： 33Gb （100bpペアエンド法）– 現在のスループット： 33Gb （100bpペアエンド法）

自動化されたシンプルなワークフロー

ゲノムセンターから研究室まで世界中で広く導入されている実績ゲノムセンタから研究室まで、世界中で広く導入されている実績

– 多くの手法がGAで開発されている– 圧倒的な論文数（2009年10月現在 400報以上）

さらなる改良

– 販売開始から1年でデータ量15倍– 2009年末までに95G達成を目標

多様なアプリケーションに対応

Genome Epigenome T i tGenome• SNP• CNV

•染色体再編成

Epigenome• DNAメチル化•ヒストン修飾

• DNA結合タンパク

Transcriptome• 遺伝子発現• microRNA

• エクソンスプライス

4141

次世代シーケンサー - fujita health universitykyori-mb/molecularbiology/workshop/...total...

Documents