次世代シーケンサー - fujita health universitykyori-mb/molecularbiology/workshop/...total...
TRANSCRIPT
次世代シーケンサーGenome Analyzerで解明するゲノムy
2009年11月26日2009年11月26日イルミナ株式会社
マーケティング部 田中 亜矢子
© 2009 Illumina Inc All rights reserved© 2009 Illumina, Inc. All rights reserved.Illumina, illuminaDx, Solexa, Making Sense Out of Life, Oligator, Sentrix, GoldenGate, GoldenGate Indexing, DASL, BeadArray, Array of Arrays, Infinium, BeadXpress, VeraCode, IntelliHyb,iSelect, CSPro, and GenomeStudio are registered trademarks or trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners.
今日の内容今日の内容
イルミナGenome Analyzer– 基本原理– 性能アプリケーション– アプリケーション
研究例エピゲノム解析 トランスクリプト ム解析– エピゲノム解析、トランスクリプトーム解析バイサルファイトシーケンス
RNAシーケンスChIPシーケンス
– ターゲットリシーケンス診断手法開発 の応用– 診断手法開発への応用
– シーケンスキャプチャー法
22
シ ケンスキャプチャ 法
Genome AnalyzerのワークフローGenome Analyzer のワ クフ
サンプル調製 シーケンス データ解析
DNA
リシーケンス
de novo アセンブル
次世代シーケンサーGenome Analyzer システム
DNAメチル化
ヒストン修飾
RNA 遺伝子発現
Small RNA
33
これまでの従来型シーケンサーとの比較れまでの従来型シ ケンサ との比較
従来型キャピラリシーケンサー次世代シーケンサー
Genome AnalyzerGenome Analyzer原理 酵素反応→電気泳動→塩基読み取り 酵素反応→塩基読み取り
スループット800bp x 384並列 100bp x2 x135M並列
スル プット= 約30万塩基情報 = 約270億塩基情報より長く、より正確に 低コストで、より多くのデータを
ヒトゲノム解読 「ヒトゲノムプロジェクト」 約30日 約570万円で可能ヒトゲノム解読
(30億塩基)
「ヒトゲノムプロジェクト」
13年で3000億円
約30日、約570万円で可能(x27で実施した場合)
従来型キャピラリシーケンサー vs 次世代シーケンサー時間 約 分時間:約160分の1 コスト:約52,000分の1
ランあたりのデータ量:9万倍
44
1塩基合成をもちいた Genome Analyzer ワークフロー5’3’
1塩基合成をもちいた Genome Analyzer ワ クフ
DNA(0.1-1.0 ug) T
A
AG
T
C
A
GCT
A
GT
CC
A
G
T
CA
A
A
G
T
CCC
CA
A
A
G
T
CCC
C
G
T
C AG
GA
T
T
C
C
AG
GA
T
T
C
C
5’1. サンプル調製 2. クラスター形成
1 2 3 7 8 94 5 6
3. シーケンス
1 2 3 7 8 94 5 6
T G C T A C G A T …
55
4. イメージ処理 5. 塩基決定
イメージ解析から塩基配列決定:ベースコールおよびアライメントイメ ジ解析から塩基配列決定: ス ルおよびアライメント
各クラスタ ごとの各クラスターごとの塩基配列よみとり(「リード」とよぶ)
各塩基のクオリティスコアリファレンスへのアライメント結果
66
アライメント結果
データ解析のながれと対応する解析ツールデ タ解析のながれと対応する解析ツ ル
視覚化
一次解析 二次解析 三次解析 下流解析
Sequencing Control Software
Pipeline Genome StudioPipeline
Pipeline Visual ControllerDNAシーケンスRNAシーケンスChIPシーケンス
CASAVA
3rd Party Software
77
新製品 cBot Cluster Generation System:新しいクラスター増幅装置
これまでのCluster Station & PCを一体化これまでのCluster Station & PCを一体化
使いやすさを改善
1. 試薬キットの簡素化による操作性の向上2. ハンズオン&ランタイムの短縮3. ソフトウェアの改善4. マニフォールドの簡素化5. その他
Genome Analyzerのシンプルなワークフローをさらに使いやすく
88
Genome Analyzerのシンプルなワ クフ をさらに使いやすく
シングルリード法・ペアエンド法シングルリ ド法 ア ンド法
シングルエンド
DNA断片の片側を100bp読み取り
ペアエンド
DNA断片の両端を100bp読み取りDNA断片の両端を100bp読み取り
DNA断片の長さにより、さらに2つに区分– 200-500bp ペアエンド法(イルミナシステムのみ) ペアエンド法p– 2-5kb メイトペア法
ペアエンド法200-400bp
メイトペア法・両端を読むことで、データ量が2倍にアライメント時の効率アップ
99
メイトペア法2-5kb
・アライメント時の効率アップ
GAIIx現在のパフォーマンスGAIIx 現在の フォ マンス
リード長ラン
日数リード数 Gb/ラン Gb/日 basecall
>Q30 精度完全
致率
コスト
/Mb日数 >Q30 一致率 /Mb
1x 35bp 2 138-168M 4.5-6 2.3-3 75-90% >99% >90% 109円
GAIIx
新試薬
2x 35bp 4 276-336M 6.5-11.5 2.4-2.9 75-90% >99% >90% 102円
2x 50bp 5 276-336M 13.5-16.5 2.7-3.3 75-90% >99% >85% 83円
2x 75bp 7.5 276-336M 20.5-25 2.7-3.3 70-85% >98.5% >80% 62円
2x 100bp 9.5 276-336M 27.5-33 2.9-3.3 ≧70% >98% >70% 58円
1010
アプリケーションコスト例アプリケ ション スト例
アプリケーション コストアプリケ ション コスト
ヒトゲノムリシーケンス
3Gb (x38)
100bp ペアエンド、フローセル4枚
フローセルごとにコントロール1レーン
約760万円
66円/Mb
バクテリアゲノムシーケンス
5Mb (x825) 7種
100bp ペアエンド、フローセル1枚
バクテリア1種 1レーン
フローセルごとにコントロール1レーン
約230万円
78円/Mb
ル とに ント ル ン
mRNAシーケンス 100bp シングルリード、フローセル1枚 約104万円
72円/Mb
Small RNA 36bp シングルリード、フローセル1枚 約65万円
約5,000円/Millionタグ
ChIPシーケンス 50bpシングルリード、フローセル1枚 約80万円
1.5億>タグ 約5,400円/Millionタグ
1111
現在のパフォーマンスと今後のロードマップ現在の フォ マンスと今後の ドマップ
ランあたり95Gb産出へむけてリ ド長を増やす• リード長を増やす
• リード数(クラスター数)を増やす
1212
Genome Analyzerの更なる進化Genome Analyzerの更なる進化
リード長を伸ばす– 現在100bpを 125bp 150bpへ– 現在100bpを 125bp, 150bpへ– 試薬とアルゴリズムの改良
– 短鎖ペアエンド法と150bpを組み合わせると:
ひとつづきの250bp配列情報
クラスター密度を増やし、抽出アルゴリズムを改良
1313
Genome Analyzerの特長Genome Analyzerの特長
短いリード(100塩基+)を大量に(>1億リード)現在のスループット: 33Gb (100bpペアエンド法)– 現在のスループット: 33Gb (100bpペアエンド法)
自動化されたシンプルなワークフロー
ゲノムセンターから研究室まで 世界中で広く導入されている実績ゲノムセンタ から研究室まで、世界中で広く導入されている実績
– 多くの手法がGAで開発されている– 圧倒的な論文数(2009年10月現在 400報以上)
さらなる改良
– 販売開始から1年でデータ量15倍– 2009年末までに95G達成を目標
多様なアプリケーションに対応
Genome Epigenome T i tGenome• SNP• CNV
•染色体再編成
Epigenome• DNAメチル化•ヒストン修飾
• DNA結合タンパク
Transcriptome• 遺伝子発現• microRNA
• エクソンスプライス
1414
リード長、リード数とアプリケーションリ ド長、リ ド数とアプリケ ション
リシーケンス
mRNAシーケンス
S ll RNA
リシ ケンス
d バクテリア
DNAメチル化
Small RNA de novoバクテリア
35 50 75 100 200
ChIPシーケンス de novoシーケンス真核生物、メタゲノム
Genome Analyzer
リード数が必要
リード長、リード数(データ量)が必要
1515
必要 必要
GenomeGenome
どう読むか何を読むか
• シーケンス(de novo アセンブル)
• リシーケンス
• ヒト• 動物• 植物 • リシーケンス
どこを読むか
• 植物• 微生物• メタゲノム
• 全ゲノム• ターゲット領域
どれだけ読むか
• 10x• 20x• 30x
1616
Epigenome:バイサルファイトシーケンスEpigenome: イサルファイトシ ケンス
MethylC-Seq
Bisulphite-Seq
Reduced Representation BS-SeqSeq
Methyl-Seq*
Lister, Ecker ‘09
1717
Epigenome:ChIP-SeqEpigenome:ChIP Seq
遺伝子発現調節の全ゲノム網羅的解析
クロマチン免疫沈降で回収したDNA断片をシーケンス
– DNAメチル化– 転写因子結合
プロモーター
エンハンサー
節領発現調節領域
– クロマチン構造– RNA結合タンパク
1818
TranscriptomeTranscriptome
mRNA-Seq: ランダムプライマーを用いてmRNAから全長cDNA合成cDNA合成
– スプライスバリアント– cSNP– 新規転写産物 Total RNA
Directional RNA-Seq Workflow
新規転写産物
ストランド情報をもつプロトコルもご提供 Poly-A Selection
Small RNA: マイクロRNA、siRNAなどのSmall RNA全長をシーケンス
S ll RNA探索
RNA fragment clean-up
mRNA Fragmentation
– Small RNA探索RNA Adapter Ligations
Perform RT-PCR Amplification
Purify Library
1919
今日の内容今日の内容
イルミナGenome Analyzer– 基本原理– 性能アプリケーション– アプリケーション
研究例エピゲノム解析 トランスクリプト ム解析– エピゲノム解析、トランスクリプトーム解析バイサルファイトシーケンス
RNAシーケンスChIPシーケンス
– ターゲットリシーケンス診断手法開発 の応用– 診断手法開発への応用
– シーケンスキャプチャー法
2020
シ ケンスキャプチャ 法
エピゲノム解析トランスクリプト ム解析トランスクリプトーム解析
2121
高解像度DNAメチル化解析高解像度DNAメチル化解析
Nature. 2009 Oct 14.
ES細胞(H1)と胎児繊維芽細胞(IMR90)でのDNAメチル化比較– MethylC-Seq (+ Bisulphite PCR)
RNA S– mRNA-Seq– ChIP-Seq – Small RNA
2222
細胞間でのメチル化部位の違いを比較細胞間でのメチル化部位の違いを比較
MethylC-Seq + Bisulfate PCR
2323
Non-mCG DNAメチル化の特徴Non mCG DNAメチル化の特徴
TSSからの距離とDNAメチル化度合いの関係– Exon領域ではnon-mCGなDNAメチル化の割合が高い– Exon領域ではnon-mCGなDNAメチル化の割合が高い– 転写レベルとの関係があるのではないか?
2424
Non-mCGなDNAメチル化度合いと遺伝子発現との相関Non mCGなDNAメチル化度合いと遺伝子発現との相関
Strand-specific RNA-Seq
2525
DNA-タンパク質相互作用とDNAメチル化DNA タン ク質相互作用とDNAメチル化
ChIP-Seq
2626
DNAメチル化の全体像DNAメチル化の全体像
2727
リシーケンス
2828
アフリカ人ゲノムリシーケンスアフリカ人ゲノムリシ ケンス
Nature 2008 Nov 6; 456(7218):53-9
3つのリシーケンスプロジェクトをまとめた論文– BACクローン:6番染色体MHC領域 162Kb
X染色体 リンパ球芽培養細胞 153Mb– X染色体:リンパ球芽培養細胞 153Mb– 全ゲノム:ヨルバ族アフリカ人男性 3Gb
135Gb, 2x 35 PE, 4,000M リード数
2929
200bp, 2kb インサート ペアエンド
リシーケンス: SNP探索と検証リシ ケンス: SNP探索と検証
約400万のSNPを検出74%は既知のSNP (db SNP)
Study Human– 74% は既知のSNP (db SNP)
ジェノタイピングアレイ HapMap 550
SNP数 552,710ジェノタイピングアレイ
(HumanHap550)での検証552 710 SNP
カバー率 99.60%
コールの一致 99 57%– 552,710 SNP– コール一致:99.57%
ホモザイガスSNP 99.91%
コ ルの 致 99.57%
コールの不一致 0.43%
GT>Seq 0 35% (1 940)ヘテロザイガスSNP 98.74%
– コール不一致:0 43%
- GT>Seq 0.35% (1,940)
- Seq>GT 0.05% (258)
– コ ル不 致:0.43%GT>Seq 0.35%Seq>GT 0.05%他
- その他 0.03% (183)
3030
その他 0.03%
SNPをコールするにはどれだけのカバレッジが必要か?SNPを ルするにはどれだけのカ レッジが必要か?
■ All SNP▲ Heterozygous SNP● Homozygous SNP
3131
3.6kbにわたるホモザイガスな欠失3.6kbにわたるホモザイガスな欠失
異常な長さ(2kp以上)でマップされたペアエンドリード
2kbでマップされたペアエンドリード
異常な長さ(200bp以上)でマップされたペアエンドリード
200bpでマップされたペアエンドリード
3232
ヘテロザイガスな欠失テ ザイガスな欠失
リード深度の変化から29 kbのヘテロザイガスな欠失を検出– McCarroll et al. (2006)のLOHデータと比較して検証– この欠失はTuzun et al. (2005)でも観察されている
3 5
4 0
4 5
403 5
4 0
4 5
4040
度
1 5
2 0
2 5
3 0
de
p
20
30
depth
1 5
2 0
2 5
3 0
de
p
20
30
depth20
30
depth
リード深度
0
5
1 0
0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 0 4 5 0 0 5 0 0 0
w i n d o w
0
10
0
5
1 0
0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 0 4 5 0 0 5 0 0 0
w i n d o w
0
10
0
10リ
3333
癌における転座の例癌における転座の例
Identification of somatically acquired rearrangementsin cancer using genome-wide massively parallel
3434
paired-end sequencingNature Genetics, 2008
リファレンスにない配列の挿入を検出配列の挿入を検出
常な さ異常な長さ(200bp以下)でマップされたペアエンドリード
片側しかマップされなかったペアエンドリード
200bpでマップされたペアエンドリード
短鎖インサートペアエンドでのみ短鎖インサートペアエンドでのみ検出できた81bpの配列挿入
3535
局所的なde novoアセンブルが明らかにした挿入配列局所的なde novoアセンブルが明らかにした挿入配列
リファレンスにマップリファレンスにマップしなかった塩基配列リード
de novoでアセンブルして挿入配列の同定して挿入配列の同定
3636
200bp以下の挿入はこんなにある200bp以下の挿入は んなにある
3737
ターゲットキャプチャー法
3838
ターゲットリシーケンスタ ゲットリシ ケンス
SureSelect Target Enrichment System
ジ ジ 社アジレントテクノロジー社
全ゲノムを使ってGAサンプル調製後、目的領域からデザインしたオリゴ(ビオチン)をハイブリしてからデザインしたオリゴ(ビオチン)をハイブリしてキャプチャー
– 最大3 3Mbの領域を対象最大3.3Mbの領域を対象– 120mer オリゴ、55K種類– GAでシーケンス(1レーン)
3939
ターゲットリシーケンスタ ゲットリシ ケンス
ヒトの全エクソン領域をキャプチャートの全 クソン領域をキャプチャ
ペアエンド法と組み合わせて利用
4040
Genome Analyzerの特長Genome Analyzerの特長
短いリード(100塩基+)を大量に(>1億リード)現在のスループット: 33Gb (100bpペアエンド法)– 現在のスループット: 33Gb (100bpペアエンド法)
自動化されたシンプルなワークフロー
ゲノムセンターから研究室まで 世界中で広く導入されている実績ゲノムセンタ から研究室まで、世界中で広く導入されている実績
– 多くの手法がGAで開発されている– 圧倒的な論文数(2009年10月現在 400報以上)
さらなる改良
– 販売開始から1年でデータ量15倍– 2009年末までに95G達成を目標
多様なアプリケーションに対応
Genome Epigenome T i tGenome• SNP• CNV
•染色体再編成
Epigenome• DNAメチル化•ヒストン修飾
• DNA結合タンパク
Transcriptome• 遺伝子発現• microRNA
• エクソンスプライス
4141