[ddbjing33] ゲノムワイド多型を利用した遺伝解析の実際
TRANSCRIPT
ゲノムワイド多型を利用した遺伝解析の実際
白澤 健太
かずさDNA研究所
なぜ、ゲノムワイド多型データが必要か?
•マーカー数:少
•解像度:低MAS
QTL
GWAS•マーカー数:多
•解像度:高GS
ゲノムワイド多型データの集め方
• RFLP– サザンブロット分析
• RAPD, AFLP– PCR→電気泳動
• SSR (microsatellite)– PCR→電気泳動
• SNP– PCR→電気泳動
– qPCR
– チップ
– NGS
NGSを利用したゲノムワイド多型分析
• 全ゲノム解読
• トランスクリプトーム
• エキソンキャプチャ
• ターゲットアンプリコンシークエンス
• Reduced-representationライブラリ– RAD-Seq
– GBS
– ddRAD-Seq
Davy et al. (2011) Nat Rev Genet 12, 499-510
WGS
RAD-Seq
Digestion
Adapter ligation
PCR amplification
Sequencing
RAD-Seq in Kazusa
100PE 250PE
RAD-Seqワークフロー
1日目 2日目 3日目 4日目 5日目
9:00 PCR・精製 シークエンス シークエンス
10:00 情報処理
11:00 サイズセレクション12:00
13:00 サンプリング 精製・定量
14:00 DNA抽出
15:00 シークエンス
16:00 制限酵素処理
アダプター付加17:00 SNPリスト
DNA調整からSNPリストまで最短で5日
情報処理
FastQ
Bowtie2
SAM
BAM
BCF
VCF
Filtering
CNV-seq
CNVs
SNPs Indels
SAMtools
BCFtools
VCFtools
SAMtools
ファイル
ソフト
結果
手作業
ReferenceFASTX-toolkit
RAD-Seqの成功のポイント
1.制限酵素選び
2.ゲノム中のSNP密度
3.ゲノム中のSNP分布
トマトゲノム中の制限酵素サイト数
制限酵素サイト数
0
50,000
100,000
150,000
200,000
250,000
300,000
350,000
400,000
450,000
500,000
SalI PstI EcoRI HindIII MspI
Nu
mb
er
of
res
tric
tio
n s
ite
s
制限酵素断片数(300-900 bp)
0
10,000
20,000
30,000
40,000
50,000
60,000
70,000
80,000
SalI - PstI PstI -EcoRI
EcoRI -HindIII
PstI -MspI
Nu
mb
er
of
res
tric
tio
n f
rag
me
nts
RAD-SNP数と制限酵素断片数との関係
SalI - PstI
PstI - EcoRI
EcoRI - HindIII
PstI - MspI
y = 0.281x - 2129.8R² = 0.995
0
2,000
4,000
6,000
8,000
10,000
12,000
14,000
16,000
18,000
20,000
0 10,000 20,000 30,000 40,000 50,000 60,000 70,000 80,000
#RA
D-S
NP
s
No. of fragments (300-900 bp)
RAD-SNPのゲノム中の位置
0%
20%
40%
60%
80%
100%
WGS SalI - PstI PstI - EcoRI EcoRi - HindIII PstI - MspI
Intergenic SNPs Genic SNPs
6品種における全ゲノムSNP数
0
2
4
6
8
10
12
14
16
18
SNP
s /
10
kb
RAD-SNP数と全ゲノムSNP数との関係
Regina
Micro-Tom
M82
Moneymaker
San Marzano
Ailsa Craig
y = 0.0237x - 1849.3R² = 0.7304
0
5,000
10,000
15,000
20,000
25,000
30,000
0 200,000 400,000 600,000 800,000 1,000,000 1,200,000
#RA
D-S
NP
s
#Genome-wide SNPs
F2集団からデータを取る
0
100
200
300
400
500
600
700
800
Nu
mb
er
of
ead
s (k
)
F2 lines
ゲノムの0.6%を15xの厚みでカバーするデータが得られた。
RMF2-01 RMF2-02 RMF2-96
Micro-TomRegina x↓F1
…
Index-01 Index-02 Index-96…
MiSeq
Fastq-01 Fastq-02 Fastq-96…
BAM-01 BAM-02 BAM-96…
F2-VCF
Filtered VCF
Imputed VCF
Index-REG Index-MT
Fastq-REG Fastq-MT
BAM-REG BAM-MT
P-VCF
Filtered VCF
Excluding identical loci
解析の流れ
F2 lines
Seq. library
Sequencing
Seq. data
Mapping
SNP calling
Filtering
Imputing
Applications
Cleaning
欠失データの補間
補間前 補間後
連鎖地図と物理地図の比較
1.2 M SNPs (WGS) vs 1.3 K SNPs (RAD-Seq)
まとめ
• RAD-Seqの成功のポイント– 制限酵素選び– ゲノム中のSNP密度– ゲノム中のSNP分布
• RAD-Seq・GBSの次にあるもの
• 情報解析のことをよく知る(逆も然り)– 自分でできなくて良い– できても良い– 計算機でできること・できないことを知る– お互いの理解を深める