wgsの実際についてゲノム生命の設計図...
TRANSCRIPT
WGSの実際について
2013年1月18日京都大学医学研究科
関根 章博
ゲノム 生命の設計図
医療:疾患と関連、薬剤応答性の違いを探すその詳細は分かっていないことの方が多い
ヒト:1~22、 X、Y染色体、ミトコンドリア約30億 x 2の塩基(AGCT)の規則的な配列約25,000遺伝子(タンパク質)
polymorphisms(多型):遺伝要因mutations(変異):配偶子外は環境要因修飾(ex. Me化):一部を除き環境要因
ゲノムと個体差
個体差
ゲノム受精卵(配偶子:精子、卵子)個体差(配列の違い: polymorphisms)
分化・増殖
殆ど全ての細胞に継承
遺伝要因
変異、修飾変化
配偶子(精子、卵子)以外
老化、環境要因の影響
一部の細胞に生じる
血液の細胞等で調査可能
GWAS、 NGS
遺伝子発現変化同 発現調節変化エピジェネティック変化
NGS
NGS
GWAS:Genome‐Wide Association StudyNGS : Next Generation Sequencer
広域・全域アプローチ
ターゲット細胞を用いる
マイクロアレーMe化解析チップ
家系を用いる解析パラメトリック(大家系)ノンパラメトリック(TDT、罹患同法対)罹患者が持つ配列(非罹患者が持たない配列)
家系を用いない解析Case(疾患、副作用) vs Control(Caseでない)Caseに多くみられる配列(殆どみなれない配列)
遺伝統計学 yes yes no機能解析 yes no yes
機能変化≒危険≠発症原因
検出力十分≒現象≒発症原因
遺伝要因の調査
遺伝要因の調査:ゲノム広域・全域アプローチ
GWAS(Genome‐Wide Association Study)か?NGS(Next Generation Sequencing)か?
NGS: 全exon解析か?全ゲノム解析か?候補遺伝子解析か?
戦略は各技術の特性(長所短所を理解して)その表現型に合致したプロトコールを選択するしかない(コストが最も影響)。
ヒトゲノムシークエンス2003年に終了宣言99%ゲノム配列、99.99%精度
HapMapプロジェクト2002~2005年(PII)約1700万多型:rareは未知多し約600万多型(common 多型中心)連鎖不平衡・ハプロタイプ地図4人種:Jap.(45人)
NGS登場1,000人ゲノムプロジェクトBGI、NIH、WTSIの協力
多人種のシークエンス
ヒトゲノム配列がわかったゲノム・遺伝子地図解明
(ヒト設計図完成)
GWAS (Genome-Wide Association Study)を世界中で盛んに実施
1990年
現在
ヒト多型情報がわかった
= ヒト多様性が理解できる(易罹患性、薬剤応答性)
病気と関連する遺伝子がわかった
= オーダーメイド創薬
プロジェクトに任せたら!
ゲノムは終わった!
日本はそれを利用?
近年のゲノム研究の動向
シークエンス技術
タイピング技術
2003年
2005年
2008年
2011年
2006年GWAS chipが完成
2011年NGSの普及
NGS技術
GWASに予算がつく
NGSに予算がつく
GWASに予算が難
NGSに予算?
GWAS(Genome‐Wide Association Study)
2006年に構築された技術当初は数万tag ⇒ common polymorphismsが中心⇒ common diseasesがターゲットになる
同定できるのは基本的に遺伝要因
2000 2002 2004 2006 2008 2010PPARG KCNJ11 TCF7L2
FTOSLC30A8
HHEXCDKN2A/BIGF2BP2CDKAL1
TCF2WS1
JAZF1CDC123-CAMK1D
TSPAN8-LGR5THADA
ADAMTS9NOTCH2KCNQ1
MTNR1BGCKRGCKIRS1
ADCY5DGKB/TMEM195
PROX1
BCL11AZBED3KLF14
TP531NP1CHCHD9KCNQ1CENTD2HMGA2HNF1AZFAND6
PRC1DUSP9
(年)
UBE2E2C2CD4A/B
2型糖尿病感受性遺伝子の同定のあゆみ
ヒトゲノムシークエンス終了宣言
GWAS
HapMap phaseI,II多型整備
2型糖尿病 そうでないTT 200 80GT+GG 1800 1920
Outcome(+) Outcome(-)
Risk Factor(+)
Risk Factor(-)
糖尿病に関連する遺伝子座
Odds = (200/1800) / (80/1920) ≒ 2.7
糖尿病群にはリスク遺伝子型↑
糖尿病群にはリスク遺伝子型↓
比較DNA数は少ない= 同定される多型はcommon variantsが主= common diseasesが標的⇒ common diseasesは遺伝リスクが高いのか?
odds < 2.0
Riken Maeda et al.
GWAS2006年に構築された技術
当初は数万tag ⇒ common polymorphismsが中心⇒ common diseasesがターゲットになる
同定できるのは基本的に遺伝要因⇒ (家系を用いない)個々のDNAでも(連鎖不平衡の原理を用い
て)それなりの検体数を集めればリスク遺伝子は同定できる⇒ rare variantsもcommon diseasesに関与することが判明⇒ リスク(odds比)の小さい遺伝子座ばかり同定
=予防診断は困難、創薬ターゲットは不明か複雑な解析が必要(そもそも遺伝リスクの強い疾患なのか?)
<この印象が強く残る>
2013年1月現在2.5M + 2.5MS tag ⇒ rare variantsが多く搭載された⇒ (ある覚悟をすれば)rare diseasesもターゲットになる
<日本はここで失敗している:日本のデータベースがまとまらなかった>
tag number /total % /short val.%
total 2,368,900 100%short variants 1,332,929 56.3% 100.0%monomorphic 1,031,903 43.5%failed 4,068 0.2%MAF > 0.1 246,830 18.5%0.1 >= MAF >= 0.05 108,524 8.1%MAF < 0.05 977,575 73.3%
日本人GWASの構成多型
0mni2.5M chip(Illumina社) 日本人一般集団約2,000人の解析結果
+ CNV (Copy Number Variations)がスクリーニングできる
注) 2.5MSは別250多型解析用だが日本人では多型でないものが多い
日本人参照データベース) 徳永先生らHuman Genome Variation Database http://gwas.biosciencedbc.jp/
MAF = minor allele frequencyのこと
G/AのSNP(G:A=60:40)
C/TのSNP(C:T=60:40)
G C
A T
G C
A T
G T
A C
60%
40%
36%
16%
24%
24%
連鎖不平衡(=1.0)
連鎖不平衡(=0) (=連鎖平衡)
Tagマーカー
Tagマーカー
G C
A T
59%
40%G C 1%
A/TのSNP(A:T=99:1)
A
T
A
Tagマーカー
連鎖不平衡
0mni2.5M chip(Illumina)はこれが増加し100万弱搭載されている
追加Tagマーカー
Short variations: 約5356万報告日本人のpolymorphismsをカバーできるか?
genome
情報量
多い
GWASの特性
tagtag未知多型 変異
未知多型
組換えhotspot
未知多型 変異
組換えhotspot
Tagと連鎖不平衡にある未知多型を検索する
tag未知多型
Tag情報しか増加しないので、この間の連鎖不平衡は不明
140万(rare 100万) x 数倍・数十倍をスクリーニング
連鎖不平衡
(それなりの)遺伝リスク調査、漏れを覚悟なら利用に値する⇒ 迅速 コストが比較的安価
全ゲノムNGSデータがそれなりの数揃えば日本人パネル作製可
+ CNV予測
全exonより高度?
日本人のためのGWASデザイン
日本の戦略ミス2.5M⇒1.4M2.5M⇒僅か
機能する中心機関不在の状況
NGSについて
機種 総リード/時間*1 フラグメント pair_end/mate_pair/リード 精度
Illumina社(原理:ブリッジPCR+1塩基合成・シークエンス)HiSeq2000 ~600Gbp/11d ~100bp 200~600bp/1~5kb/~100bpx2 QV30>80%/read*2
HiSeq1000 ~300Gbp/8.5d ~100bp 200~600bp/1~5kb/~100bpx2 QV30>80%/readHiScanSQ ~150Gbp/8.5d ~100bp 200~600bp/1~5kb/~100bpx2 QV30>80%/readGenome Analyzer ~95Gbp/11d->14d ~150bp 200~600bp/1~5kb/~150bpx2 QV30>80%/readMiSeq 8Gbp/2d ~250bp 200~600bp/1~5kb/~150bpx2 QV30>75%/read
Life Technologies社(原理:エマルジョンPCR+ライゲーション)5500xl SOLiD ~150G/2W*3 ~75bp 160~300bp/0.6~10kb/75+35,60+60bp ~99.99%*4
5500 SOLiD ~75G/2W*3 ~75bp 160~300bp/0.6~10kb/75+35,60+60bp ~99.99%*4
(原理:PCR+水素イオン濃度(pH)変化)Ion Proton -- ~400bp --/--/-- (whole genome?) --
Roche diagnostics社(原理:エマルジョンPCR+パイロシークエンス)GS FLX ~400Mbp/10h 400bp 3~20kbp/--/100bp<x2 100bp目で99.7%<GS Junior ~40Mbp/10h 400bp 3~20kbp/--/100bp<x2 100bp目で99.7%<
Pacific Bioscience 3000b~ 3000b~/--/-- 90%??
注)記載した数字は目安、改良が続けられているので短期間にリード長、リード数、精度が改善されることあり:1: シークンスにかかる時間、h=時間、d=日、w=週*2: QV: Quality Value(30:ミス率0.1%、20:ミス率1%)
QV30/80%/readとはリードしたDNA断片の80%がQV>30のシグナルとなっている(前機種では約70%)*3: シークエンスチップは6 laneから成り、個々に使えるので一度に試験しなくてもよい*4: ECCモジュールを利用した時のシークエンス精度*5: x6 coverageの精度:メーカー提示の精度
次世代シークエンサーの種類と性能
そのまま=全genome
キャプチャー=全exon
相補鎖磁気ビーズ
P1アダプター P2アダプターDNA断片
NGS: ~300G(3,000億)塩基/slide
Short read数十~数百 片側リード fragment法 ~400b200~800b位 (青・赤)両側リード pair-end法 35~250b x 21~5kb 両側リード mate-pair法 35~250b x 2
Long read 1分子シークエンス 2000b~
ユニークな塩基配列は決まる決定できない、しにくいゲノム領域がある
NGSの原理
断片化したゲノム
ttcgaggcta ccgaaagtcg
cgaggctatg cgggggctaa
ゲノムの標準配列
atgcctttgga taacgcgctta
--ttcgaggctatgcctttgga-----ccgaaagtcgggggctaacgcgcttattattagcgca--
300G を解読
次世代シークエンサーの原理
片側で35~250bp
ヒトゲノム=3G なので1か所数十回~100回程度読む
Bioinformatics
-ttcgaggctatgcctttggaccgaaagtcggc-ttcgaga-----ttggacc
agactat-----tggaccg
cgagact-----tttggac tcgagac-----ctttgga
gaggcta-----ttggacc
ggctatg-----ggac-ga gctatgc-----gaccgaa ctatgcc-----ac-gaaa tatgcct-----ccgaaag
ゲノムの標準配列
G/A SNV C ins/del
NGSによるshort variationの検出
bioinformatics
マッピング
variation 検出
約200bpに断片化したゲノム
ttcgaggcta ccgaaagtcg
aaagtcgggg tattagcgca
ゲノムの標準配列
--ttcgaggctatgcctttgga-----ccgaaagtcgggggcta----gcttattattagcgca--
200bp
標準配列上は2kbp ⇒ deletion(配列欠損)あり
標準配列上は50bp ⇒ insertion(配列欠損)あり
ゲルでサイズを固定
NGSによるゲノム構造異常の検出
ゲノムの標準配列
遺伝子A 遺伝子B
ゲノムの標準配列
遺伝子A 遺伝子B
読めた部分
100kb
3kb融合遺伝子
読めた部分3kb
Chr19 ChrX
転座
NGSによるゲノム構造異常の検出
反対向きの配列 Inversion
シークエンス結果バイナリーデータ
CASAVAFastqへの変換
BWA, bowtie等(マッピング)
Picard等(重複除外)
Pindel等(構造異常検出)
Samtools/GATK等(多型検出)
Annovar等(アノテーション)
独自プログラム(unmapped配列の解析等、不足する解析 )
遺伝統計学的解析(相関解析、家系解析等)
NGSのbioinformaticsの例
リファレンス(既知ゲノム)配列
DNA断片
fragment法 pair-end法
塩基配列決定領域
mate-pair法
(A)
遺伝子A 遺伝子B
発現量大 発現量小
(B)リファレンス
Me|C
C
バイサルフェート
バイサルフェート
C
TCCTTT
(C)
NGSの技術と解析できるパラメーターゲノム多型、変異
遺伝子発現(siRNA含む) エピジェネティック変化
正確なゲノム配列を知る原則
…agcctgtgatgcgatcgtagctaagatacc…
①正確な標準(=リファレンス)配列②そのポピュレーションでの標準配列
agcctgtagcctgtgcctgtggcctgtgcctgtgacctgtga
③短く(100~400b)ても深く読む(何度も確認する)、比較的正確次世代シークエンサーが得意
ctgtgatgcgatcgtagctaagat④浅くても長く(1~3kb)読む(つながりを知る)、やや正確性が劣る次々世代シークエンサーが得意
★これを限られたコストと検出力を確保しながら実施する
解析時に必要となるcontrol情報
①(本邦の多くでは)caseの解析費用しかない。
②稀少疾患は収集が難しい。検出力を向上させるにはcontrol数を増加する必要がある。
③他の疾患でも相当数のcontrol情報が利用できれば検出力もアップし、false positiveを減らすことができる。
④ゲノム配列にはポピュレーション格差が知られている。標準配列には日本人の配列を利用することで解析の精度が向上する。
⑤variation(多型・変異)情報も同様である。この場合、相当数のcontrol情報が必要となる。 等
★中核の機関が必要。そこが各研究室が実施したNGS情報
を収集・整理するのか?(精度がバラバラで参考にはなっても標準データにはならないように感じる)
一般に利用されているゲノム解析法GWAS 比較的安価 ゲノム広域全exon解析 GWAS価格x 2 全exon対象全genome解析 現状高額(低下) 全genome対象候補領域解析 方法による 候補遺伝子exon
検出力予測リスクの強さ(小さいと検体数↑)予測される多型の頻度(MAF小さいと検体数↑)個々の検体か? 家系(パラメトリック、ノンパラメトリック)か?検体数(家系数)
coverage表現型
(遺伝性疾患と癌組織では異なる)等
解析デザイン
-aacgtcgagacctttgga-ゲノムの標準配列
-acgtcgagacctttggag--cgtcgagacctttggagt--gtcgagacctttggagtc--tcgagacctttggagtcc--cgagccctttggagtcct--gagacctttggagtcct--agacctttggagtccta--gccctttggagtccta--acctttggagtcctag-
M M
Agarose gels, stained by Midori Green DNA Stain.Add 1.5μl of Midori Green DNA Stain to the 1% Agarose gel(50ml).Detect the bands under LED illuminator.Excitation peak: 500nm (Secondary Peak ~300nm, ~400nm)Emission: ~540nm1 X TAE Buffer 100 V, 25min
各LaneはPicoGreen(or Qbit)により定量した値を参考に200ng/Lane電気泳動した。
M2313094166557232220274361
Genomic DNA のQuality Check
私達の研究室に提供された検体で完璧だった経験はない
Invader法(35b-25b probe)20~40% success rate↓
Seq.実施のfragmentより小
Deletion ? リードできてない?
どこの領域か不明bioinformaticsで抜き取れない
ヘテロ接合性?
スメア(回収不能)
DNA用組織 RNA用組織 miRNA組織
固定/安定化組織
固定化から抽出までのワークフロー
DNARNA,miRNA
Immunohistochemistry(免疫染色)
Hematoxylin Eosin(ヘマトキ
シリン・エオシン染色)
WesternBlot
in situ hybridization
左図:-80度で3年間保存
された肝臓・腎臓・腸・肺組織から抽出したDNAの品質比較青:凍結保存からのDNA緑:Paxgeneで保存し、
抽出したDNA紫:FFPEから抽出した
DNA
組織の固定、安定化するキット PAXgene Tissue ContainersDNA 精製キット PAXgene Tissue DNA Kit miRNA 精製キット PAXgene Tissue miRNA Kit RNA 精製キット PAXgene Tissue RNA Kit
SPIDIA生体試料標準化活動
コンソーシアム:7公的研究機関、8 企業、 1 標準化委員会 (European Committee for Standardization: CEN)
ヘテロ接合性
父親
母親
…agcctgtgatgcgatcgtagctaagatacc…
正確な標準配列
agcctgtga atcgtagctgctaagatacctgatgcgatc
…agcctgtgatgcgatcgtagctaagatacc……agcctgtgatgcgatcgtagctaagatacc…
…agcctgtgatgcgatcgtagctaagatacc……agcctgtgatgcgatcgtagctaagatacc…
?
高品質なDNA(検体)
P1アダプター P2アダプターDNA断片
genome
キャプチャー=全exon
相補鎖磁気ビーズ
PCR (200bp程度)
全exon解析: 全exonをスクリーニングしている訳ではない可能性あり。ミスマッチの位置、CNV、structure variationsは同定されず、exon外相同領域はキャプチャーしている可能性がある。(相補鎖の情報が開示されていないので検証不可)(候補遺伝子exonパネルも同様)
⇒ヘテロ接合性にも影響ある
全exon解析について
全exon解析について
全exon領域:75Mb (2~3%/genome)short variations (大部分)structure variations (?)<キャプチャー配列が不明のため>
exon外: 表現型(疾患)に関与せずexon内: 関与する可能性がある
と証明したい
Mapされた: short variationsなら関与Mapされない: 比較的長い塩基配列の違いの関与
一部検出困難
原因はexonにあり
コストの問題
全exon解析情報
エッセンス抽出⇒機能解析
◎まとめを参照データ×標準データ
機器の精度
bioinformaticsの精度、カットオフ
解釈の精度
検体(DNA)の品質
基盤情報(例:標準配列)の品質
診療情報の質
実験手技の精度
試験デザイン
近い将来全genome解析のコスト実現
中核機関実験・解析手法のガイド全genome解析情報の共有化
(オープンマインドに)
制約下でもRaw dataへのアクセス、アクセスした結果のフィードバック
状況により検体での検証、利用
中核機関をバンクが担ってくれると非常に効果的
結果に影響を与える因子
公開ゲノム配列公開遺伝子情報公開vaiations情報
知識) ゲノムRNA, siRNA
エピジェネティック情報伝達系情報
DNA,RNA Quality Check検体標準化技術
NGS実験技術(機種毎)
NGS Bioinformatics1)ネットワーク、計算機環境、保管2)softwareのハンドリング3)独自プログラム構築
遺伝統計学 Bioinformatics1)相関解析2)家系解析3)検出力計算など
技術)高精度タイピング高精度シークエンス(サンガ法)マクロアレ―GWAS(Me化チップ)
バンク管理
医療情報・疫学情報
NGSを支える技術と人材
研究デザイナー
診断技術、SOP
倫理、遺伝カウンセリング
臨床医疫学者
バンク事業者
NGS wet
NGS dry
遺伝統計学者
倫理関係
臨床検査関係
ゲノム研究者
多数
genome dry
評価体制の見直しを!