wgsの実際についてゲノム生命の設計図...

WGSの実際について

2013年1月18日京都大学医学研究科

関根章博

ゲノム生命の設計図

医療：疾患と関連、薬剤応答性の違いを探すその詳細は分かっていないことの方が多い

ヒト：1~22、 X、Y染色体、ミトコンドリア約30億 x 2の塩基（AGCT)の規則的な配列約25,000遺伝子（タンパク質）

polymorphisms（多型）：遺伝要因mutations（変異）：配偶子外は環境要因修飾（ex. Me化）：一部を除き環境要因

ゲノムと個体差

個体差

ゲノム受精卵（配偶子：精子、卵子）個体差（配列の違い： polymorphisms）

分化・増殖

殆ど全ての細胞に継承

遺伝要因

変異、修飾変化

配偶子（精子、卵子）以外

老化、環境要因の影響

一部の細胞に生じる

血液の細胞等で調査可能

GWAS、 NGS

遺伝子発現変化同発現調節変化エピジェネティック変化

NGS

NGS

GWAS：Genome‐Wide Association StudyNGS : Next Generation Sequencer

広域・全域アプローチ

ターゲット細胞を用いる

マイクロアレーＭｅ化解析チップ

家系を用いる解析パラメトリック（大家系）ノンパラメトリック（TDT、罹患同法対）罹患者が持つ配列（非罹患者が持たない配列）

家系を用いない解析Case（疾患、副作用） vs Control（Caseでない）Caseに多くみられる配列（殆どみなれない配列）

遺伝統計学 yes yes no機能解析 yes no yes

機能変化≒危険≠発症原因

検出力十分≒現象≒発症原因

遺伝要因の調査

遺伝要因の調査：ゲノム広域・全域アプローチ

GWAS（Genome‐Wide Association Study）か？NGS（Next Generation Sequencing）か？

NGS: 全exon解析か？全ゲノム解析か？候補遺伝子解析か？

戦略は各技術の特性（長所短所を理解して）その表現型に合致したプロトコールを選択するしかない(コストが最も影響)。

ヒトゲノムシークエンス2003年に終了宣言99%ゲノム配列、99.99%精度

HapMapプロジェクト2002~2005年（PIＩ）約1700万多型：rareは未知多し約600万多型（common 多型中心）連鎖不平衡・ハプロタイプ地図４人種：Jap.(45人)

NGS登場1,000人ゲノムプロジェクトBGI、NIH、WTSIの協力

多人種のシークエンス

ヒトゲノム配列がわかったゲノム・遺伝子地図解明

（ヒト設計図完成）

GWAS (Genome-Wide Association Study)を世界中で盛んに実施

1990年

現在

ヒト多型情報がわかった

= ヒト多様性が理解できる（易罹患性、薬剤応答性）

病気と関連する遺伝子がわかった

= オーダーメイド創薬

プロジェクトに任せたら！

ゲノムは終わった！

日本はそれを利用？

近年のゲノム研究の動向

シークエンス技術

タイピング技術

2003年

2005年

2008年

201１年

2006年GWAS chipが完成

2011年NGSの普及

ＮＧＳ技術

ＧＷＡＳに予算がつく

ＮＧＳに予算がつく

ＧＷＡＳに予算が難

ＮＧＳに予算？

ＧＷＡＳ（Genome‐Wide Association Study）

2006年に構築された技術当初は数万tag ⇒ common poｌymorphismsが中心⇒ common diseasesがターゲットになる

同定できるのは基本的に遺伝要因

2000 2002 2004 2006 2008 2010PPARG KCNJ11 TCF7L2

FTOSLC30A8

HHEXCDKN2A/BIGF2BP2CDKAL1

TCF2WS1

JAZF1CDC123-CAMK1D

TSPAN8-LGR5THADA

ADAMTS9NOTCH2KCNQ1

MTNR1BGCKRGCKIRS1

ADCY5DGKB/TMEM195

PROX1

BCL11AZBED3KLF14

TP531NP1CHCHD9KCNQ1CENTD2HMGA2HNF1AZFAND6

PRC1DUSP9

（年）

UBE2E2C2CD4A/B

2型糖尿病感受性遺伝子の同定のあゆみ

ヒトゲノムシークエンス終了宣言

GWAS

HapMap phaseI,II多型整備

2型糖尿病そうでないTT 200 80GT+GG 1800 1920

Outcome(+) Outcome(-)

Risk Factor(+)

Risk Factor(-)

糖尿病に関連する遺伝子座

Odds = （200/1800） / (80/1920) ≒ 2.7

糖尿病群にはリスク遺伝子型↑

糖尿病群にはリスク遺伝子型↓

比較DNA数は少ない= 同定される多型はｃommon variantsが主= common diseasesが標的⇒ common diseasesは遺伝リスクが高いのか？

odds < 2.0

Riken Maeda et al.

ＧＷＡＳ2006年に構築された技術

当初は数万tag ⇒ common poｌymorphismsが中心⇒ common diseasesがターゲットになる

同定できるのは基本的に遺伝要因⇒ （家系を用いない）個々のDNAでも（連鎖不平衡の原理を用い

て）それなりの検体数を集めればリスク遺伝子は同定できる⇒ rare variantsもcommon diseasesに関与することが判明⇒ リスク（odds比）の小さい遺伝子座ばかり同定

＝予防診断は困難、創薬ターゲットは不明か複雑な解析が必要（そもそも遺伝リスクの強い疾患なのか？）

＜この印象が強く残る＞

2013年1月現在2.5M + 2.5MＳ tag ⇒ rare variantsが多く搭載された⇒ （ある覚悟をすれば）rare diseasesもターゲットになる

＜日本はここで失敗している：日本のデータベースがまとまらなかった＞

tag number /total % /short val.%

total 2,368,900 100%short variants 1,332,929 56.3% 100.0%monomorphic 1,031,903 43.5%failed 4,068 0.2%MAF > 0.1 246,830 18.5%0.1 >= MAF >= 0.05 108,524 8.1%MAF < 0.05 977,575 73.3%

日本人ＧＷＡＳの構成多型

0mni2.5M chip（Illumina社）日本人一般集団約2,000人の解析結果

＋ CNV (Copy Number Variations）がスクリーニングできる

注） 2.5MSは別250多型解析用だが日本人では多型でないものが多い

日本人参照データベース）徳永先生らHuman Genome Variation Database http://gwas.biosciencedbc.jp/

MAF = minor allele frequencyのこと

G/AのSNP(G:A=60:40)

C/TのSNP(C:T=60:40)

G C

A T

G C

A T

G T

A C

60%

40%

36%

16%

24%

24%

連鎖不平衡（=1.0）

連鎖不平衡（=0) (=連鎖平衡）

Tagマーカー

Tagマーカー

G C

A T

59%

40%G C 1%

A/TのSNP(A:T=99:1)

A

T

A

Tagマーカー

連鎖不平衡

0mni2.5M chip（Illumina）はこれが増加し100万弱搭載されている

追加Tagマーカー

Short variations: 約5356万報告日本人のpolymorphismsをカバーできるか？

genome

情報量

多い

GWASの特性

tagtag未知多型変異

未知多型

組換えhotspot

未知多型変異

組換えhotspot

Tagと連鎖不平衡にある未知多型を検索する

tag未知多型

Tag情報しか増加しないので、この間の連鎖不平衡は不明

140万（rare 100万） x 数倍・数十倍をスクリーニング

連鎖不平衡

（それなりの）遺伝リスク調査、漏れを覚悟なら利用に値する⇒ 迅速コストが比較的安価

全ゲノムNGSデータがそれなりの数揃えば日本人パネル作製可

+ CNV予測

全exonより高度？

日本人のためのＧＷＡＳデザイン

日本の戦略ミス2.5M⇒1.4M2.5M⇒僅か

機能する中心機関不在の状況

NGSについて

機種総リード/時間*1 フラグメント pair_end/mate_pair/リード精度

Illumina社（原理：ブリッジPCR+1塩基合成・シークエンス）HiSeq2000 ~600Gbp/11d ~100bp 200~600bp/1~5kb/~100bpx2 QV30>80%/read*2

HiSeq1000 ~300Gbp/8.5d ~100bp 200~600bp/1~5kb/~100bpx2 QV30>80%/readHiScanSQ ~150Gbp/8.5d ~100bp 200~600bp/1~5kb/~100bpx2 QV30>80%/readGenome Analyzer ~95Gbp/11d->14d ~150bp 200~600bp/1~5kb/~150bpx2 QV30>80%/readMiSeq 8Gbp/2d ~250bp 200~600bp/1~5kb/~150bpx2 QV30>75%/read

Life Technologies社（原理：エマルジョンPCR+ライゲーション）5500xl SOLiD ~150G/2W*3 ~75bp 160~300bp/0.6~10kb/75+35,60+60bp ~99.99%*4

5500 SOLiD ~75G/2W*3 ~75bp 160~300bp/0.6~10kb/75+35,60+60bp ~99.99%*4

（原理：PCR+水素イオン濃度(pH)変化）Ion Proton -- ~400bp --/--/-- (whole genome?) --

Roche diagnostics社（原理：エマルジョンPCR+パイロシークエンス）GS FLX ~400Mbp/10h 400bp 3~20kbp/--/100bp<x2 100bp目で99.7%<GS Junior ~40Mbp/10h 400bp 3~20kbp/--/100bp<x2 100bp目で99.7%<

Pacific Bioscience 3000b~ 3000b~/--/-- 90%??

注）記載した数字は目安、改良が続けられているので短期間にリード長、リード数、精度が改善されることあり:1: シークンスにかかる時間、h=時間、d=日、w=週*2: QV: Quality Value(30:ミス率0.1%、20:ミス率1%)

QV30/80%/readとはリードしたDNA断片の80%がQV>30のシグナルとなっている（前機種では約70%）*3: シークエンスチップは6 laneから成り、個々に使えるので一度に試験しなくてもよい*4: ECCモジュールを利用した時のシークエンス精度*5: x6 coverageの精度:メーカー提示の精度

次世代シークエンサーの種類と性能

そのまま=全genome

キャプチャー=全exon

相補鎖磁気ビーズ

Ｐ１アダプターＰ２アダプターDNA断片

NGS: ~300G(3,000億)塩基／slide

Short read数十～数百片側リード fragment法 ~400b200~800b位（青・赤）両側リード pair-end法 35~250b x 21~5kb 両側リード mate-pair法 35~250b x 2

Long read １分子シークエンス 2000b~

ユニークな塩基配列は決まる決定できない、しにくいゲノム領域がある

NGSの原理

断片化したゲノム

ttcgaggcta ccgaaagtcg

cgaggctatg cgggggctaa

ゲノムの標準配列

atgcctttgga taacgcgctta

--ttcgaggctatgcctttgga-----ccgaaagtcgggggctaacgcgcttattattagcgca--

300G を解読

次世代シークエンサーの原理

片側で35~250bp

ヒトゲノム=3G なので１か所数十回～100回程度読む

Bioinformatics

-ttcgaggctatgcctttggaccgaaagtcggc-ttcgaga-----ttggacc

agactat-----tggaccg

cgagact-----tttggac tcgagac-----ctttgga

gaggcta-----ttggacc

ggctatg-----ggac-ga gctatgc-----gaccgaa ctatgcc-----ac-gaaa tatgcct-----ccgaaag


G/A SNV C ins/del

NGSによるshort variationの検出

bioinformatics

マッピング

variation 検出

約200bpに断片化したゲノム

ttcgaggcta ccgaaagtcg

aaagtcgggg tattagcgca


--ttcgaggctatgcctttgga-----ccgaaagtcgggggcta----gcttattattagcgca--

200bp

標準配列上は2kbp ⇒ deletion(配列欠損)あり

標準配列上は50bp ⇒ insertion(配列欠損)あり

ゲルでサイズを固定

NGSによるゲノム構造異常の検出


遺伝子Ａ遺伝子Ｂ


遺伝子Ａ遺伝子Ｂ

読めた部分

100kb

3kb融合遺伝子

読めた部分3kb

Ｃｈｒ１９ＣｈｒＸ

転座

NGSによるゲノム構造異常の検出

反対向きの配列 Inversion

シークエンス結果バイナリーデータ

ＣＡＳＡＶＡＦａｓｔｑへの変換

BWA, bowtie等（マッピング）

Ｐｉｃａｒｄ等（重複除外）

Pindel等（構造異常検出）

Samtools/GATK等（多型検出）

Annovar等（アノテーション）

独自プログラム（unmapped配列の解析等、不足する解析）

遺伝統計学的解析（相関解析、家系解析等）

NGSのbioinformaticsの例

リファレンス（既知ゲノム）配列

DNA断片

fragment法 pair-end法

塩基配列決定領域

mate-pair法

(A)

遺伝子A 遺伝子B

発現量大発現量小

(B)リファレンス

Me|C

C

バイサルフェート

バイサルフェート

C

TCCTTT

(C)

NGSの技術と解析できるパラメーターゲノム多型、変異

遺伝子発現（siRNA含む）エピジェネティック変化

正確なゲノム配列を知る原則

…agcctgtgatgcgatcgtagctaagatacc…

①正確な標準（=リファレンス）配列②そのポピュレーションでの標準配列

agcctgtagcctgtgcctgtggcctgtgcctgtgacctgtga

③短く(100~400b)ても深く読む（何度も確認する）、比較的正確次世代シークエンサーが得意

ctgtgatgcgatcgtagctaagat④浅くても長く(1~3kb)読む（つながりを知る）、やや正確性が劣る次々世代シークエンサーが得意

★これを限られたコストと検出力を確保しながら実施する

解析時に必要となるcontrol情報

①（本邦の多くでは）caseの解析費用しかない。

②稀少疾患は収集が難しい。検出力を向上させるにはcontrol数を増加する必要がある。

③他の疾患でも相当数のcontrol情報が利用できれば検出力もアップし、false positiveを減らすことができる。

④ゲノム配列にはポピュレーション格差が知られている。標準配列には日本人の配列を利用することで解析の精度が向上する。

⑤variation（多型・変異）情報も同様である。この場合、相当数のcontrol情報が必要となる。等

★中核の機関が必要。そこが各研究室が実施したNGS情報

を収集・整理するのか？（精度がバラバラで参考にはなっても標準データにはならないように感じる）

一般に利用されているゲノム解析法GWAS 比較的安価ゲノム広域全exon解析 GWAS価格x 2 全exon対象全genome解析現状高額（低下）全genome対象候補領域解析方法による候補遺伝子exon

検出力予測リスクの強さ（小さいと検体数↑）予測される多型の頻度（MAF小さいと検体数↑）個々の検体か？家系（パラメトリック、ノンパラメトリック）か？検体数（家系数）

coverage表現型

（遺伝性疾患と癌組織では異なる）等

解析デザイン

-aacgtcgagacctttgga-ゲノムの標準配列

-acgtcgagacctttggag--cgtcgagacctttggagt--gtcgagacctttggagtc--tcgagacctttggagtcc--cgagccctttggagtcct--gagacctttggagtcct--agacctttggagtccta--gccctttggagtccta--acctttggagtcctag-

M M

Agarose gels, stained by Midori Green DNA Stain.Add 1.5μl of Midori Green DNA Stain to the 1% Agarose gel(50ml).Detect the bands under LED illuminator.Excitation peak: 500nm (Secondary Peak ~300nm, ~400nm)Emission: ~540nm1 X TAE Buffer 100 V, 25min

各LaneはPicoGreen（or Qbit）により定量した値を参考に200ng/Lane電気泳動した。

M2313094166557232220274361

Genomic DNA のQuality Check

私達の研究室に提供された検体で完璧だった経験はない

Invader法（35b-25b probe）20~40% success rate↓

Seq.実施のfragmentより小

Deletion ? リードできてない？

どこの領域か不明bioinformaticsで抜き取れない

ヘテロ接合性？

スメア（回収不能）

DNA用組織 RNA用組織 miRNA組織

固定/安定化組織

固定化から抽出までのワークフロー

DNARNA,miRNA

Immunohistochemistry(免疫染色)

Hematoxylin Eosin(ヘマトキ

シリン・エオシン染色)

WesternBlot

in situ hybridization

左図：－80度で3年間保存

された肝臓・腎臓・腸・肺組織から抽出したDNAの品質比較青：凍結保存からのDNA緑：Paxgeneで保存し、

抽出したDNA紫：FFPEから抽出した

DNA

組織の固定、安定化するキット PAXgene Tissue ContainersDNA 精製キット PAXgene Tissue DNA Kit miRNA 精製キット PAXgene Tissue miRNA Kit RNA 精製キット PAXgene Tissue RNA Kit

SPIDIA生体試料標準化活動

コンソーシアム：7公的研究機関、8 企業、 1 標準化委員会 (European Committee for Standardization: CEN)

ヘテロ接合性

父親

母親

…agcctgtgatgcgatcgtagctaagatacc…

正確な標準配列

agcctgtga atcgtagctgctaagatacctgatgcgatc

…agcctgtgatgcgatcgtagctaagatacc……agcctgtgatgcgatcgtagctaagatacc…

…agcctgtgatgcgatcgtagctaagatacc……agcctgtgatgcgatcgtagctaagatacc…

？

高品質なDNA（検体）

Ｐ１アダプターＰ２アダプターDNA断片

genome

キャプチャー=全exon

相補鎖磁気ビーズ

PCR (200bp程度)

全exon解析：全exonをスクリーニングしている訳ではない可能性あり。ミスマッチの位置、CNV、structure variationsは同定されず、exon外相同領域はキャプチャーしている可能性がある。（相補鎖の情報が開示されていないので検証不可）（候補遺伝子exonパネルも同様）

⇒ヘテロ接合性にも影響ある

全exon解析について

全exon解析について

全exon領域：75Mb (2~3%/genome)short variations (大部分)structure variations (?)<キャプチャー配列が不明のため>

exon外：表現型（疾患）に関与せずexon内：関与する可能性がある

と証明したい

Mapされた： short variationsなら関与Mapされない：比較的長い塩基配列の違いの関与

一部検出困難

原因はexonにあり

コストの問題

全exon解析情報

エッセンス抽出⇒機能解析

◎まとめを参照データ×標準データ

機器の精度

bioinformaticsの精度、カットオフ

解釈の精度

検体（DNA）の品質

基盤情報（例：標準配列）の品質

診療情報の質

実験手技の精度

試験デザイン

近い将来全genome解析のコスト実現

中核機関実験・解析手法のガイド全genome解析情報の共有化

（オープンマインドに）

制約下でもRaw dataへのアクセス、アクセスした結果のフィードバック

状況により検体での検証、利用

中核機関をバンクが担ってくれると非常に効果的

結果に影響を与える因子

公開ゲノム配列公開遺伝子情報公開vaiations情報

知識）ゲノムRNA, siRNA

エピジェネティック情報伝達系情報

DNA,RNA Quality Check検体標準化技術

NGS実験技術（機種毎）

NGS Bioinformatics1)ネットワーク、計算機環境、保管2)softwareのハンドリング3)独自プログラム構築

遺伝統計学 Bioinformatics1)相関解析2)家系解析３）検出力計算など

技術）高精度タイピング高精度シークエンス（サンガ法）マクロアレ―GWAS(Me化チップ)

バンク管理

医療情報・疫学情報

NGSを支える技術と人材

研究デザイナー

診断技術、ＳＯＰ

倫理、遺伝カウンセリング

臨床医疫学者

バンク事業者

NGS wet

NGS dry

遺伝統計学者

倫理関係

臨床検査関係

ゲノム研究者

多数

genome dry

評価体制の見直しを！

wgsの実際についてゲノム生命の設計図...

Documents