clc genomics workbench gwb で行う場合 1, マッピング variant検出結果-...

75
CLC Genomics Workbench

Upload: truongtu

Post on 17-Apr-2018

282 views

Category:

Documents


11 download

TRANSCRIPT

Page 1: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

CLC Genomics Workbench

Page 2: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

1:リードのQCフィルタリング

5:De novo Assembly

・シークエンス装置ごとのリードデータインポート

・リードの質や長さに基づいたトリミング

2:リファレンスマッピング ・参照配列がある場合の、参照ゲノムの入手 ・参照ゲノム配列へのマッピング ・SNP/DIP検出、アミノ酸変化・スプライスジャンクション・遺伝子重複情報の付与 ・ゲノム構造変化の検出

・コンティグの作成 ・コンティグ上でのORF予測とBlastによるORF機能予測

3:RNA-seq解析 ・転写産物の発現量算出 ・転写産物ごとの群間発現量の差の検定 ・mirBase登録配列に一致するリードのカウント

4:Chip-seq/Methylation 解析

NGSを使用した解析で汎用される手法をほぼ網羅しています

有償Pluginで提供

・Metagenome analysis

・Genome Finishing

・Blast2GO

Page 3: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

3

解析はサーバーPCで実行

操作・結果の閲覧はクライアントで実行

Genomics serverは真核生物の全ゲノム解析など大規模解析に、

Genomics Workbenchは微生物や真核生物のRNAseq/Exome解析に適しています

Genomics Workbench(クライアント) Genomics Server

解析・結果閲覧をデスク

トップPC内で実行

Genomics Workbench

Genomics Workbench Genomics Server

ライセンス:PC固定ライセンスが基本

ネットワークライセンス(同時利用ユーザー数制限)もあります

2つのサービス形態

Page 4: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

1,bwa index -a bwtsw hg19all.fa 2,bwa aln -t 6 hg19all.fa 解析sample1.fastq > 解析sample1.sai 3,bwa aln -t 6 hg19all.fa 解析sample2.fastq > 解析sample2.sai

4,bwa sampe hg19all.fa 解析sample1.sai 解析sample2.sai 解析5,sample1.fastq 解析sample2.fastq>解析sample.sam

6,samtools view -bS 解析sample.sam > 解析sample.bam 7,samtools sort 解析sample.bam 解析sample_sorted

フリーツールBWAとsamtoolで行う場合(Linux限定)

8,samtools mpileup -uf -d1000 hg19all.fa 解析sample_sorted.bam > sample.bcf

9,bcftools view sample.bcf>sample.vcf

この後、変異検出結果「sample.vcf」にアミノ酸変化の有無、

遺伝子コード領域の重複などのアノテーションを別途付加し

ていく

CLC GWBで行う場合

1, マッピング

Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の有無が自動で付与される

2, Variant検出

Page 5: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

5

マッピング

Quality check

リードインポート

トリミング

Visualization

構造変異検出

SNP/InDel 絞込み

SNP/InDel 検出 発現解析

• RNAseq • smallRNA 解析

Page 6: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

参照配列の入手方法

6

Transcriptome解析やVariant解析で必須の事前作業

Page 7: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

7

Download 機能を用いる

他のサイトからダウンロードしたファイルをインポートする

または

NCBIやEnsemblのサイト上で探す必要なし、

参照配列とアノテーションはソフトウェア上から取得できます(要インターネット) 参照配列入手元: Ensembl

Annotation入手元: Ensembl/UCSC/NCBI

Page 8: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

8

あとはDownloadを待つだけ

Fasta形式のゲノム配列は生物種に関わらず取り込めます

GFF3形式で作成した自作アノテーションも取り込み可能

よく用いられる生物種に対して、遺伝子、variant情報、ゲノム配列などを track として簡単にダウンロードすることができる

Download Download Genome を選択->Ensemblに接続

参照配列-アノテーションの入手

生物種を選択

入手したいアノテーションを選択

参照配列の入手先は既に用意されています

Human Genome

Page 9: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

9

NCBI Genbankからgenbank形式(.gbk)で取得したファイルも使用可能です Genbank形式ファイルにはSequenceとAnnotationが両方含まれるため便利

GenBank(full)を指定して取得

GWB上でアノテーションと配列を展開可能

Page 10: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Read Qualityに基づくトリミング機能

シーケンスリードからのエラー除去 特にDe novo assembleを行う時には重要

Page 11: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

11

Q = -10 log10 P <=> P = 10- Q / 10

Q = Phred quality score

P = probability of base call being incorrect

Fastqファイルに含まれたBase call QC情報 – 正確に塩基を読めた確率

Page 12: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

: 累積和による方法

12

スタート点: 累積和が正になった塩基

終了点: 累積和が最大になった塩基

Phred score の棒グラフ

グラフより、ある程度クオリティが高くなった場所からリードを使い、

クオリティが連続して悪くなっている箇所からリードをトリムします

※途中、1塩基のみクオリティが低いような場合は、

必ずしもトリムされない。これはできるだけリードを長く保とうとするため。

Limit値: P = 0.05 Q= 13

Page 13: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

13

Navigation Areaから使用するSequence readデータを選択

Toolboxから Trim Sequences を選択、ダブルクリック

ウィザードが起動し、選択したデータが選ばれていることを確認

Page 14: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

14

Trim using quality scores :トリミングに使用するLimitパラメータを決定

Trim ambiguous nucleotides:N表示される塩基について、最大何塩基まで保持させるか

Defult:Limit=0.05(Phred score =13 )

De novo assembleでは特にread QCの条件を厳しくしたほうが良い

Page 15: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

15

• Quality Scoreを使ったトリミング以外にも、5末、3末の塩基数を指定

してカットする方法や、Quality Scoreによるトリミングであまりに短

いリードの除去なども可能。

Page 16: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

16

Qualityの低い塩基を除去

Base callの質が高く、一定以上の長さのあるリードが残る

Pair readの場合、片側のリードが除去された

場合もう一方のリードはOrphan readとして出

力されます

Page 17: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Mappingと変異解析

Page 18: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

18

① 最適なマップ場所をLocal Alignmentで探索 (スコアリング)

② 設定したフィルタリング条件で最終的に表示させるリードを決定(フィルタリング)

2ステップからなるマッピング

Page 19: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

19

リード配列(20bp)が全て一致した場合 Match:20 Mismatch:0

計算式:20-0=20

リード配列(20bp)のうち1つミスマッチした場合 Match:19 Mismatch:1

計算式: 19-2=17

Match = +1, Mismatch = -2

17

Local Alignment のスコア計算の例 リード配列の塩基がリファレンス配列と比較してMatch・Mismatchがあると下記のようなスコアを与え スコアの一番高い場所を探索します スコア計算は、リード配列の塩基がMatchしたところ塩基から計算されます

• スコアリング

リード配列(20bp)のうち18塩基が一致した場合 Match:18 Mismatch:1

計算式: 18-2=16

リード配列(20bp)のうち16塩基が一致した場合 Match:16 Mismatch:2

計算式: 16-4=12

16

Page 20: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

20

Mismatch cost:アライメントにマッチしないものがあった場合のコスト

Insertion cost:アライメントに挿入がある場合のコスト Deletion cost:アライメントに欠失がある場合のコスト Insertion open cost: 挿入を開始する場合のコスト Insertion extend cost: 挿入を延長する場合のコスト Deletion open cost: 欠失を開始する場合のコスト Deletion extend cost: 欠失を延長する場合のコスト Length fraction:リードの長さのどの程度がマッピング

されているべきか。 Similarity :どの程度類似しているべきか。 Global alignment:

Global alignment を行うかどうか。チェックが外れている場合はLocal alignmentを実行。

Color space alignment:カラースペースのデータかどうか、その場合にカラーによるエラー補正を行うかどうか。

Auto-detect paired distances: 自動でペアの距離を決めるかどうか。

Non-specific match handling:同一スコアでマップされる箇所がある場合の対処。

まとめ:リードが参照配列と一致する程度を元にアライメントの可否を決定。 塩基置換と挿入・欠失に異なったペナルティを設定している →Ins/Delは連続して発生する傾向があるため

Page 21: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

21

Referenceに使用するデータを選択

Reference masking

指定したアノテーションの領域を除いて解析したり、アノテーションの領域のみ解析することができます

No masking – すべての配列を解析します

Exclude annotated – 指定したアノテーションの領域を除いて解析します

Include annotated only – アノテーションの領域のみ解析します

Exclude annotated または Include annotated only の場合には、アノテーションの track を選択します

Page 22: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

22

背景に色が付いている箇所は、参照配列と異なる箇所です

色がうすくなっている箇所はマッピングされていません⇒カバレッジの計算にも考慮されていません

緑色のリード:センス鎖にマップされたリード、

赤色のリード:アンチセンス鎖へマップされたリード

青色のリード:ペアとして認識されているリード

黄色のリード:Non-specificなリード

Page 23: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

感染検体の場合、宿主ゲノムにマップすることでsequence dataから余分なリードデータを除去したリードファイルを得ることが出来ます。

事例:Influenza virus genome seqのreadをGallus gal genomeにマッピング

マッピングパラメータのLength fractionを0.5->0.8へ上昇 マッピング時に要求する相同性の基準を厳しくする

Collect un-mapped readsにチェック

Un-mapped readが出力される

宿主ゲノム除去前: 720,616 read 宿主ゲノム除去後:706,732 read

Page 24: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

24

Deletion SNP Ins

Reference

Mapped

read

Page 25: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

25

・Basic Variant Detection : クオリティと、バリアントの見られる頻度からバリアントのサイトを検出。

(version 7.5以前のQuality-Based Variant Detection)

• Fixed Ploidy Variant Detection: 確率モデルを使い、バリアントのサイトを検出。

(version 7.5以前のProbabilistic Variant Detection)

• Low Frequency Variant Detection: 低頻度で見られるバリアントの検出ツール。倍数性を指定しないでバリアントの検出が行える。

使い分け: その領域において変異の見られる頻度が 15%以下:Basic Variant Detection or Low Frequency Variant Detection 15%以上で倍数性が既知の場合:Fixed Ploidy Variant Detection

Page 26: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

26

Low Frequency Variant

BRCA1 amplicon readをHuman Genomeへmapping

Variant detection (Basic/Fixed/Low)

Fixed Ploidy Variant Basic Variant

アミノ酸変化等のアノテーション付与

Work Flow

0 0 32

1

0 32 32

33

カバレッジが数百を超えるAmplicon seqでは

どのVariant detectorでも結果はほぼ同じ。

Page 27: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

27

Low Freq

Fixed Ploidy Basic

0 0 32

1

0

Low Frequency Variant

Basic Variant

Fixed Ploidy Variant

----で表示されたDeletionにATT~で表示されたMNVが低頻度で混ざっている。

Low Frequency variantにおいてのみ、頻度が低いATTCTの変異が検出される。

他の二つのVariant detectorではdeletionのみが検出される。

Page 28: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

28

Resequencing Analysis – Quality-based Variant Detection を選択する Variant 同定に使用するマッピングデータを選択する 選択できるデータは、Map Reads to Reference または RNAseq で作成したデータ

変異解析は先にマッピングしておいたデータに対して実施します

Page 29: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Neighborhood radius: variant から両方向に何塩基 quality の評価を行うか

Maximum gap and mismatch count: 評価している window 中で、この値を超える gap または mismatch があるリードはカウントに加えない

Minimum neighborhood quality:評価している window の平均の quality score の平均がこの値に達しないリードはカウントに含めない

Minimum central quality: 中央の塩基の quality score がこの値より小さいリードはカウントに加えない

Ignore non-specific matches: non-specific match のリードをカウントに加えない場合にチェックする。通常は、チェックすることを推奨します。

Ignore broken pairs: broken pair のリードをカウントに含めない。Pair-end のデータの場合には、チェックすることを推奨します。

Variant callを行う時に参照するreadが十分なBase call Qualityを持っているか、

特異的にマッピングされているかを検査します

Page 30: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Minimum coverage: カバレッジがこの値より小さい場合は variant に含めない

※quality の基準を満たすもののみをカウントする Minimum variant frequency: リファレンスと異なる塩基がこ

の値以上のものを variant とする ※quality の基準を満たすもののみをカウントする

Advanced Maximum coverage: この値を超えるカバレッジのものを

variant に含めない Required variant count: variant とする場合に最低含まれ

なければならないリードの絶対数 Sufficient variant count: この値以上であれば、Minimum

variant frequency の基準に達しなくてもコールする

Require presence in both forward and reverse reads: forward と reverse のリードのカウントの比が0.05以上のもののみをコールする

Homopolymer 領域の中または隣接して存在する InDelを除く。Homopolymer は、連続した同一塩基2塩基。

Variant callを行う時に参照するreadが十分なカバレッジを持っているか、

Strand biasなどのアーティファクトの影響を受ける危険がないかを検査します

Page 31: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Reference allele:hetero変異の場合には変異検出結果に参照配列の塩基パターンも出現数する、参照配列塩基にはこのカラムにYesが付与される。

Frequency:アレル頻度。アレルが複数ある場合には、Allele Variations に対応した頻度が表示されている。

Counts:それぞれのアレルのリード数

Coverage:SNPをCallするために設定したQualityに合致したカバレッジ

Probability:コールされた変異の確からしさ、1=100%。

CLC GWBより出力される変異検出結果は以下の表で出力されます。この表にさまざまなアノテーションを追記していきます。

この変異結果Trackはマウスの右クリックからExportで タブ区切りテキストやVCFで出力できます。

Page 32: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

偽陽性変異が出やすい配列パターンの個所ではないかのチェックや変異周辺に共通した配列パターンが無いかの確認に使用する

アノテーションをつけたい変異トラックを Navigation Area より選択。

Toolboxから Resequencing Analysis> Annotate and Filter > Annotate with Flanking

sequence を選択

ウィザードが起動し、選択したデータが選ばれていることを確認。

Variant周辺の参照配列が取得できる、繰り返し配列領域などの

偽陽性の変異が出現しやすい場所であるかを判定可能

Page 33: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Splice site SNPの検出

Toolboxから Resequencing Analysis> Functional Conseq > Predict Splice Effect を選択

変異検出結果テーブルに含まれる変異中でExon-intron境界部分にあるものにフラグを立てる

mRNAトラックを選択します

Filter optionにチェックを入れるとSplice siteに影響を与えるSNPのみが残されます

① ② ③

Exon-Intron境界部分にあるSNPを検出します

Page 34: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

1

・既知変異情報との重複(dbSNP/HapMap/1000Genome) ・アミノ酸変化の有無 ・Splicing patternへの影響 ・アミノ酸変化のある位置のタンパク質構造上の位置(PDB登録タンパク) ・Drug binding siteとの重複

Page 35: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

36

Annotate from Known Variants : known

variants とオーバーラップする variants にアノテーション付けする

Filter against Known variants : known

variants と比較してフィルタリングする

Annotate with Exon Numbers : exon の番号をアノテーションに追加する

Annotate with Flanking Sequences :

reference の隣接する塩基とともにアノテーション付けする

Filter Marginal Variant Calls : Variant

frequency, Forward/reverse balance,

Average base quality などの条件でフィルタリングする

Filter Reference Variants : reference

allele variants をフィルタリングする

既知変異との重複を検査する、 エクソン番号を付与する、 アリル頻度などでのフィルタ機能

Page 36: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

37

Compare Sample Variant Tracks: 2つのvariant track を比較して、共通する、または、異なる variant を出力する (Ver6.5で追加)

Compare Variants within Group : グループの中で common variants を検索する。Frequency を % で指定できる

Fisher Exact Test : Case-control study で、case に有意に存在する variants を検出する

Trio Analysis : 子供と両親のデータを用いて

trio 解析を行う。Variants が親に由来するのか、de novo なのかをレポートする

Filter against Control Reads : Control に存在する variant をフィルタリングする

検出された変異の集団内での共通性や、Case-Control間での出現頻度

の差の検定、親子関係を利用した遺伝性変異の検出など

Page 37: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

38

GO Enrichment Analysis : 検出された

variants が含まれる遺伝子にどのような

Gene Ontology と関連するものが多いのかを解析する

Amino Acid Changes : variants に、アミノ酸置換に関するアノテーション付けを行う

Annotate with Conservation Score : 異なる

種におけるアミノ酸の保存の程度に関する情報をアノテーション付けする。保存の度合いが高いほど、機能的に重要であると期待される

Predict Splice Site Effect : variants の splice

site に対する影響を予測する 変異が検出された遺伝子の機能に関する情報を付与。Gene Ontologyや保存スコアなども付与。

Page 38: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

39

Read dataのトリミングから変異検出まで、多くのステップがある。

複数サンプルの解析時など、省力化のためにワークフローとバッチ処理が用意されている。

一連の処理を線でつなぎ、自作のワーク

フローを作成可能。

途中結果も任意に出力できる。

設定するパラメータは固定・可変どちら

も選択可能。

Page 39: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

RNAseq 遺伝子発現解析

40

Page 40: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

41 Pepke, S.; Wold, B. & Mortazavi, A.

Computation for ChIP-seq and RNA-seq studies

Nature methods, Nature Publishing Group, 2009, 6, S22-

S32

ゲノム上のGene/CDS/mRNA領域を設定

cDNA を作成

Gene, cDNAへマッピング

マッピング結果をゲノム上へ展開

Page 41: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

42

RPM正規化(マイクロアレイなどと同じところ):Reads per million mapped reads サンプルごとにマップされた総リード(塩基配列)数が異なる。 →各遺伝子のマップされたリード数を「総read数が100万(one million)だった場合」に補正 RPKM正規化(RNA-seq特有):Reads per kilobase of exon per million mapped reads 遺伝子の配列長が長いほど配列決定(sequence)される確率が上昇 →各遺伝子の配列長を「1000塩基(one kilobase)の長さだった場合」に補正

Page 42: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

43

•カウントデータを使い、データが負の二項分布に従うと仮定して必要なパラメータ(平均値とDispersion)を推定し、検定を行う。Rに搭載されているEdgeRでは、Exact Test とGLM(Generalized Linear Model)が搭載されていますが、Genomics Workbenchでは、Exact Testを使っています。

高発現遺伝子を除いてサンプル間の正規化を行うTMM法が自動適用されます。

T test/ Anova/ Kalの検定/ Baggerleyの検定も可能です。Kalの検定とBaggerley検定は1 vs 1の比較も可能

Page 43: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

44

Navigation Areaから使用するリードデータを選択

Toolboxから Transcript Analysis > RNA-seq Analysis > RNA-Seq Analysis を選択

ウィザードが起動し、選択したデータが選ばれていることを確認

Page 44: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

45

Reference

Genome annotated with genes and transcripts: ゲノムに遺伝子とトランスクリプト(mRNA)がアノテーションとして付いている場合

Gnome annotated with genes only: ゲノムに遺伝子のみのアノテーションが付いている場合

(原核生物を対象) One reference sequence per transcript: 参照配列のみの場合(ESTなど)

Reference sequence, Gene track, mRNA trackはそれぞれ使用する、ゲノム配列、遺伝子、mRNAを選択。

Mapping

Map to gene region only (fast): 遺伝子の領域のみにマッピングする場合

Also map to inter-genic regions:遺伝子ー遺伝子間についてもマッピングさせる場合

Gene/ CDS/ mRNAのアノテーション領域を設定することで、

遺伝子ごと、Transcriptごとの発現量を算出

Page 45: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

46

Mapping options

Maximum number of mismatches: (Short read パラメータ)リード中に最大何個までのミスマッチを許容するか

Length fraction: (Long read パラメータ)マッチする際に考慮するリードの長さの割合

Similarity fraction: (Long read パラメータ) Length

fractionで指定した長さのうち、一致するべき割合

Use color space:カラースペースを使用する場合

Auto-detect paired distances:自動でペアの距離を推定させる場合

Strand specific:センス・アンチセンス鎖特異的にマップさせたい場合のオプション

Maximum number of hits for a read:1つのリードがマッチする最大の数。この数以上の箇所にマップされたリードは、マップされません。

mRNAは遺伝子間で配列の共通性が高い部分があるため、非特異的なマッピングには上限を設けて許容している

Mapping時に要求する正確性はゲノムマップと同様に設定します

Page 46: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Gene Level

Transcript Level

1

1

遺伝子単位の発現量

転写物単位の発現量

一つの遺伝子に複数のTranscriptがある

遺伝子の発現値はRPKM/TPM/CPMの値がサンプル間の発現量を比較するための発現値として出力される。

Page 47: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

設定したメタ情報からEdge-Rによる統計解析結果が出力されます

事例:

肥満患者と健常人のTranscriptome比較

体脂肪に比例して血中濃度が増加するレプチンの肥満群での発現上昇が認められる。

Page 48: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

利用可能なクラスタ解析機能

・HCL-HeatMap

・PCA

GeneOntology解析(Fisher/GSEA)やベン図の

作成も可能

Page 49: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

例:ZebrafishのmRNA sequenceからの発現解析

1, De novo assembleによるTranscript contig sequenceの作成

1200万リード => 2万5千 contig seq

2, RNAseq時に”One reference sequence per transcript”を

指定し、作成していたcontig配列を入力

Page 50: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Contig配列をTranscriptと見立て、発現量をTPM単位で算出します。

Contig配列にはアノテーションが存在しないためBlastxで決定します。

Contig配列に対してBlastを実行。

BlastプログラムはGWBに組み込まれています。

参照配列に使用したContig配列をBlastxによりタンパク質情報と紐づける

ことで非モデル生物でも発現解析が可能になる

Page 51: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

mRNAやGeneのアノテーションがない生物種でもこれらの情報をRNAseqの

マッピングデータから推定できます。

1, mRNA seq readをゲノムへマッピングする専用Mapper(Large gap read mapper)

でマッピング

2, Large gap read mapperの結果にTranscript Discoveryを実施

Mapping結果をもとにTranscriptや遺伝子コード領域を表示

Page 52: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

既知のmRNA構造

GWBが予測したmRNA構造

予測結果と実際の比較

カバレッジが十分であれば実際のmRNAパターンと同じ構造をmappingデータから構築可能

Page 53: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

De novo シーケンス

De novo シーケンスとは?

• ゲノムが解読されていない生物種に対して、シーケンスを行うこと。ゲノムの同定や、その生物に特徴的な配列、機能の探索などを目的として行われる。

• 一般的な解析の方法はde novoアッセンブリにより、リード配列をできるだけ長くつなげ、近縁種へのマッピングやBLASTを行い、つながれた配列の意味づけを行う、またはつなげることができなかった箇所についてSanger法によるシーケンスなどで配列を特定し、ゲノムを同定するなど。

Page 54: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

• まず初めにリードの連続する一部を使った(word)セットを作成します。このリードは自動的に計算されるリードよりも短い長さ(最大64)のリードの一部となります。

• Word のサイズは、任意で入力するか、自動で決定されます。自動の場合、入力されるリードの量により決定されます。

• 以下の図のように、wordの前後が異なるパターンをしめすものがあるかどうかを見ていきます。

55

Page 55: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

• 枝別れ(ノード)が出てくると分岐をしたグラフとなり、以下のようになります

• これをさらにまとめると、以下のようになります。

この分岐をどこまで伸ばすかを指定するのがBubble sizeといいます

・De novo assembleの伸長は連続して同じ塩基が生じる個所で停止しやすい、このような場所ではリードの連結候補が拡散するため

Page 56: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

低クオリティのReadを除いたsequence readを入力

・実行時に設定するWord sizeとBubble sizeが重要

・Pacbio+illuminaのように複数のシーケンサデータを

同時に導入することが出来る

・Pair-end readが有ればscaffoldが行われる

Word sizeは最大64

50前後が良い

bubble sizeは500~2500程度(推定)

CLC Finishing module(有償Plugin)を導入することでContigをつなげるFinishing作業が可能になる

Page 57: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Contig数=107本に集約

Finishing moduleのJoin Contig機能を使用

Contig数=28本に集約

最大Contig長=1Mbp

Pac bio sequencerなどLong read dataがある場合に使用可

Miseq Pair-end=75万 read

De novo assemble

近縁種のゲノム配列がある場合

Align ContigによりContigを近縁種のゲノム上に配置し

ContigをつなぐためのPrimerの設計を行う

実際のデータ(E.coli genome seq)を用いた時の例

Page 58: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

近縁種参照配列上でのアライ

メント位置(Start-End) アライメントしたContigの

位置(Start-End)

要:Finishing module plugin

Page 59: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

近縁種ゲノム

AlignmentされたContig配列

二つのcontigが繋がっていない

両Contigの末端配列からPrimerを

設計し、個別にシーケンスする

ことでGAPを埋めていく

要:Finishing module plugin

Page 60: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Chipseq、Histone Chip-seq、Bisulfite Sequenceに

対応した解析ツールが用意されています

Page 61: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Bisulfite Sequence解析ツールの動作例Epigenome解析に必要なツールは無償Pluginとして追加できます。工程が多く複雑な

解析操作が必要ですがGWBではクリックだけで解析が完了します。

Bisulfite sequence解析に必要なデータ

1, 参照配列

2, CDSアノテーション

3, 遺伝子アノテーション

4, Bisulfite read data

・mature b-cells

・Stem cell from placenta

メチル化領域の

差異を観察

Page 62: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Bisulfite read 専用のMapping toolで参照配列へ貼り付け 使用したkitにより方法が変わる

Directional protocol

Non-directional protocol

Directional protocol=両方向からゲノムが読まれたRead dataの場合。 すなわちPair-endでForwardからとReverse(complement)で構成される。 Non-directional protocol= ReadがFかRか不明なデータで構成される。

Page 63: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

B-cellとplacenta stem cell(Control)のmapping結果をCall Methylationにより比較

注意:

Pair read のForwardとReverseでは

read先頭塩基の変換効率が異なる

先頭5塩基は解析に考慮しない設定

にする

メチル化率(変更前) メチル化率(変更後)

Page 64: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

ゲノムブラウザ上で塩基置換の有無を観察

B-cell Mapping (Case)

hspc Mapping (Control)

Reference

メチレーションレベルに差のある領域が出力される

Page 65: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

16s 菌叢解析、生物種同定、De novo RNAseqの分析が一つになったPlugin module NGS dataによるMLST解析機能も試験的に含まれます(beta版)

Page 66: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

入手方法:Download Pluginから取得(有償)

Plugin:GWBへ追加可能な機能モジュール群、有償と無償がある。インターネット接続下であれば GWB上でダウンロードして利用可能。 有償Plugin: Microbial Genomics Module/ Finishing module/ IPA pathway toolなど

Page 67: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Metagenome解析モジュール

靴底の泥から採取した16s sequence data

犯罪現場の泥から採取した16s sequence data

他の場所から採取した16s sequence data

ファイル名に“Fixed length”が付与されます

Microbial Genomics Module-> Metagenomics-> Amplicon-based OTU clustering-> Fixed Length Trimming

Page 68: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Readに菌名を割り当てていきます Microbial Genomics Module-> Metagenomics-> Amplicon-based OTU clustering-> OTU clustering

解析対象となる複数のサンプルを指定して実行します

De novo OTU clustering = referenceに依存せず投入されたサンプルのリード配列パターンを基準に頻度を集計します

Reference OTU clustering = referenceをもとにリードへ菌名を付与して頻度を集計します Reference OTU clusteringの場合でもAllow creation of new OTUsにチェックを入れておくとReferenceに存在しないリード配列からOTUを作成してDe novo OTU clustering を実施します。

使用可能な参照配列データベースは3種類 GreenGeen=16s UNITE=ITS SILVA=16s/18s

Page 69: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

OTU clusteringの実行 Tableに解析結果が記録されます

Cnadidatus Solibacter

Acidothermus

Acidobacteriaceae

Blastcatella

Bladyrhizobiaceae

Crime site Boot A Boot B

Page 70: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

クラスター分析を実施することで菌叢の類似性からBootAの菌叢が

犯罪現場(CrimeSite1)の菌叢に近いことが分かる

UniFrac距離に基づく菌叢類似度によるクラスタ解析を実施(PCoA)

Page 71: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Taxonomic Profiling (Microbial Genomics Module)

全メタゲノムシーケンスデータを入力としてどのような生物種がサンプル中に含まれて

いるのかを頻度情報(=リード数)と共に出力するツールです。

事前に参照配列を用意しておく必要があります(Refseq Genome databaseなど)

1, Sequence readを選択します

2, Reference配列を選択します

宿主ゲノム由来のリードが予想される場合はHost Genomeに参照配列を指定しま これにより宿主ゲノムを除いたリードのみがTaxonomy profilingに持ち込まれます

Page 72: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

Taxonomic Profiling結果

Taxonomy :reference databaseに節物種名が記載されていた場合表示 Assembly ID :genbank accession numbersなどのID情報 Combined Abundance :全サンプルを通じての合計リード数. Confidence score for each sample : 当該生物種が検体中に存在したのかの信頼度、0 (low confidence) から 1 (high confidence) の値を とります Nameに(unknown)が含まれている場合、参照配列に完全一致しないリードが有意に多く示されてい

ることを表し、これは参照配列に登録された生物以外の近縁種に由来するリードであることを示唆します。

Page 73: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

RNAseqリードからDenovo assembleを行ってContigを作成し、アノテーションや

リファレンスの存在しない生物種における転写物の解析を行います。

1, De novo assembleの実施 Fast=k merを21に固定してde novo assembleを行います Longer=K merを3回変更してde novo assembleを行います ScaffoldingはPair endリードの場合のみ行えます

2,作成されたコンティグにアノテーションを付与します コンティグ配列に対してORF searchを実行しCDS領域を確定させます。 さらにBlastを使用してPfamアノテーションを付与します。

Functional Analysis (Microbial Genomics Module)

推定されたORF領域

付与されたPfamアノテーション

Page 74: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

・Pfamアノテーション単位の頻度集計結果(アミノ酸配列類似性に基づくPfam情報)

・GOアノテーション単位の頻度集計結果

・Blastアノテーション単位の頻度集計結果

Functional Analysis アノテーションはBlastによる配列相同性に基づき付与されるため、非モデル生物でも発現解析結果を得ることが出来ます

Page 75: CLC Genomics Workbench GWB で行う場合 1, マッピング Variant検出結果- SNP検出位置の遺伝子、アミノ酸変化の 有無が自動で付与される 2, Variant検出

株式会社ワールドフュージョン URL: http://www.w-fusion.com/J/ Tel: 03-3662-0521 Mail: [email protected]

76

弊社ではNGS解析サービスに

積極的に取り組んでいます。

ご質問・お問い合わせは下記まで