de novo assembly and clc genome finishing module...2016/07/22  · sample to insight...

Post on 15-Apr-2020

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Sample to Insight

De novo assembly and CLC Genome Finishing Module

株式会社キアゲン アプライドアドバンストゲノミクス

1

De Novo

Assembly

Design

Primers

Join Contigs Align Contigs Export

Contigs

contigs

against

contigs

contigs

against

related reference

genome

Manual

Editing

Tools

• Join overlapping contigs

• Resolve Misassemblies

• Close gaps

Error

correction

Long Read

Assembly

Sequence PCR

products

Raw

PacBio data

Add Reads

to Contigs

Sample to Insight

データ管理

2

• データロケーション • Genomics Workbench ではデータ保存の階層のトップをLocationと呼びます。

• デフォルトのLocationはCLC_Dataが作成されていますが、左の図のようにLocationは追加可能です。

• Location の新規追加は、Navigation Area 左上のアイコンから作成可能です。シークエンスデータはサイズが大きいため、容量が大きいディスクへLocationを作成することをお勧めします。

• また解析が一通り終了し、バックアップや外付けのディスクへ移動する場合は、このLocation単位での移動をお願いします。

Location

Folder

Location 作成

Folder 作成

Sample to Insight

今日のデータ

3

• データインポート

今日のデータは大腸菌のデータです。IlluminaのデータとPacBioのデータがそれぞれデモデータに入っています。

Sample to Insight

4

CLC Genomics Workbench

データインポート

Sample to Insight

データインポート

5

• リードデータインポート

SAM/BAMインポート*

シークエンサーデータインポート

SAM/BAMファイルは、マッピング後のデータにおいて利用される一般的なフォーマットです。

次世代シークエンサー以外のファイル

アノテーションファイルのインポート

Sample to Insight

データインポート

6

• リードデータインポート:イルミナ

• リードファイルの選択

General options:共通のオプション

• Paired reads: ペアかどうか

• Discard reads names: リード名を捨てるかどうか(捨てないことをお勧め)

• Discard quality scores: クオリティスコアを捨てるかどうか(捨てないことをお勧め)

Paired options:ペアのオプション

• Paired-end: ペアエンドかどうか

• Mate-pair: メイトペアかどうか

ペアを選んだ場合はリード長を含めた距離を入力。

古いバージョンのIlluminaのソフトウェアで処理されたデータの場合は、バージョンを指定。

Sample to Insight

データインポート

7

• リードデータインポート:イルミナ

Result handling:結果の扱い方

• Open: インポート後開く

• Save: インポートして保存

• Into separate folders: データごとにフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。

Sample to Insight

データインポート

8

• リードデータインポート:Ion Torrent

• リードファイルの選択

General options:共通のオプション

• Paired reads: ペアかどうか

• Discard reads names: リード名を捨てるかどうか(捨てないことをお勧め)

• Discard quality scores: クオリティスコアを捨てるかどうか(捨てないことをお勧め)

Paired options:ペアのオプション

• Paired-end: ペアエンドかどうか

• Mate-pair: メイトペアかどうか

ペアを選んだ場合はリード長を含めた距離を入力。

Ion Torrent オプション: .sffファイルでのインポートの場合、Clippingされた情報を使うかどうか、選択できる。

• Fastqかsffを選択可能

Sample to Insight

データインポート

9

• リードデータインポート:Ion Torrent

Result handling:結果の扱い方

• Open: インポート後開く

• Save: インポートして保存

• Into separate folders: データごと

にフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。

Sample to Insight

データインポート

10

• リードデータインポート:Ion Torrent (Unmapped BAMファイル) ※注意

• Ion Torrentのシークエンサーデータを処理するTorrent Suitでは、バージョン3.0以降、デフォルトでは、fastqファイルやsffファイルが作成されず、Unmapped BAM ファイルが作成されます。Unmapped BAM ファイルは、Import > Standard Import よりインポートいただくことで、fastqファイルをインポートした場合と同じようにインポートが可能です。

マッピングデータとしてインポートされます。

リードデータとしてインポートされます。

Sample to Insight

データインポート

11

• ゲノムインポート

• ゲノムデータは、よく知られているモデル動物についてはのDownload Genome よりインポートできます。

Sample to Insight

データインポート

12

• ゲノムインポート

•ドロップダウンリストから生物種を選択。

• Download genome sequence: 新規にゲノムをダウンロードする場合。

• Use exsting genome sequence track: すでにダウンロードしたゲノムにアノテーションを追加する場合。以下のようにトラックのフォーマットになっているゲノムを選択。

Sample to Insight

データインポート

13

• ゲノムインポート

•希望するアノテーションにチェックを入れる。ゲノム配列をダウンロードするときは、Sequences にもチェックを入れる。

•選択した生物種により、表示されるアノテーションの種類は異なります。

Sample to Insight

14

NCBIで検索してインポート

または

• NCBI のサイトに検索をかけて、直接ゲノム配列をダウンロードすることができます

データインポート

Sample to Insight

15

• 検索のキーワードを入れて、Start search をクリックします

• 目的の配列を選択して、Download and Save で配列をダウンロードできます

Search for Sequences at NCBI

データインポート

Sample to Insight

データインポート

16

• アノテーションインポート

• Download Genome 以外にも、アノテーションファイルをインポート可能です。

• アノテーションとして取り込めるファイルは以下のフォーマットです。

• アノテーションファイルをインポートする際には、対象となるゲノム配列がすでにインポートされ、Trackのフォーマットになっていることが前提です。

• VCF

• GFF/GTF/GVF

• BED

• Wiggle

• Complete Genomics Var file

• UCSC Variation table damp

• COSMIC variation database

• ※変異のデータについても、アノテーションとして自分の変異へアノテーションとして情報の追加や比較ができるため、アノテーションのインポート可能フォーマットに含めています。

Sample to Insight

データインポート

17

• アノテーションインポート

• アノテーションのインポートは、Import > Tracks より行います。

Sample to Insight

データインポート

18

• トラックインポート

インポートするファイルのタイプを選択

インポートするファイルを選択

対象とする参照配列(ゲノム配列)を選択。あらかじめインポートされている必要があります。

Sample to Insight

19

クオリティチェックとトリミング

Sample to Insight

クオリティチェックとトリミング

20

• Quality Report作成: Create Sequencing QC Report

• インポートしたリードのクオリティがどのぐらいか、その後のトリミングや、PCR

Duplicate の状況などを確認するためにレポートを作成。

• トリミング: Trim Sequences

• アダプターの除去、クオリティスコアによる除去、長さを指定した除去などを選択・組み合わせてトリミング。

上記処理の後に再度Quality Reportを作成すると処理前と処理後でのリードのクオリティを比較でき、便利です。

Sample to Insight

クオリティトリミング:原理

21

• クオリティスコア

• シークエンサーから出てきたリードは、各塩基ごとにエラーの確率の値を持っている。

• Genomics Workbench へインポートされた時点で、Phred Score に変換されるようになっています。Pred Score は、塩基のエラー確率のLogを取り、-10をかけてスコア化したものです。値が大きくなるほど精度が高いことをあらわしています。

Phred Score Error の確率 Base call の精度

10 1/10 90%

20 1/100 99%

30 1/1,000 99.9%

40 1/10,000 99.99%

50 1/100,000 99.999%

60 1/1,000,000 99.9999%

𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒 = −10 log10 𝑃𝑒𝑟𝑟

Sample to Insight

QCレポート作成:Create Sequencing QC Report

22

• Navigation Areaから使用するリードデータを選択。

• Toolboxから NGS Core Tools > Create Sequencing QC Report を選択、ダブルクリック。

• ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

QCレポート作成:Create Sequencing QC Report

23

• Quality analysis: クオリティスコアに関する解析。

• Over-representations analysis: 過度に現れているような塩基配列などの解析。

• Create graphical report: グラフィカルなレポート作成。

• Create supplementary report: 数値のレポート作成。

• Create duplicated sequence list: 重複のあった配列のリスト作成。

Sample to Insight

QCレポート作成:Create Sequencing QC Report

24

24

• Graphical Report はグラフでのレポートです。

• Supplementary QC Report は、Graphical Report の数字版となり、エクスポートして作図に利用可能です。

Sample to Insight

トリミング原理

25

• 3種類のトリミング

• あらかじめ登録されているアダプターの除去

•新規で独自の配列を登録することも可能 アダプター除去

• Quality Score を使い、Quality の低い配列が連続するようになる箇所からカット

•正確に読めていない塩基をいくつ許容するか クオリティトリミング

•塩基数を指定して、5末端、3末端をカット

• Quality Scoreでカット後、短くなりすぎた配列をカット

長さによる除去

Sample to Insight

クオリティトリミング:原理

26

• クオリティスコア

• Trimming ではQuality Score を使い、累積のQuality Score がある一定の値より大きいものが続いた場合に、その箇所を取り除く、という処理を行います。

• 具体的には以下:

1. Phred Score をp値へ変換

2. Trimming 中に設定するパラメータ(Limit)とp値の差を計算

3. 差の累積和を計算。このとき、0以下の値は0とする

4. Trimming後のリード開始点は累積和がはじめて0以上になった点。Trimming後のリード終了点は累積和が最大の点

𝑃𝑒𝑟𝑟 = 10−𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒

10

Sample to Insight

27

0

20

40

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

リード配列 G C C C A T G T T C G A T G C

Phred score 4 8 15 30 32 23 10 31 31 20 15 11 10 10 9

p値 0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13

Limit - p値 (D) -0.35 -0.11 0.02 0.05 0.05 0.04 -0.05 0.05 0.05 0.04 0.02 -0.03 -0.05 -0.05 -0.08

(D)の累積和 0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06

スタート点:

累積和が0より大きくなった塩基

終了点:

累積和が最大を示す塩基

Phred score の棒グラフ

グラフより、ある程度クオリティが高くなった場所からリードを使い、クオリティが連続して悪くなっている箇所からリードをトリムしていることがわかる。

※途中、1塩基のみクオリティが低いような場合は、必ずしもトリムされない。これはできるだけリードを長く保とうとするため。

Limit = 0.05の場合

クオリティトリミング:原理

原理

27

Sample to Insight

トリミング

28

• Navigation Areaから使用するデータを選択。

• Toolboxから Trim Sequences を選択、ダブルクリック。

• ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

トリミング

29

• Trim using quality scores :トリミングに使用するLimitパラメータを決定

• Trim ambiguous nucleotides:N表

示される塩基について、最大何塩基まで保持させるか。

• 今回はアダプターは設定なし。

Sample to Insight

トリミング

30

Trim bases

• 5末、3末の塩基数を指定してカット

Filter on length

• Quality Scoreによるトリミングであまり

に短いリードの除去など長さによるトリミング

• レポートの作成にチェック。

Sample to Insight

トリミング結果

31

結果

• トリミング後は、トリムされたリードと、レポートを作成を選択した場合は、そのレポートが作成されます。

• トリミング結果のデータはファイル名の後に

trimmed という名前が付いています。ファイル

内容はインポート後のデータ同様に、配列と、クオリティスコアを含んだファイルとなっています。

Sample to Insight

トリミングレポート

32

結果

Sample to Insight

QCレポート 再作成による比較

33

エクササイズ

• トリミング後のデータでレポートを作成してみましょう!

Before After

Sample to Insight

アダプターリストの作成

34

• 作成されたアダプターリストは、Trimmingツールの中で指定することが出来るようになります。

Sample to Insight

35

De novo アセンブリ原理

Sample to Insight

De novo assembly

36

• 原理

• Genomics Workbench では de brujin グラフというネットワーク理論に基づいた方法で de novo アセンブリを実行します。

• 各リードからさらに短い長さの配列のセットを作成し、グラフを作成。

• de Bruijn を利用しているオープンソースの方法ではvelvet が有名です。

ライブラリ配列

リード

Word セット

Sample to Insight

De novo assembly

37

Word Size

de Bruijn グラフではリードを短い配列に分断し(word)、グラフを作成します。

(例) リード長 20, word size = 10 の場合は11個のwordができる。

すべてのリードに対して、同様にWordを作成。

リード

AGTTGATCTTACTAGAGGAA

1 AGTTGATCTT

2 GTTGATCTTA

3 TTGATCTTAC

4 TGATCTTACT

5 GATCTTACTA

6 ATCTTACTAG

7 TCTTACTAGA

8 CTTACTAGAG

9 TTACTAGAGG

10 TACTAGAGGA

11 ACTAGAGGAA

Sample to Insight

De novo assembly

38

グラフ作成 (簡単な例としてWord size = 5 で考える)

AACGT

ACGTC

CGTCA

GTCAA

TCAAG

AACGT – ACGTC – CGTCA – GTCAA - TCAAG

AACGT

ACGTC

CGTCA

CGTCG

GTCAA

TCAAG

CGTCA - GTCAA – TCAAG

AACGT – ACGTC

CGTCG

AACGTCAAG

AACGTCAAG

AACGTCG

Sample to Insight

De novo assembly

39

CGTCA - GTCAA – TCAAG - CAAGT - AAGTC

AACGT – ACGTC AGTCC - GTCCA

CGTCG - GTCGA - TCGAG - CGAGT - GAGTC

CGTCA - GTCAA – TCAAG

AACGT – ACGTC

CGTCG

このように作成される多くのグラフから様々なステップを経て、より確からしいContigを作成していく。

Sample to Insight

40

• Word size = {21,31,41,51,61},

• Bubble size = {200,300,400,500,600}

• 計25パターンの組み合わせをそれぞれトリミング前・トリミング後のデータで実施

Sample to Insight

41

De novo アセンブリ操作方法

Sample to Insight

De novo assembly

42

• Navigation Areaから de novo assembly するデータを選択。

• Toolboxから De Novo Assembly を選択、ダブルクリック。

• ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

De novo assembly

43

Guidance only reads:ここで指定したリードのセット

はグラフ作成には使われず、グラフにより作成されたContigの分岐やリピートを解消するために利用されます。

Contig length:作成するContigの最小長

Paired reads:

Auto-detect paired distances:ペアの距離を自動で推定する

Scaffoldingを行うかどうか。

Graph parameters

• Automatic word size:これにチェックを入れると、Wordサイズは自動で入力されたリード数

に応じて決定される。チェックをはずすと、任意で指定可能となる。

• Automatic bubble size:これにチェックを入れると自動でbubble size が決まる。自動の場合、110bp以下のリード長では50、それ以上ではリードの平均の長さがbubble sizeとなる。チェックをはずすと任意で指定可能。

Sample to Insight

De novo assembly

Title, Location, Date 44

• Create simple contig sequence

(fast):コンティグのみ作成

• Map reads back to contigs (slow):

作成したコンティグにリードを張り付ける。作成されたコンティグの評価などのために行う。あとからリードをマッピング可能。

Sample to Insight

De novo assembly

45

Map read back to contigs を選択した場合のパラメータ

• Mismatch cost:ミスマッチコスト

• Insertion cost:挿入のコスト

• Deletion cost:欠失のコスト

• Length fraction:フィルタリングで対象とする長さ

• Similarity fraction:Length fractionの

うち、どの程度の一致率以上のものを残すか。

• Global alignment:グローバルアライメントの有無

• Color space alignment, cost: SOLID

カラースペースのオプション

• Update contigs:マッピングの結果をContigに反映させるかどうか

• Create list of un-mapped reads:

マップされなかったリードのリストを作成するかどうか。

Sample to Insight

De novo assembly

46

• 結果

• Contig 作成のみ

• Contig にリードをマッピングした場合

• Contig作成のみの場合と、マッピングをした場合は、結果を示すアイコンが少し違うので、気をつけましょう。

Sample to Insight

De novo assembly

47

コンティグのみの場合の結果

• Reportには、N50やMax length などの統計情報

• 作成されたContig はMulti fasta としてエクスポートも可能

Sample to Insight

De novo assembly

48

コンティグのみの場合の結果

• Alternative excluded: グラフからコンティグを作成する際に、枝分かれが排除された個所

• Contigs joined:コンティグが連結された個所

• Scaffold:スキャッフォールドされた場所でNNNが入っている場所

Sample to Insight

De novo assembly

49

結果の見方

• マッピングテーブルの中から興味の対象となるContigを開くと、リードのマッピング結果が表示される。

Sample to Insight

De Novo 注意点

50

クオリティトリミング

• De Novoでは、エラーが多いデータを使うと、非常に複雑なグラフが作成

され、メモリが非常に多く必要となります。データのクオリティを確認しながら、必要に応じて厳しめのトリミングを実行してください。

• クオリティの向上は作成されるContig数を減らすだけでなく、必要となるメモリが少なくなり、計算速度にも影響してきます。

Sample to Insight

De Novo 注意点

51

• パラメータ設定

• 最適なWordサイズは、データ毎に異なります。何度か設定を変えて実行し、最適な値を決定するようになります。まずは自動で行ってみて、自動で決定されたWord sizeの前後10bp、または20bp

など幅をとって値を変更し、N50やContigの数が減少するかなどを見て、最適な値を決定してみてください。

• バブルサイズも同様ですが、バブルサイズを任意で変更して効果があるデータは454やIon PGM

などリード長が長く、ホモポリマーのエラーなどが含まれる場合に改善することがあります(詳細はホワイトペーパーに記載されています)。サイズの設定は、リード長の半分程度から、いくつか値を振って最適な値を検討するようになります。

Sample to Insight

De novo の評価方法

• Contiguity

– N50の値が高いほどよい

– Contigの数が少ないほどよい

– 類似したゲノム、同様のシーケンス法での結果と比較する

• Completeness

– ゲノム領域のどれだけの部分がカバーされたか

• Correctness

– ミスアセンブリのチェック

– コンタミがないか?

Sample to Insight

Microbial Genome Finishing Module 概要

53

• Add Reads to Contigs:リードをコンティグに追加(コンティグは近縁種にマップされていることが前提)

• Align Contigs:コンティグを近縁種にマップ。

• Analyze Contigs:コンティグにリードを張り付けた結果を解析。

• Annotate from Reference:参照配列のアノテーションをコンティグへ付ける。

• Collect Paired Read Statistics:ペアエンドの情報が正しくコンティグに反映されているか確認。

• Create Amplicons:リシーケンスするための個所をアノテーションとしてつけるツール

Sample to Insight

Genome Finishing Module 概要

54

• Create Primers:プライマー設計のためのツール

• Extend Contigs:コンティグにリードをマッピングし、その結果からコンティグを伸長させる。

• Find Sequence:目的の配列を検索するツール。

• Join Contigs:コンティグ同士の連結

• Reassemble Regions:コンティグについて指定した領域を再アセンブリする。

• Remove Extension of Contigs:Extend Contigs にて伸長した部分を削除する。

• Sample Reads:リードが多すぎるような場合に指定した量を取り出すツール

• Correct PacBio Reads (beta): PacBio のエラー補正

• De Novo Assemble PacBio Reads (beta): PacBio アセンブラー

Sample to Insight

Join Contigs

55

• Navigation AreaからIlluminaのコンティグデータを選択。

• Toolboxから Genome Finishing Module > Join Contigs を選択、ダブルクリック。

•ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

Join Contigs

56

• Output options:

Create table of joined contigs: 連結されたコンティグのテーブル作成

Create tble of contigs not joined: 連結

されなかったコンティグのテーブル作成

• Use long reads: PacBio のエラーコレクション後のリードを選択

Sample to Insight

Join Contigs

57

• Joinされた情報はアノテーションとして残っています。

Gap:ギャップのある個所

Old sequence: Joinされる前の配列

Overlap:オーバーラップのあった場所

Sample to Insight

Join Contigs

58

結果

• Joinされたコンティグの方向性や重なった時の状態などが文字で記載されています。

Sample to Insight

Join Contigs

59

結果

• Joinされなかったコンティグと、その理由が記載されている。

Sample to Insight

Align Contigs

60

• Navigation AreaからIlluminaのコンティグデータを選択。

• Toolboxから Genome Finishing Module > Align Contigs を選択、ダブルクリック。

•ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

Align Contigs

61

• References

Use input contigs as reference: コンティグ同士をアライメントさせる場合

Use selected references:指定した参照ゲノムへアライメントさせる場合

• BLAST options

BLAST word size:BLAST検索のWord size

Maximum BLAST e-value:BLAST検索のe-

value。小さい方が厳しい

• Match options

Minimum match size:表示させる際に、一致すべき最小塩基数。

Sample to Insight

Align Contigs

62

結果

•開くとコンティグの情報がまず表示されます。参照ゲノムに張り付いた状態を調べるため、ビューを変更します。

Sample to Insight

Align Contigs

63

表示の変更

•左から2つ目のShow Contigs Match

Table アイコンをクリック。

•各コンティグがどの程度参照ゲノムに張り付いたかを示す表が現れる。

Sample to Insight

Align Contigs

64

表示の変更

•さらに見やすいビューを表示するために、どれか一つコンティグを選択した状態で、Show Contigs Matches ボタンをクリック

Sample to Insight

Align Contigs

65

表示の変更

• Setting パネルより以下を行う

• Compactness をLow

• Show Annotation のチェックを外す

Sample to Insight

Align Contigs

66

•コンティグがきれいに参照ゲノムへ張り付いているのが分かる。色が薄くなっているところは、完全一致していないところだが、同じコンティグにギャップが入ったり、重複があるとこのように表示される。

•ズームイン、ズームアウトでより大きく拡大して塩基レベルでの確認もできる。

Sample to Insight

Map reads to Contigs

67

• Navigation AreaからIlluminaのリードを選択。

• Toolboxから Genome Finishing Module > Map reads to Contigs を選択、ダブルクリック。

•ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

Map reads to Contigs

68

• Contigs used as Reference:参照するコンティグを選択

• Contig masking: マスキングの有無

No masking: マスクなし

Exclude annotated: 指定したアノテーション領域を排除

Include annotated only: 指定したアノテーション領域のみにマップ

• Contig update: マップされた塩基の多数決によりコンティグを補正する

Sample to Insight

Map reads to Contigs

69

• Create reads track: トラックの作成

• Create stand-alone read mappings: スタンドアロンフォーマットの作成

• Create report: レポートの作成

• Collect un-mapped reads: マップされなかったリードをリストとして作成

Sample to Insight

Map reads to Contigs

70

結果

Sample to Insight

Map reads to Contigs

71

Sample to Insight

72

マッピング原理

Sample to Insight

マッピング原理

73

• 2つのステップ

1. ローカルアライメント

• 参照配列と似ている場所を探す

2. フィルタリング

• どの程度参照配列と一致しているリードをその後の解析に残すか

Sample to Insight

マッピング原理

74

• マッピング原理

• スコアリング

• 最適なマップ場所をLocal Alignmentで探索

• Match = 1, Mismatch cost = 2

• リード配列(20bp)が全て一致した場合

CGTATCAATCGATTACGCTATGAATG

||||||||||||||||||||

ATCAATCGATTACGCTATGA

アライメントスコア = 20

Sample to Insight

マッピング原理

75

• マッピング原理

• スコアリング

CGTATCAATCGATTACGCTATGAATG

|||||||||||||||||||

TTCAATCGATTACGCTATGA

CGTATCAATCGATTACGCTATGAATG

|||||| ||||||||||||

TTCAATCAATTACGCTATGA

CGTATCAATCGATTACGCTATGAATG

|||||| ||| |||||||

TTCAATCAATTGCGCTATGC

アライメントスコア = 19

アライメントスコア = 16

アライメントスコア = 10

Sample to Insight

マッピング原理

76

• Affine gap cost :アフィンGapコスト

AATTCGCGCGGCATTCGCGCC

AAATCG----GCATTCGCGCC

50 match 50 + 6 + 4 x (-3) + 11 = 55

50 + 6 = 56

AATTCGCGCGGCATTCGCGCC

AAATCG----GCATTCGCGCC

AATTCGCGCGGCATTCGCGCC

AAATCG----GCATTCGCGCC

50 + 6 + (-6) + 4 x (-1) + 11 = 57

Read

Genome

アフィンGapコストを使った場合 (Gap open = 6, Gap extend = 1)

Linear gap cost の場合(Deletionコストが3の場合)

A

B

C

これまでのマッピングでは、Aのように本来マッピングすべきような場合でも、リードの末端部分をアライメントしない(Bのブルーの箇所)場合のほうが、アライメントスコアが高くなるため、大きな挿入や欠失がうまくマップできていないことがありました。アフィンGapコストの場合、このような問題を防ぐことができます。またGapを開くときのコスト(Open)と延長するときのコスト(Extend)が別に設定できることで、より細かくコントロールが可能になる場合があります。

Sample to Insight

マッピング原理

77

• マッピング原理

• フィルタリング

• 最も高いアライメントスコアにマップされたリードのうち、どの程度参照配列と類似しているリードをその後の解析に残すのかを決定します。

Sample to Insight

マッピング原理

78

• フィルタリング原理

• Length FractionとSimilarity パラメータを使って、どの程度アライメントされたリードを、マッピングされたものとして保持するか、決定します。

• Length Fraction とSimilarity は2つのパラメータの組み合わせで使用されます。

• Length fraction: フィルターをかける際に、考慮する長さ

• Similarity: Length Fraction で指定した長さのうち、どの程度類似しているものを残すか。

リード長:100 bp

デフォルトのLength Fraction, 0.5 100 bp x 0.5 = 50 bp,

デフォルトのSimilarity 0.8 50bp x 0.8 = 40 50塩基中40塩基が完全一致していることがフィルタリングの条件となる

Reference

Sample to Insight

マッピング原理

79

• 2つのパラメータを使う理由

– リードの一部は似ているけれども、大きな挿入や、欠失によりリードの一部が参照配列と一致しない可能性がある場合

– トリミングが完全にできなかったクオリティの低い配列が末端部にある場合

(Length Fraction を小さくすることで、リードの一部に限定してアライメントの類似度を設定できる)

– 参照配列とほぼ一致するが、所々、1塩基の変異があると想定される場合

Reference

Reference

Sample to Insight

Analyze Contigs

80

• Navigation Areaからリードをマップしたコンティグを選択。

• Toolboxから Genome Finishing Module > Analyze Contigs を選択、ダブルクリック。

•ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

Analyze Contig

81

• General Parameters:

Minimum length:アノテーションする最小の長さ

Minimum distance to contig ends:コンティグの端の長さ

Ignore scaffold regions:Scaffold領域を無視するかどうか

• Coverage

Detect sudden change in coverage:カバレッジの急激な変化を検出させるか

Detect low coverage: 低いカバレッジ側の設定

Detect high coverage: 高いカバレッジ側の設定

• Unaligned reads

Detect unaligned read ends: アライメントされなかったリード末端の検出

Sample to Insight

Analyze Contig

82

• Single stranded coverage: 1種類の方向のみのリードがマップされている領域の検出

• Nonspecific coverage: 繰り返し領域など、ユニークでない領域の検出

• Broken pairs: ペアが保たれていない個所の検出

Sample to Insight

Analyze Contig

83

• Output options

Add analysis annotations:結果をアノテーションとして付加するかどうか

Create report:レポート作成の有無

Include contig specific statistics:コンティグ別に作成するかどうか

• Create annotation table:アノテーションの詳細を示すテーブルの作成

Sample to Insight

Analyze Contig

84

結果

Sample to Insight

Analyze Contig

85

結果

Sample to Insight

Create Amplicons

86

•リシーケンスを行う領域を指定するため、まずはAnalyze

Contigs でアノテーションを付けたコンティグを抜き出します。

•コンティグをすべて選び、Extract Contigs を選択

Sample to Insight

Create Amplicons

87

結果

•アノテーションが付いた状態のコンティグが作成できました。

Sample to Insight

Create Amplicons

88

• Navigation Areaからコンティグを選択。

• Toolboxから Genome Finishing Module > Create Amplicons を選択、ダブルクリック。

•ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

Create Amplicons

89

•Amplicon options: 作成したいアンプリコン

の長さを入れる。オーバーラップを許す場合、その長さも

•Amplicon placement: アンプリコンを作成したいアノテーションを選択

Sample to Insight

Create Amplicons

90

•コンティグにアンプリコンと言うアノテーションが付いたことが確認できます。

Sample to Insight

Create Primers

91

• Navigation Areaからコンティグを選択。

• Toolboxから Genome Finishing Module > Create Primers を選択、ダブルクリック。

•ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

Create Primers

92

• Select regions to amplify: 増幅した

い領域のアノテーションを選ぶ。今回はアンプリコンとしてアノテーションを付けているので、アンプリコンを選ぶ。

• Primer type: PCR, Sequence

Forward, Sequence Reverse より選ぶ

• Edge Primers: チェックを入れると、

対象となる配列向きにプライマーが設計される。

• Primer placement: プライマー設計する位置

Sample to Insight

Create Primers

93

Sample to Insight

Create Primers

94

• Mispriming parameters: 間違ったプライ

マーのチェックを行うかどうか、完全一致するもののみを作成するかどうか

• Primerの名前の付け方

Sample to Insight

Create Primers

95

•プライマーはアノテーションとしても確認できる。

Sample to Insight

Create Primers

96

•プライマー配列はテーブルから閲覧でき、このままExportできる

Sample to Insight

まとめ

• Genome Finishing Module はフィニッシングに必要な様々なステップをできるだけマニュアル作業なしで行えるツール群です。

• ビューアと組み合わせることでイメージしやすく、より効率的なフィニッシング作業が行えます。

• Genome Finishing Module はワークフローツールと組み合わせることで、自動化が可能です。

97

Sample to Insight

98

PacBio 101

Sample to Insight

PacBio 101

Title, Location, Date 99

• Why long reads?

Lee H, Gurtowski J, Yoo S: Error correction and assembly complexity of single molecule sequencing reads. bioRxiv 2014:1–17.

Sample to Insight

PacBio 101

Title, Location, Date 100

Koren S, Phillippy AM: One chromosome, one contig: complete microbial genomes from long-read sequencing

and assembly. Curr Opin Microbiol 2015, 23:110–120.

Sample to Insight

PacBio 101

Title, Location, Date 101

• Comparison with short reads technology

• These are rRNA regions which contains highly repetitive sequences.

Miyamoto M, Motooka D, Gotoh K, Imai T, Yoshitake K, Goto N, Iida T, Yasunaga T, Horii T, Arakawa K, Kasahara M, Nakamura S: Performance comparison of

second- and third-generation sequencers using a bacterial genome with two chromosomes. BMC Genomics 2014, 15:699.

Sample to Insight

PacBio アセンブラー

102

ワークフローが搭載されており、このワークフローを実行すると自動でエラー補正、アセンブリが実行できます。

Sample to Insight

103

お疲れ様でした。

top related