clc genomics workbench ハンズオントレーニング …...sample to insight データ管理 2...

Sample to Insight

1

CLC Genomics Workbench

ハンズオントレーニング

RNA-seq 編

株式会社キアゲン

Sample to Insight

データ管理

2

データロケーション • Genomics Workbench ではデータ保存の階層のトップをLocationと呼びます。

• デフォルトのLocationはCLC_Dataが作成されていますが、左の図のようにLocationは追加可能です。

• Location の新規追加は、Navigation Area 左上のアイコンから作成可能です。シークエンスデータはサイズが大きいため、容量が大きいディスクへLocationを作成することをお勧めします。

• また解析が一通り終了し、バックアップや外付けのディスクへ移動する場合は、このLocation単位での移動をお願いします。

Location

Folder

Location 作成

Folder 作成

Sample to Insight

今日のデータ

3

データインポート

MacはMac用フォルダに入っています。シークエンスリードは、それぞれのreads というフォルダに入っています。

今日のデータはドロソフィラのデータです。サンプルごとに、性別（Male, Female）の情報や、種類、RNA抽出法による違いなどが含まれています。それらの情報は別途インポートし、解析に利用します。また、別途ドロソフィラのfastqファイルを圧縮したファイルも使用します。

Sample to Insight

今日のデータ

4

インポート

これらのパラメータの詳細については、後述します。

Sample to Insight

今日のデータ

5


同じフォルダへ全データを保存してください。

正しくインポートできれいれば、上記のようになっています。

Sample to Insight

今日のデータ

6

インポート

同様に、SRR1543488 sampled.fastq.gz もインポートします。圧縮したままでもインポート可能です（Workbenchが解凍します）。

Sample to Insight

今日のデータ

7

インポート

先ほどのデータとは違うフォルダへ保存してください。

Sample to Insight

今日のデータ

8

リファレンスとアノテーションのインポート

Import > Standard Import DrosophilaReferences.zip を解凍しないまま選択。

Sample to Insight

今日のデータ

9

インポート結果

DrosophilaReferences というフォルダができ、中にゲノムやアノテーションができています。これらアノテーションについても、後述します。

Sample to Insight

RNA-seq：原理

10

Pepke, S.; Wold, B. & Mortazavi, A.

Computation for ChIP-seq and RNA-seq studies

Nature methods, Nature Publishing Group, 2009, 6, S22-

S32

RNA抽出

cDNA作成

Gene, Transcriptへマッピング

Sample to Insight

RNA-seq、発現差解析

11

一般的な解析の

QC

トリミング

RNA-seq

QC

トリミング

RNA-seq

QC

トリミング

RNA-seq

QC

トリミング

RNA-seq

実験デザイン登録

発現差解析

Case Control

クラスタリングベン図での比較

Sample to Insight

12

CLC Genomics Workbench


Sample to Insight


13

リードデータインポート

SAM/BAMインポート*

シークエンサーデータインポート

SAM/BAMファイルは、マッピング後のデータにおいて利用される一般的なフォーマットです。

次世代シークエンサー以外のファイル

アノテーションファイルのインポート

Sample to Insight


14

リードデータインポート：イルミナ

• リードファイルの選択

General options：共通のオプション

• Paired reads: ペアかどうか

• Discard reads names: リード名を捨てるかどうか（捨てないことをお勧め）

• Discard quality scores: クオリティスコアを捨てるかどうか（捨てないことをお勧め）

Paired options：ペアのオプション

• Paired-end: ペアエンドかどうか

• Mate-pair: メイトペアかどうか

ペアを選んだ場合はリード長を含めた距離を入力。

古いバージョンのIlluminaのソフトウェアで処理されたデータの場合は、バージョンを指定。

Sample to Insight


15

リードデータインポート：イルミナ

Result handling：結果の扱い方

• Open: インポート後開く

• Save: インポートして保存

• Into separate folders: データごとにフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。

Sample to Insight


16

リードデータインポート：Ion Torrent

• リードファイルの選択

General options：共通のオプション

• Paired reads: ペアかどうか

• Discard reads names: リード名を捨てるかどうか（捨てないことをお勧め）

• Discard quality scores: クオリティスコアを捨てるかどうか（捨てないことをお勧め）

Paired options：ペアのオプション

• Paired-end: ペアエンドかどうか

• Mate-pair: メイトペアかどうか

ペアを選んだ場合はリード長を含めた距離を入力。

Ion Torrent オプション: .sffファイルでのインポートの場合、Clippingされた情報を使うかどうか、選択できる。

• Fastqかsffを選択可能

Sample to Insight


17

リードデータインポート：Ion Torrent

Result handling：結果の扱い方

• Open: インポート後開く

• Save: インポートして保存

• Into separate folders: データごと

にフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。

Sample to Insight


18

リードデータインポート：Ion Torrent (Unmapped BAMファイル) ※注意

Ion Torrentのシークエンサーデータを処理するTorrent Suitでは、バージョン3.0以降、デフォルトでは、fastqファイルやsffファイルが作成されず、Unmapped BAM ファイルが作成されます。Unmapped BAM ファイルは、Import > Standard Import よりインポートいただくことで、fastqファイルをインポートした場合と同じようにインポートが可能です。

マッピングデータとしてインポートされます。

リードデータとしてインポートされます。

Sample to Insight


19

ゲノムインポート

ゲノムデータは、よく知られているモデル動物についてはのDownload Genome よりインポートできます。

Sample to Insight


20


• ドロップダウンリストから生物種を選択。

• Download genome sequence: 新規にゲノムをダウンロードする場合。

• Use exsting genome sequence track: すでにダウンロードしたゲノムにアノテーションを追加する場合。以下のようにトラックのフォーマットになっているゲノムを選択。

Sample to Insight


21


• 希望するアノテーションにチェックを入れる。ゲノム配列をダウンロードするときは、Sequences にもチェックを入れる。

• 選択した生物種により、表示されるアノテーションの種類は異なります。

Sample to Insight

22

NCBIで検索してインポート

または

• NCBI のサイトに検索をかけて、直接ゲノム配列をダウンロードすることができます


Sample to Insight

23

• 検索のキーワードを入れて、Start search をクリックします

• 目的の配列を選択して、Download and Save で配列をダウンロードできます

Search for Sequences at NCBI


Sample to Insight


24

アノテーションインポート

• Download Genome 以外にも、アノテーションファイルをインポート可能です。

• アノテーションとして取り込めるファイルは以下のフォーマットです。

• アノテーションファイルをインポートする際には、対象となるゲノム配列がすでにインポートされ、Trackのフォーマットになっていることが前提です。

• VCF

• GFF/GTF/GVF

• BED

• Wiggle

• Complete Genomics Var file

• UCSC Variation table damp

• COSMIC variation database

※変異のデータについても、アノテーションとして自分の変異へアノテーションとして情報の追加や比較ができるため、アノテーションのインポート可能フォーマットに含めています。

Sample to Insight


25

アノテーションインポート

アノテーションのインポートは、Import > Tracks より行います。

Sample to Insight


26

トラックインポート

インポートするファイルのタイプを選択

インポートするファイルを選択

対象とする参照配列（ゲノム配列）を選択。あらかじめインポートされている必要があります。

Sample to Insight

27

クオリティチェックとトリミング

Sample to Insight

クオリティチェックとトリミング

28

Quality Report作成: Create Sequencing QC Report

• インポートしたリードのクオリティがどのぐらいか、その後のトリミングや、PCR

Duplicate の状況などを確認するためにレポートを作成。

トリミング: Trim Sequences

• アダプターの除去、クオリティスコアによる除去、長さを指定した除去などを選択・組み合わせてトリミング。

上記処理の後に再度Quality Reportを作成すると処理前と処理後でのリードのクオリティを比較でき、便利です。

Sample to Insight

クオリティトリミング：原理

29

クオリティスコア

シークエンサーから出てきたリードは、各塩基ごとにエラーの確率の値を持っている。

Genomics Workbench へインポートされた時点で、Phred Score に変換されるようになっています。Pred Score は、塩基のエラー確率のLogを取り、-10をかけてスコア化したものです。値が大きくなるほど精度が高いことをあらわしています。

Phred Score Error の確率 Base call の精度

10 1/10 90%

20 1/100 99%

30 1/1,000 99.9%

40 1/10,000 99.99%

50 1/100,000 99.999%

60 1/1,000,000 99.9999%

𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒 = −10 log10 𝑃𝑒𝑟𝑟

Sample to Insight

QCレポート作成：Create Sequencing QC Report

30

• Navigation Areaから使用するリードデータを選択。

• Toolboxから NGS Core Tools > Create Sequencing QC Report を選択、ダブルクリック。

• ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight


31

• Quality analysis: クオリティスコアに関する解析。

• Over-representations analysis: 過度に現れているような塩基配列などの解析。

• Create graphical report: グラフィカルなレポート作成。

• Create supplementary report: 数値のレポート作成。

• Create duplicated sequence list: 重複のあった配列のリスト作成。

Sample to Insight


32

32

• Graphical Report はグラフでのレポートです。

• Supplementary QC Report は、Graphical Report の数字版となり、エクスポートして作図に利用可能です。

Sample to Insight

トリミング原理

33

3種類のトリミング

• あらかじめ登録されているアダプターの除去

•新規で独自の配列を登録することも可能アダプター除去

• Quality Score を使い、Quality の低い配列が連続するようになる箇所からカット

•正確に読めていない塩基をいくつ許容するかクオリティトリミング

•塩基数を指定して、5末端、3末端をカット

• Quality Scoreでカット後、短くなりすぎた配列をカット

長さによる除去

Sample to Insight


34

クオリティスコア

Trimming ではQuality Score を使い、累積のQuality Score がある一定の値より大きいものが続いた場合に、その箇所を取り除く、という処理を行います。

具体的には以下：

1. Phred Score をp値へ変換

2. Trimming 中に設定するパラメータ（Limit）とp値の差を計算

3. 差の累積和を計算。このとき、0以下の値は0とする

4. Trimming後のリード開始点は累積和がはじめて0以上になった点。Trimming後のリード終了点は累積和が最大の点

𝑃𝑒𝑟𝑟 = 10−𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒

10

Sample to Insight

35

0

20

40

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

リード配列 G C C C A T G T T C G A T G C

Phred score 4 8 15 30 32 23 10 31 31 20 15 11 10 10 9

p値 0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13

Limit - p値 (D) -0.35 -0.11 0.02 0.05 0.05 0.04 -0.05 0.05 0.05 0.04 0.02 -0.03 -0.05 -0.05 -0.08

(D)の累積和 0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06

スタート点：

累積和が0より大きくなった塩基

終了点：

累積和が最大を示す塩基

Phred score の棒グラフ

グラフより、ある程度クオリティが高くなった場所からリードを使い、クオリティが連続して悪くなっている箇所からリードをトリムしていることがわかる。

※途中、1塩基のみクオリティが低いような場合は、必ずしもトリムされない。これはできるだけリードを長く保とうとするため。

Limit = 0.05の場合


原理

35

Sample to Insight

トリミング

36

• Navigation Areaから使用するデータを選択。

• Toolboxから Trim Sequences を選択、ダブルクリック。

• ウィザードが起動し、選択したデータが選ばれていることを確認。

Sample to Insight

トリミング

37

• Trim using quality scores ：トリミングに使用するLimitパラメータを決定

• Trim ambiguous nucleotides：N表

示される塩基について、最大何塩基まで保持させるか。

• 今回はアダプターは設定なし。

Sample to Insight

トリミング

38

Trim bases

• 5末、3末の塩基数を指定してカット

Filter on length

• Quality Scoreによるトリミングであまり

に短いリードの除去など長さによるトリミング

• レポートの作成にチェック。

Sample to Insight

トリミング結果

39

結果

• トリミング後は、トリムされたリードと、レポートを作成を選択した場合は、そのレポートが作成されます。

• トリミング結果のデータはファイル名の後に

trimmed という名前が付いています。ファイル

内容はインポート後のデータ同様に、配列と、クオリティスコアを含んだファイルとなっています。

Sample to Insight

トリミングレポート

40

結果

Sample to Insight

QCレポート再作成による比較

41

エクササイズ

• トリミング後のデータでレポートを作成してみましょう！

Before After

Sample to Insight

アダプターリストの作成

42

• 作成されたアダプターリストは、Trimmingツールの中で指定することが出来るようになります。

Sample to Insight

43

メタデータインポート

Sample to Insight

メタデータとは

44

サンプルが持っている情報

• 今回のデータでは、DGRP_Number(種類)、性別、環境、RNA抽出法などの情報が含まれています。解析の際に、これらを考慮して解析を行うことが可能です。

• Workbenchへインポートして利用するため、リードデータと照らし合わせられる列を用意します（この例では、SRR_ID。部分一致可能）

• 今回は、DGRPのグループ間で差が見られる遺伝子を抽出することをゴールとします。

Sample to Insight


45

• Import > Import Metadata • Import Metadata ウィザードが起動します。（設定は次のページで記載）

Sample to Insight


46

• ダウンロードしたデモデータに含まれるDrosophilaMetadata.xlsxを選択。

• メタデータはエクセルで準備し、インポートしたリードデータとマッチできる列を用意しておく。

Sample to Insight


47

• マッチした列に緑のチェックマークが入っていることを確認

Sample to Insight


48

メタデータテーブルからデータを選択、Find Associate Data をクリック

Sample to Insight


49

インポートされたデータが表示される。

Sample to Insight

50

RNA-seq

Sample to Insight

Advanced RNA-seq プラグイン

51

ツール群

RNA-seq 専用解析ツール

• PCA for RNA-seq

• RNA-seqデータ用の主成分分析。メタデータをPCA結果に反映可能。

• Differential Expression for RNA-seq

• 発現差解析。

• 多因子の検定が行える。

• Create Heat Map for RNA-seq

• 2次元（遺伝子とサンプル）でのクラスタリング

• Create Venn Diagram for RNA-seq

• ベン図

Sample to Insight

Advanced RNA-seq プラグイン

52

注意点

• Advanced RNA-seq に含まれるツールはいずれ置き換わる予定ですが、現在は似たような名前のツールが複数あるため、注意が必要です。

Sample to Insight

RPKM, FPKM, TPM

53

リード数を発現量へ変換

• 次世代シークエンサーから出てきたリード配列は、ゲノム上で最も類似した領域へ貼り付けられます（マップ、マッピング）。*正確にはアライメント。

• リードがマッピングされる本数が多い→発現量が高かった、少ないという事は、RNAが多かったと考え、発現量へ換算します。

• リード数を発現量へ換算する方法は、いくつか提案され、RPKM、FPKMなどが使われ最近はTPMが良いとされています。

Sample to Insight

RPKM (Read Per Kilobase Million)

Title, Location, Date 54

リード数から発現量へ

Gene 1: 300bp

10 reads

Gene 2: 400bp

13 reads

Gene 3: 500bp

15 reads

Sample A

Total reads:

6M RPKM=10/(0.3*6)

=5.55

RPKM=13/(0.4*6)

=5.42

RPKM=15/(0.5*6)

=5.0

RPKM =エクソン領域にマップされたリード数

そのサンプルにマップされた全リード数(百万単位) ×エクソンの長さ（𝑘𝑏）

Sample to Insight

RPKMとFPKM

Title, Location, Date 55

FPKM（Fragment Per Kilobase Million）

Single end Pair end

Fragment

• RPKMでは、リードをカウント

• FPKMでは、ペアエンドのリードを考慮し、フラグメントを基準にカウント。ペアエンドのリード両方がターゲットとしているFragmentにマップされれば１．片割れだけがマップされた場合は、それを１とカウント。

Sample to Insight

TPM

56

TPM (Transcript Per Million)

RPKMの問題点: ノーマライズ後の合計がサンプル間で異なるので、比較しにくい。

Sample A Sample B

Gene 1 293 83

Gene 2 396 538

Gene 3 59 474

⋮ ⋮ ⋮

Total 439,051 437,592

Sample A, RPKM Sample B, RPKM

Gene 1 256.5 71.6

Gene 2 634.2 848.9

Gene 3 86.2 682.3

⋮ ⋮ ⋮

Total 713,188.3 642,897.9

Sample to Insight

TPM

57

TPM (Transcript Per Million)

遺伝子の長さでノーマライズした後の値を使い、マップされたリード数を計算。ノーマライズに使用。

これは、遺伝子の長さをノーマライズした後の値を使って、マップされた総数を計算し、ノーマライズに使っているため。ノーマライズ後の総数が同じになっているため、サンプル間の比較が容易に。

Sample A Sample B

Gene 1 293 83

Gene 2 396 538

Gene 3 59 474

⋮ ⋮ ⋮

Total 439,051 437,592

Sample A, TPM Sample B, TPM

Gene 1 359.6 111.3

Gene 2 889.2 1320.5

Gene 3 120.9 1061.2

⋮ ⋮ ⋮

Total 1,000,000 1,000,000

Sample to Insight

RNA-seq

58

全データのRNA-seqの処理は時間がかかるため、実際には実行しませんが、パラメータなど確認してください。

• インポートしたリードを選択 • Transcriptomics Analysis > RNA-seq

Analysis > RNA-seq Analysis を選択

Sample to Insight

RNA-seq

59

• 選択したデータが表示されていることを確認

• バッチをチェック

• バッチ処理を行うデータが確認されます。

Sample to Insight

RNA-seq

60

• RNA-seqに使うリファレンスを選択

Sample to Insight

RNA-seq

61

• マッピングパラメータを選択。パラメータの詳細はマッピングのアルゴリズム原理にて説明

• Expression value: リードカウントを使うので、デフォルトのTotal counts のまま

• もし非モデル生物を使い、アノテーションがない場合は、Calculate RPKM for genes

without transcripts にチェックを入れる

Sample to Insight

RNA-seq

62

Sample to Insight

RNA-seq解析結果について

63

全データ処理は時間がかかるため、今日は結果をインポートします。

Sample to Insight

RNA-seq 結果の閲覧

64

このように結果がインポートされます。

• GE：Gene Expression。遺伝子レベルの発現データ

• TE : Transcript Expression。トランスクリプトレベルの発現データ

• Reads：マッピング結果

• Report : RNA-seqによるマッピング結果

Sample to Insight


65

Track list の作成

• Track List では好きなビューを作成できますが、今回はゲノムと、遺伝子、mRNAと複数のマッピング結果でビューを作成します。

• ビューに含めたいデータを選択。

Sample to Insight


66

トラックリストの作成

Sample to Insight

メタデータへ結果の追加

67

本来は、バッチ処理を実行すると、自動的に結果はメタデータテーブルへ登録されますが、このトレーニングでは別途結果をインポートしているため、指定して登録する必要があります。

• メタデータテーブルを開く

• Associate Data Automatically を選択

• インポートした結果から、各フォルダを開いて(GE)が付いているファイルを選択。

Sample to Insight

68

• Role へExpression Data と入力。Roleについては後述

• メタデータテーブルと名前が一部一致のため、Matching Scheme ではPartial を選択

Sample to Insight

69

• 改めてMetadata Table を開き、Find Associationをクリック

• 関連付けをしたExpression Data がわかる。Role では、そのデータの役割を分類として使い、フィルタリングに活用できる。

Sample to Insight

70

RNA-seqマッピング原理

Sample to Insight

マッピング原理

71

2つのステップ

1. ローカルアライメント

参照配列と似ている場所を探す

2. フィルタリング

どの程度参照配列と一致しているリードをその後の解析に残すか

Sample to Insight


72


スコアリング

最適なマップ場所をLocal Alignmentで探索

Match = 1, Mismatch cost = 2

リード配列（20bp）が全て一致した場合

CGTATCAATCGATTACGCTATGAATG

||||||||||||||||||||

ATCAATCGATTACGCTATGA

アライメントスコア = 20

Sample to Insight


73


スコアリング


|||||||||||||||||||

TTCAATCGATTACGCTATGA


|||||| ||||||||||||

TTCAATCAATTACGCTATGA


|||||| ||| |||||||

TTCAATCAATTGCGCTATGC




Sample to Insight


74

フィルタリング

最も高いアライメントスコアにマップされたリードのうち、どの程度参照配列と類似しているリードをその後の解析に残すのかを決定します。

Sample to Insight


75

フィルタリング原理

Length FractionとSimilarity パラメータを使って、どの程度アライメントされたリードを、マッピングされたものとして保持するか、決定します。

Length Fraction とSimilarity は２つのパラメータの組み合わせで使用されます。

Length fraction: フィルターをかける際に、考慮する長さ

Similarity: Length Fraction で指定した長さのうち、どの程度類似しているものを残すか。

リード長：100 bp

デフォルトのLength Fraction, 0.8 100 bp x 0.8 = 80 bp,

デフォルトのSimilarity 0.8 80bp x 0.8 = 64 80塩基中64塩基が完全一致していることがフィルタリングの条件となる

Reference

Sample to Insight


76

２つのパラメータを使う理由

– リードの一部は似ているけれども、大きな挿入や、欠失によりリードの一部が参照配列と一致しない可能性がある場合

– トリミングが完全にできなかったクオリティの低い配列が末端部にある場合

（Length Fraction を小さくすることで、リードの一部に限定してアライメントの類似度を設定できる）

– 参照配列とほぼ一致するが、所々、１塩基の変異があると想定される場合

Reference

Reference

Sample to Insight

77

PCA

Sample to Insight

PCA

78

メタデータテーブルからのデータ選択

• Find Associated Dataをクリック

• Roleのヘッダーをクリック。Roleでソートされる。

• Role がExpression Data となっているもののみを選択

Sample to Insight

PCA

79

• Transcriptomics Analysis > RNA-

seq Analysis > PCA for RNA-seq

を選択

• メタデータテーブルで選択したデータが選ばれていることを確認

Sample to Insight

PCA

80

結果

Sample to Insight

PCA

81

結果：ビューの変更

Sample to Insight

82

発現差解析

Sample to Insight

発現差解析

83

発現差解析手法：edgeRと同等の方法が搭載されています。

手法入力仮定する分布ノーマライズ法検定

edgeR カウントデータ負の二項分布 TMM/Upper

quantile/RLE

Exact Test/一般化線形モ

デルを使った検定

DESeq2 カウントデータ負の二項分布 Size Factor 一般化線形モデルを使っ

た検定

baySeq カウントデータ負の二項分布 Size Factor ベイズ法

Cuffdiff 2 (Cufflinks) FPKM ベータ負の二項分布 Geometric/Upper

quantile/FPKM

t検定

カウントデータとは？

• 身長や体重などは連続値のデータ。正規分布は連続値のための分布。

例：マイクロアレイの計測値

• 頻度や回数、個数などは離散値のデータとして異なる分布を使います。

例：RNA-seqにおいてリードが遺伝子領域にマップされた本数

Sample to Insight

発現差解析

84

• メタデータテーブルを開き、Maleのデータを選択し、Find Associated Data をクリック。


seq Analysis > Differential

Expression for RNA-seq をクリック

Sample to Insight

発現差解析

85


• Experiment design ではメタデータテーブ

ルを選択し、その列情報からケースとコントロースの設定を行います。

• Test differential …: ケースとコントロールとなる情報を含む列。

• While controlling for: 発現差に影響を与えたくない要因

Sample to Insight

発現差解析

86


Sample to Insight

87

クラスタリング

Sample to Insight


88


seq Analysis > Create Heat Map for

RNA-seq をクリック

Sample to Insight


89


• Distance：クラスタリングで使用する距離。

発現量の高い、低いといった値でのクラスタリングは、距離（Euclidean,

Manhattan）、発現量の相関は、Correlationを使う。

• Clusters : クラスターを作った後に、代表値として使用する値。

Sample to Insight


90

• Filter settings: Fixed number of features,

Filter by Statistics, Specify features より

選択。選択したオプションに応じて、下の設定がアクティブになる。

• Keep fixed number of features:指定した遺

伝子の個数でクラスタリング。使われる遺伝子は、変動係数が大きいものから使用。

• Filter by statistics: 発現差解析の結果を使って、p-valueなどでフィルタリングしてクラスタリングに使う遺伝子を決める。

• Specify features: 遺伝子のリストを選択し、クラスタリング。

Sample to Insight


91

結果：メタデータでクラスタリングされた結果が、何に起因しているのかを見ると、RNA prep method によって分類されている。。。

Sample to Insight


92

再度設定を変更してクラスタリング

Sample to Insight

93

• 前回と同じ

Sample to Insight


94

• Filter by statistics を選択

• 発現差解析の結果を指定。

Sample to Insight


95

今度はきれいに種別にクラスタリング出来た

Sample to Insight

96

ベン図

Sample to Insight

ベン図

97

発現差解析の結果を使用。最大３つのグループを使ったベン図が描ける


seq Analysis > Create Venn

Diagram for RNA-seq をクリック

Sample to Insight

ベン図

98

結果

Sample to Insight

ベン図

99

ベン図でわけられた遺伝子のリストの取得

• ベン図の結果を２つ開き、表示を変える

• ベン図上でクリックした分画がテーブルビューで選択されている。

Sample to Insight

100

お疲れ様でした。

Sample to Insight

101

補足資料

Sample to Insight

102

CLC Genomics Workbench ワークフロー

Sample to Insight

ワークフローについて

103

一連の解析をひとつのフローに

ワークフローツールは、様々な解析ツールを、フローチャートのようにつなげて、ひとつの解析のように実施することが可能です。

解析ツールをつなげてひとつの解析のようにすることを「解析パイプラインを作る」とも言いますが、Genomics Workbench の中では、解析パイプラインをワークフローと呼んでいます。

QC

トリミング

マッピング

Local Realignment

変異検出

アミノ酸置換

遺伝子名付加

Sample to Insight

Workflow：作成

104

解析ツールの追加方法

２つの方法でツールを追加できます。

Add elements ボタンから追加

Sample to Insight

Workflow：作成

105

解析ツールの追加方法

Toolbox からドラッグアンドドロップで追加

Sample to Insight

Name of the tool を rename して、

わかりやすい名前にすることができます

Workflow：作成

ツールの配置

※各ツールのことを workflow element と呼びます

インプット

アウトプット

ツール名

106

Sample to Insight

解析の際に必要な reference 配列やパラメータなどを設定します

ダブルクリック、または右クリックで

configure を選択

reference

パラメータ

データのロック・

アンロックを指定

Workflow：作成

workflow element （ツール）のパラメータ設定

107

Sample to Insight

各 workflow element （ツール）の連結

次の解析で使う出力データと次の解析の Input box をつなぎます

方法1.

出力データをドラッグして

次の解析の Input box

とつなぎます

方法2.

出力データを右クリック

Connect Reads Track to…

から任意選択します

Workflow：作成

108

Sample to Insight

出力データを右クリックして Use as Workflow Outputで指定します。途中で出力・保存されるデータについても全て指定します（下図では、Mapping Report, Un-mapped Reads）

Workflow：作成

Output ファイルの指定

109

Sample to Insight

最初の入力データを受け取る workflow element （ツール）の Input box を右クリック、Connect to Workflow Input を選択します。

下図のようなWorkflow Input のボックスが作成されます。

このボックスをドラッグして、別のワークフローの最初の element とつなげることで、同じデータを複数のワークフローに対して渡して実行することができます。

右クリックのメニューからLayout を選択すると自動的に Workflow が整列されます

Workflow：作成

Input ファイルの指定

110

Sample to Insight

Validation

• 必要な操作について表示されます

• 操作が必要な部分は赤字で表示されます

• 次のようなメッセージが表示されたら、Workflow を作成したら保存します

• Validation にパスした workflowでは、下記のようなメッセージが表示されます。

Workflow：作成

111

Sample to Insight

Installation ボタンをクリックします

Workflow

配布

Workflow Installation File を作成することにより、workflow を配布することができます。

112

Sample to Insight

Workflow

配布

下記ダイアログに情報を入力します

• Author Information: 名前、メール、組織名

• Workflow Name:Workflow の名前

※workflow の IDは、組織名＋

Workflowの名前から成ります。

• Workflow description: Workflow の説明

テキストまたは HTML (ver3.1互換)

• Icon (16 x 16 pixels gif or png)

• Version (major and minor)

• ※ 新しいバージョンを出したい時には、新たにバージョン情報を変えた

Workflow Installation File を作成します。

113

Sample to Insight

workflow のインストール先のコンピュータまたは配布用ファイルの作成を選択します

Workflow

配布

114

Sample to Insight

Workflow

実行

Toolbox の Workflow の下から workflow を選んで実行します

115

Sample to Insight

116

お疲れ様でした。

clc genomics workbench ハンズオントレーニング …...sample to insight データ管理 2...

Documents