clc genomics workbench ハンズオントレーニング …...sample to insight データ管理 2...
TRANSCRIPT
Sample to Insight
1
CLC Genomics Workbench
ハンズオントレーニング
RNA-seq 編
株式会社キアゲン
Sample to Insight
データ管理
2
データロケーション • Genomics Workbench ではデータ保存の階層のトップをLocationと呼びます。
• デフォルトのLocationはCLC_Dataが作成されていますが、左の図のようにLocationは追加可能です。
• Location の新規追加は、Navigation Area 左上のアイコンから作成可能です。シークエンスデータはサイズが大きいため、容量が大きいディスクへLocationを作成することをお勧めします。
• また解析が一通り終了し、バックアップや外付けのディスクへ移動する場合は、このLocation単位での移動をお願いします。
Location
Folder
Location 作成
Folder 作成
Sample to Insight
今日のデータ
3
データインポート
MacはMac用フォルダに入っています。シークエンスリードは、それぞれのreads というフォルダに入っています。
今日のデータはドロソフィラのデータです。サンプルごとに、性別(Male, Female)の情報や、種類、RNA抽出法による違いなどが含まれています。それらの情報は別途インポートし、解析に利用します。また、別途ドロソフィラのfastqファイルを圧縮したファイルも使用します。
Sample to Insight
今日のデータ
4
インポート
これらのパラメータの詳細については、後述します。
Sample to Insight
今日のデータ
5
データインポート
同じフォルダへ全データを保存してください。
正しくインポートできれいれば、上記のようになっています。
Sample to Insight
今日のデータ
6
インポート
同様に、SRR1543488 sampled.fastq.gz もインポートします。圧縮したままでもインポート可能です(Workbenchが解凍します)。
Sample to Insight
今日のデータ
7
インポート
先ほどのデータとは違うフォルダへ保存してください。
Sample to Insight
今日のデータ
8
リファレンスとアノテーションのインポート
Import > Standard Import DrosophilaReferences.zip を解凍しないまま選択。
Sample to Insight
今日のデータ
9
インポート結果
DrosophilaReferences というフォルダができ、中にゲノムやアノテーションができています。これらアノテーションについても、後述します。
Sample to Insight
RNA-seq:原理
10
Pepke, S.; Wold, B. & Mortazavi, A.
Computation for ChIP-seq and RNA-seq studies
Nature methods, Nature Publishing Group, 2009, 6, S22-
S32
RNA抽出
cDNA作成
Gene, Transcriptへマッピング
Sample to Insight
RNA-seq、発現差解析
11
一般的な解析の
QC
トリミング
RNA-seq
QC
トリミング
RNA-seq
QC
トリミング
RNA-seq
QC
トリミング
RNA-seq
実験デザイン登録
発現差解析
Case Control
クラスタリング ベン図での比較
Sample to Insight
12
CLC Genomics Workbench
データインポート
Sample to Insight
データインポート
13
リードデータインポート
SAM/BAMインポート*
シークエンサーデータインポート
SAM/BAMファイルは、マッピング後のデータにおいて利用される一般的なフォーマットです。
次世代シークエンサー以外のファイル
アノテーションファイルのインポート
Sample to Insight
データインポート
14
リードデータインポート:イルミナ
• リードファイルの選択
General options:共通のオプション
• Paired reads: ペアかどうか
• Discard reads names: リード名を捨てるかどうか(捨てないことをお勧め)
• Discard quality scores: クオリティスコアを捨てるかどうか(捨てないことをお勧め)
Paired options:ペアのオプション
• Paired-end: ペアエンドかどうか
• Mate-pair: メイトペアかどうか
ペアを選んだ場合はリード長を含めた距離を入力。
古いバージョンのIlluminaのソフトウェアで処理されたデータの場合は、バージョンを指定。
Sample to Insight
データインポート
15
リードデータインポート:イルミナ
Result handling:結果の扱い方
• Open: インポート後開く
• Save: インポートして保存
• Into separate folders: データごとにフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。
Sample to Insight
データインポート
16
リードデータインポート:Ion Torrent
• リードファイルの選択
General options:共通のオプション
• Paired reads: ペアかどうか
• Discard reads names: リード名を捨てるかどうか(捨てないことをお勧め)
• Discard quality scores: クオリティスコアを捨てるかどうか(捨てないことをお勧め)
Paired options:ペアのオプション
• Paired-end: ペアエンドかどうか
• Mate-pair: メイトペアかどうか
ペアを選んだ場合はリード長を含めた距離を入力。
Ion Torrent オプション: .sffファイルでのインポートの場合、Clippingされた情報を使うかどうか、選択できる。
• Fastqかsffを選択可能
Sample to Insight
データインポート
17
リードデータインポート:Ion Torrent
Result handling:結果の扱い方
• Open: インポート後開く
• Save: インポートして保存
• Into separate folders: データごと
にフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。
Sample to Insight
データインポート
18
リードデータインポート:Ion Torrent (Unmapped BAMファイル) ※注意
Ion Torrentのシークエンサーデータを処理するTorrent Suitでは、バージョン3.0以降、デフォルトでは、fastqファイルやsffファイルが作成されず、Unmapped BAM ファイルが作成されます。Unmapped BAM ファイルは、Import > Standard Import よりインポートいただくことで、fastqファイルをインポートした場合と同じようにインポートが可能です。
マッピングデータとしてインポートされます。
リードデータとしてインポートされます。
Sample to Insight
データインポート
19
ゲノムインポート
ゲノムデータは、よく知られているモデル動物についてはのDownload Genome よりインポートできます。
Sample to Insight
データインポート
20
ゲノムインポート
• ドロップダウンリストから生物種を選択。
• Download genome sequence: 新規にゲノムをダウンロードする場合。
• Use exsting genome sequence track: すでにダウンロードしたゲノムにアノテーションを追加する場合。以下のようにトラックのフォーマットになっているゲノムを選択。
Sample to Insight
データインポート
21
ゲノムインポート
• 希望するアノテーションにチェックを入れる。ゲノム配列をダウンロードするときは、Sequences にもチェックを入れる。
• 選択した生物種により、表示されるアノテーションの種類は異なります。
Sample to Insight
22
NCBIで検索してインポート
または
• NCBI のサイトに検索をかけて、直接ゲノム配列をダウンロードすることができます
データインポート
Sample to Insight
23
• 検索のキーワードを入れて、Start search をクリックします
• 目的の配列を選択して、Download and Save で配列をダウンロードできます
Search for Sequences at NCBI
データインポート
Sample to Insight
データインポート
24
アノテーションインポート
• Download Genome 以外にも、アノテーションファイルをインポート可能です。
• アノテーションとして取り込めるファイルは以下のフォーマットです。
• アノテーションファイルをインポートする際には、対象となるゲノム配列がすでにインポートされ、Trackのフォーマットになっていることが前提です。
• VCF
• GFF/GTF/GVF
• BED
• Wiggle
• Complete Genomics Var file
• UCSC Variation table damp
• COSMIC variation database
※変異のデータについても、アノテーションとして自分の変異へアノテーションとして情報の追加や比較ができるため、アノテーションのインポート可能フォーマットに含めています。
Sample to Insight
データインポート
25
アノテーションインポート
アノテーションのインポートは、Import > Tracks より行います。
Sample to Insight
データインポート
26
トラックインポート
インポートするファイルのタイプを選択
インポートするファイルを選択
対象とする参照配列(ゲノム配列)を選択。あらかじめインポートされている必要があります。
Sample to Insight
27
クオリティチェックとトリミング
Sample to Insight
クオリティチェックとトリミング
28
Quality Report作成: Create Sequencing QC Report
• インポートしたリードのクオリティがどのぐらいか、その後のトリミングや、PCR
Duplicate の状況などを確認するためにレポートを作成。
トリミング: Trim Sequences
• アダプターの除去、クオリティスコアによる除去、長さを指定した除去などを選択・組み合わせてトリミング。
上記処理の後に再度Quality Reportを作成すると処理前と処理後でのリードのクオリティを比較でき、便利です。
Sample to Insight
クオリティトリミング:原理
29
クオリティスコア
シークエンサーから出てきたリードは、各塩基ごとにエラーの確率の値を持っている。
Genomics Workbench へインポートされた時点で、Phred Score に変換されるようになっています。Pred Score は、塩基のエラー確率のLogを取り、-10をかけてスコア化したものです。値が大きくなるほど精度が高いことをあらわしています。
Phred Score Error の確率 Base call の精度
10 1/10 90%
20 1/100 99%
30 1/1,000 99.9%
40 1/10,000 99.99%
50 1/100,000 99.999%
60 1/1,000,000 99.9999%
𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒 = −10 log10 𝑃𝑒𝑟𝑟
Sample to Insight
QCレポート作成:Create Sequencing QC Report
30
• Navigation Areaから使用するリードデータを選択。
• Toolboxから NGS Core Tools > Create Sequencing QC Report を選択、ダブルクリック。
• ウィザードが起動し、選択したデータが選ばれていることを確認。
Sample to Insight
QCレポート作成:Create Sequencing QC Report
31
• Quality analysis: クオリティスコアに関する解析。
• Over-representations analysis: 過度に現れているような塩基配列などの解析。
• Create graphical report: グラフィカルなレポート作成。
• Create supplementary report: 数値のレポート作成。
• Create duplicated sequence list: 重複のあった配列のリスト作成。
Sample to Insight
QCレポート作成:Create Sequencing QC Report
32
32
• Graphical Report はグラフでのレポートです。
• Supplementary QC Report は、Graphical Report の数字版となり、エクスポートして作図に利用可能です。
Sample to Insight
トリミング原理
33
3種類のトリミング
• あらかじめ登録されているアダプターの除去
•新規で独自の配列を登録することも可能 アダプター除去
• Quality Score を使い、Quality の低い配列が連続するようになる箇所からカット
•正確に読めていない塩基をいくつ許容するか クオリティトリミング
•塩基数を指定して、5末端、3末端をカット
• Quality Scoreでカット後、短くなりすぎた配列をカット
長さによる除去
Sample to Insight
クオリティトリミング:原理
34
クオリティスコア
Trimming ではQuality Score を使い、累積のQuality Score がある一定の値より大きいものが続いた場合に、その箇所を取り除く、という処理を行います。
具体的には以下:
1. Phred Score をp値へ変換
2. Trimming 中に設定するパラメータ(Limit)とp値の差を計算
3. 差の累積和を計算。このとき、0以下の値は0とする
4. Trimming後のリード開始点は累積和がはじめて0以上になった点。Trimming後のリード終了点は累積和が最大の点
𝑃𝑒𝑟𝑟 = 10−𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒
10
Sample to Insight
35
0
20
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
リード配列 G C C C A T G T T C G A T G C
Phred score 4 8 15 30 32 23 10 31 31 20 15 11 10 10 9
p値 0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13
Limit - p値 (D) -0.35 -0.11 0.02 0.05 0.05 0.04 -0.05 0.05 0.05 0.04 0.02 -0.03 -0.05 -0.05 -0.08
(D)の累積和 0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06
スタート点:
累積和が0より大きくなった塩基
終了点:
累積和が最大を示す塩基
Phred score の棒グラフ
グラフより、ある程度クオリティが高くなった場所からリードを使い、クオリティが連続して悪くなっている箇所からリードをトリムしていることがわかる。
※途中、1塩基のみクオリティが低いような場合は、必ずしもトリムされない。これはできるだけリードを長く保とうとするため。
Limit = 0.05の場合
クオリティトリミング:原理
原理
35
Sample to Insight
トリミング
36
• Navigation Areaから使用するデータを選択。
• Toolboxから Trim Sequences を選択、ダブルクリック。
• ウィザードが起動し、選択したデータが選ばれていることを確認。
Sample to Insight
トリミング
37
• Trim using quality scores :トリミングに使用するLimitパラメータを決定
• Trim ambiguous nucleotides:N表
示される塩基について、最大何塩基まで保持させるか。
• 今回はアダプターは設定なし。
Sample to Insight
トリミング
38
Trim bases
• 5末、3末の塩基数を指定してカット
Filter on length
• Quality Scoreによるトリミングであまり
に短いリードの除去など長さによるトリミング
• レポートの作成にチェック。
Sample to Insight
トリミング結果
39
結果
• トリミング後は、トリムされたリードと、レポートを作成を選択した場合は、そのレポートが作成されます。
• トリミング結果のデータはファイル名の後に
trimmed という名前が付いています。ファイル
内容はインポート後のデータ同様に、配列と、クオリティスコアを含んだファイルとなっています。
Sample to Insight
トリミングレポート
40
結果
Sample to Insight
QCレポート 再作成による比較
41
エクササイズ
• トリミング後のデータでレポートを作成してみましょう!
Before After
Sample to Insight
アダプターリストの作成
42
• 作成されたアダプターリストは、Trimmingツールの中で指定することが出来るようになります。
Sample to Insight
43
メタデータインポート
Sample to Insight
メタデータとは
44
サンプルが持っている情報
• 今回のデータでは、DGRP_Number(種類)、性別、環境、RNA抽出法などの情報が含まれています。解析の際に、これらを考慮して解析を行うことが可能です。
• Workbenchへインポートして利用するため、リードデータと照らし合わせられる列を用意します(この例では、SRR_ID。部分一致可能)
• 今回は、DGRPのグループ間で差が見られる遺伝子を抽出することをゴールとします。
Sample to Insight
メタデータインポート
45
• Import > Import Metadata • Import Metadata ウィザードが起動します。(設定は次のページで記載)
Sample to Insight
メタデータインポート
46
• ダウンロードしたデモデータに含まれるDrosophilaMetadata.xlsxを選択。
• メタデータはエクセルで準備し、インポートしたリードデータとマッチできる列を用意しておく。
Sample to Insight
メタデータインポート
47
• マッチした列に緑のチェックマークが入っていることを確認
Sample to Insight
メタデータインポート
48
メタデータテーブルからデータを選択、Find Associate Data をクリック
Sample to Insight
メタデータインポート
49
インポートされたデータが表示される。
Sample to Insight
50
RNA-seq
Sample to Insight
Advanced RNA-seq プラグイン
51
ツール群
RNA-seq 専用解析ツール
• PCA for RNA-seq
• RNA-seqデータ用の主成分分析。メタデータをPCA結果に反映可能。
• Differential Expression for RNA-seq
• 発現差解析。
• 多因子の検定が行える。
• Create Heat Map for RNA-seq
• 2次元(遺伝子とサンプル)でのクラスタリング
• Create Venn Diagram for RNA-seq
• ベン図
Sample to Insight
Advanced RNA-seq プラグイン
52
注意点
• Advanced RNA-seq に含まれるツールはいずれ置き換わる予定ですが、現在は似たような名前のツールが複数あるため、注意が必要です。
Sample to Insight
RPKM, FPKM, TPM
53
リード数を発現量へ変換
• 次世代シークエンサーから出てきたリード配列は、ゲノム上で最も類似した領域へ貼り付けられます(マップ、マッピング)。*正確にはアライメント。
• リードがマッピングされる本数が多い→発現量が高かった、少ないという事は、RNAが多かったと考え、発現量へ換算します。
• リード数を発現量へ換算する方法は、いくつか提案され、RPKM、FPKMなどが使われ最近はTPMが良いとされています。
Sample to Insight
RPKM (Read Per Kilobase Million)
Title, Location, Date 54
リード数から発現量へ
Gene 1: 300bp
10 reads
Gene 2: 400bp
13 reads
Gene 3: 500bp
15 reads
Sample A
Total reads:
6M RPKM=10/(0.3*6)
=5.55
RPKM=13/(0.4*6)
=5.42
RPKM=15/(0.5*6)
=5.0
RPKM =エクソン領域にマップされたリード数
そのサンプルにマップされた全リード数(百万単位) ×エクソンの長さ(𝑘𝑏)
Sample to Insight
RPKMとFPKM
Title, Location, Date 55
FPKM(Fragment Per Kilobase Million)
Single end Pair end
Fragment
• RPKMでは、リードをカウント
• FPKMでは、ペアエンドのリードを考慮し、フラグメントを基準にカウント。ペアエンドのリード両方がターゲットとしているFragmentにマップされれば1.片割れだけがマップされた場合は、それを1とカウント。
Sample to Insight
TPM
56
TPM (Transcript Per Million)
RPKMの問題点: ノーマライズ後の合計がサンプル間で異なるので、比較しにくい。
Sample A Sample B
Gene 1 293 83
Gene 2 396 538
Gene 3 59 474
⋮ ⋮ ⋮
Total 439,051 437,592
Sample A, RPKM Sample B, RPKM
Gene 1 256.5 71.6
Gene 2 634.2 848.9
Gene 3 86.2 682.3
⋮ ⋮ ⋮
Total 713,188.3 642,897.9
Sample to Insight
TPM
57
TPM (Transcript Per Million)
遺伝子の長さでノーマライズした後の値を使い、マップされたリード数を計算。ノーマライズに使用。
これは、遺伝子の長さをノーマライズした後の値を使って、マップされた総数を計算し、ノーマライズに使っているため。ノーマライズ後の総数が同じになっているため、サンプル間の比較が容易に。
Sample A Sample B
Gene 1 293 83
Gene 2 396 538
Gene 3 59 474
⋮ ⋮ ⋮
Total 439,051 437,592
Sample A, TPM Sample B, TPM
Gene 1 359.6 111.3
Gene 2 889.2 1320.5
Gene 3 120.9 1061.2
⋮ ⋮ ⋮
Total 1,000,000 1,000,000
Sample to Insight
RNA-seq
58
全データのRNA-seqの処理は時間がかかるため、実際には実行しませんが、パラメータなど確認してください。
• インポートしたリードを選択 • Transcriptomics Analysis > RNA-seq
Analysis > RNA-seq Analysis を選択
Sample to Insight
RNA-seq
59
• 選択したデータが表示されていることを確認
• バッチをチェック
• バッチ処理を行うデータが確認されます。
Sample to Insight
RNA-seq
60
• RNA-seqに使うリファレンスを選択
Sample to Insight
RNA-seq
61
• マッピングパラメータを選択。パラメータの詳細はマッピングのアルゴリズム原理にて説明
• Expression value: リードカウントを使うので、デフォルトのTotal counts のまま
• もし非モデル生物を使い、アノテーションがない場合は、Calculate RPKM for genes
without transcripts にチェックを入れる
Sample to Insight
RNA-seq
62
Sample to Insight
RNA-seq解析結果について
63
全データ処理は時間がかかるため、今日は結果をインポートします。
Sample to Insight
RNA-seq 結果の閲覧
64
このように結果がインポートされます。
• GE:Gene Expression。遺伝子レベルの発現データ
• TE : Transcript Expression。トランスクリプトレベルの発現データ
• Reads:マッピング結果
• Report : RNA-seqによるマッピング結果
Sample to Insight
RNA-seq 結果の閲覧
65
Track list の作成
• Track List では好きなビューを作成できますが、今回はゲノムと、遺伝子、mRNAと複数のマッピング結果でビューを作成します。
• ビューに含めたいデータを選択。
Sample to Insight
RNA-seq 結果の閲覧
66
トラックリストの作成
Sample to Insight
メタデータへ結果の追加
67
本来は、バッチ処理を実行すると、自動的に結果はメタデータテーブルへ登録されますが、このトレーニングでは別途結果をインポートしているため、指定して登録する必要があります。
• メタデータテーブルを開く
• Associate Data Automatically を選択
• インポートした結果から、各フォルダを開いて(GE)が付いているファイルを選択。
Sample to Insight
68
• Role へExpression Data と入力。Roleについては後述
• メタデータテーブルと名前が一部一致のため、Matching Scheme ではPartial を選択
Sample to Insight
69
• 改めてMetadata Table を開き、Find Associationをクリック
• 関連付けをしたExpression Data がわかる。Role では、そのデータの役割を分類として使い、フィルタリングに活用できる。
Sample to Insight
70
RNA-seqマッピング原理
Sample to Insight
マッピング原理
71
2つのステップ
1. ローカルアライメント
参照配列と似ている場所を探す
2. フィルタリング
どの程度参照配列と一致しているリードをその後の解析に残すか
Sample to Insight
マッピング原理
72
マッピング原理
スコアリング
最適なマップ場所をLocal Alignmentで探索
Match = 1, Mismatch cost = 2
リード配列(20bp)が全て一致した場合
CGTATCAATCGATTACGCTATGAATG
||||||||||||||||||||
ATCAATCGATTACGCTATGA
アライメントスコア = 20
Sample to Insight
マッピング原理
73
マッピング原理
スコアリング
CGTATCAATCGATTACGCTATGAATG
|||||||||||||||||||
TTCAATCGATTACGCTATGA
CGTATCAATCGATTACGCTATGAATG
|||||| ||||||||||||
TTCAATCAATTACGCTATGA
CGTATCAATCGATTACGCTATGAATG
|||||| ||| |||||||
TTCAATCAATTGCGCTATGC
アライメントスコア = 19
アライメントスコア = 16
アライメントスコア = 10
Sample to Insight
マッピング原理
74
フィルタリング
最も高いアライメントスコアにマップされたリードのうち、どの程度参照配列と類似しているリードをその後の解析に残すのかを決定します。
Sample to Insight
マッピング原理
75
フィルタリング原理
Length FractionとSimilarity パラメータを使って、どの程度アライメントされたリードを、マッピングされたものとして保持するか、決定します。
Length Fraction とSimilarity は2つのパラメータの組み合わせで使用されます。
Length fraction: フィルターをかける際に、考慮する長さ
Similarity: Length Fraction で指定した長さのうち、どの程度類似しているものを残すか。
リード長:100 bp
デフォルトのLength Fraction, 0.8 100 bp x 0.8 = 80 bp,
デフォルトのSimilarity 0.8 80bp x 0.8 = 64 80塩基中64塩基が完全一致していることがフィルタリングの条件となる
Reference
Sample to Insight
マッピング原理
76
2つのパラメータを使う理由
– リードの一部は似ているけれども、大きな挿入や、欠失によりリードの一部が参照配列と一致しない可能性がある場合
– トリミングが完全にできなかったクオリティの低い配列が末端部にある場合
(Length Fraction を小さくすることで、リードの一部に限定してアライメントの類似度を設定できる)
– 参照配列とほぼ一致するが、所々、1塩基の変異があると想定される場合
Reference
Reference
Sample to Insight
77
PCA
Sample to Insight
PCA
78
メタデータテーブルからのデータ選択
• Find Associated Dataをクリック
• Roleのヘッダーをクリック。Roleでソートされる。
• Role がExpression Data となっているもののみを選択
Sample to Insight
PCA
79
• Transcriptomics Analysis > RNA-
seq Analysis > PCA for RNA-seq
を選択
• メタデータテーブルで選択したデータが選ばれていることを確認
Sample to Insight
PCA
80
結果
Sample to Insight
PCA
81
結果:ビューの変更
Sample to Insight
82
発現差解析
Sample to Insight
発現差解析
83
発現差解析手法:edgeRと同等の方法が搭載されています。
手法 入力 仮定する分布 ノーマライズ法 検定
edgeR カウントデータ 負の二項分布 TMM/Upper
quantile/RLE
Exact Test/一般化線形モ
デルを使った検定
DESeq2 カウントデータ 負の二項分布 Size Factor 一般化線形モデルを使っ
た検定
baySeq カウントデータ 負の二項分布 Size Factor ベイズ法
Cuffdiff 2 (Cufflinks) FPKM ベータ負の二項分布 Geometric/Upper
quantile/FPKM
t検定
カウントデータとは?
• 身長や体重などは連続値のデータ。正規分布は連続値のための分布。
例:マイクロアレイの計測値
• 頻度や回数、個数などは離散値のデータとして異なる分布を使います。
例:RNA-seqにおいてリードが遺伝子領域にマップされた本数
Sample to Insight
発現差解析
84
• メタデータテーブルを開き、Maleのデータを選択し、Find Associated Data をクリック。
• Transcriptomics Analysis > RNA-
seq Analysis > Differential
Expression for RNA-seq をクリック
Sample to Insight
発現差解析
85
• メタデータテーブルで選択したデータが選ばれていることを確認
• Experiment design ではメタデータテーブ
ルを選択し、その列情報からケースとコントロースの設定を行います。
• Test differential …: ケースとコントロールとなる情報を含む列。
• While controlling for: 発現差に影響を与えたくない要因
Sample to Insight
発現差解析
86
• メタデータテーブルで選択したデータが選ばれていることを確認
Sample to Insight
87
クラスタリング
Sample to Insight
クラスタリング
88
• Transcriptomics Analysis > RNA-
seq Analysis > Create Heat Map for
RNA-seq をクリック
Sample to Insight
クラスタリング
89
• メタデータテーブルで選択したデータが選ばれていることを確認
• Distance:クラスタリングで使用する距離。
発現量の高い、低いといった値でのクラスタリングは、距離(Euclidean,
Manhattan)、発現量の相関は、Correlationを使う。
• Clusters : クラスターを作った後に、代表値として使用する値。
Sample to Insight
クラスタリング
90
• Filter settings: Fixed number of features,
Filter by Statistics, Specify features より
選択。選択したオプションに応じて、下の設定がアクティブになる。
• Keep fixed number of features:指定した遺
伝子の個数でクラスタリング。使われる遺伝子は、変動係数が大きいものから使用。
• Filter by statistics: 発現差解析の結果を使って、p-valueなどでフィルタリングしてクラスタリングに使う遺伝子を決める。
• Specify features: 遺伝子のリストを選択し、クラスタリング。
Sample to Insight
クラスタリング
91
結果:メタデータでクラスタリングされた結果が、何に起因しているのかを見ると、RNA prep method によって分類されている。。。
Sample to Insight
クラスタリング
92
再度設定を変更してクラスタリング
Sample to Insight
93
• 前回と同じ
Sample to Insight
クラスタリング
94
• Filter by statistics を選択
• 発現差解析の結果を指定。
Sample to Insight
クラスタリング
95
今度はきれいに種別にクラスタリング出来た
Sample to Insight
96
ベン図
Sample to Insight
ベン図
97
発現差解析の結果を使用。最大3つのグループを使ったベン図が描ける
• Transcriptomics Analysis > RNA-
seq Analysis > Create Venn
Diagram for RNA-seq をクリック
Sample to Insight
ベン図
98
結果
Sample to Insight
ベン図
99
ベン図でわけられた遺伝子のリストの取得
• ベン図の結果を2つ開き、表示を変える
• ベン図上でクリックした分画がテーブルビューで選択されている。
Sample to Insight
100
お疲れ様でした。
Sample to Insight
101
補足資料
Sample to Insight
102
CLC Genomics Workbench ワークフロー
Sample to Insight
ワークフローについて
103
一連の解析をひとつのフローに
ワークフローツールは、様々な解析ツールを、フローチャートのようにつなげて、ひとつの解析のように実施することが可能です。
解析ツールをつなげてひとつの解析のようにすることを「解析パイプラインを作る」とも言いますが、Genomics Workbench の中では、解析パイプラインをワークフローと呼んでいます。
QC
トリミング
マッピング
Local Realignment
変異検出
アミノ酸置換
遺伝子名付加
Sample to Insight
Workflow:作成
104
解析ツールの追加方法
2つの方法でツールを追加できます。
Add elements ボタンから追加
Sample to Insight
Workflow:作成
105
解析ツールの追加方法
Toolbox からドラッグアンドドロップで追加
Sample to Insight
Name of the tool を rename して、
わかりやすい名前にすることができます
Workflow:作成
ツールの配置
※各ツールのことを workflow element と呼びます
インプット
アウトプット
ツール名
106
Sample to Insight
解析の際に必要な reference 配列やパラメータなどを設定します
ダブルクリック、または右クリックで
configure を選択
reference
パラメータ
データのロック・
アンロックを指定
Workflow:作成
workflow element (ツール)のパラメータ設定
107
Sample to Insight
各 workflow element (ツール)の連結
次の解析で使う出力データと次の解析の Input box をつなぎます
方法1.
出力データをドラッグして
次の解析の Input box
とつなぎます
方法2.
出力データを右クリック
Connect Reads Track to…
から任意選択します
Workflow:作成
108
Sample to Insight
出力データを右クリックして Use as Workflow Outputで指定します。途中で出力・保存されるデータについても全て指定します(下図では、Mapping Report, Un-mapped Reads)
Workflow:作成
Output ファイルの指定
109
Sample to Insight
最初の入力データを受け取る workflow element (ツール)の Input box を右クリック、Connect to Workflow Input を選択します。
下図のようなWorkflow Input のボックスが作成されます。
このボックスをドラッグして、別のワークフローの最初の element とつなげることで、同じデータを複数のワークフローに対して渡して実行することができます。
右クリックのメニューからLayout を選択すると自動的に Workflow が整列されます
Workflow:作成
Input ファイルの指定
110
Sample to Insight
Validation
• 必要な操作について表示されます
• 操作が必要な部分は赤字で表示されます
• 次のようなメッセージが表示されたら、Workflow を作成したら保存します
• Validation にパスした workflowでは、下記のようなメッセージが表示されます。
Workflow:作成
111
Sample to Insight
Installation ボタンをクリックします
Workflow
配布
Workflow Installation File を作成することにより、workflow を配布することができます。
112
Sample to Insight
Workflow
配布
下記ダイアログに情報を入力します
• Author Information: 名前、メール、組織名
• Workflow Name:Workflow の名前
※workflow の IDは、組織名+
Workflowの名前から成ります。
• Workflow description: Workflow の説明
テキストまたは HTML (ver3.1互換)
• Icon (16 x 16 pixels gif or png)
• Version (major and minor)
• ※ 新しいバージョンを出したい時には、新たにバージョン情報を変えた
Workflow Installation File を作成します。
113
Sample to Insight
workflow のインストール先のコンピュータまたは配布用ファイルの作成を選択します
Workflow
配布
114
Sample to Insight
Workflow
実行
Toolbox の Workflow の下から workflow を選んで実行します
115
Sample to Insight
116
お疲れ様でした。