ゲノム情報解析基礎 ~ rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  ·...

80
Jun12 2014 1 (R)塩基配列解析の利用法: GC含量計算から発現変動解析まで 東京大学・大学院農学生命科学研究科 アグリバイオインフォマティクス教育研究プログラム 門田幸二(かどた こうじ) [email protected] http://www.iu.a.u-tokyo.ac.jp/~kadota/ 実習は、デスクトップ上にある hogeフォルダの中身が以下 の状態を想定して行います ネット接続できないヒトも、 ダブルクリックでローカルに r_seq.html を起動可能です

Upload: others

Post on 04-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Jun12 2014 1

(Rで)塩基配列解析の利用法:GC含量計算から発現変動解析まで

東京大学・大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム

門田幸二(かどた こうじ)[email protected]

http://www.iu.a.u-tokyo.ac.jp/~kadota/

実習は、デスクトップ上にあるhogeフォルダの中身が以下の状態を想定して行います

ネット接続できないヒトも、ダブルクリックでローカルにr_seq.htmlを起動可能です

Page 2: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

2Jun12 2014

参考ウェブページ

(Rで)塩基配列解析の利用法の紹介

Page 3: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

3Jun12 2014

前提条件以下の手順通りにRおよび必要なパッケージのインストールが完了しているという前提です。

Page 4: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

自己紹介 2002年3月

東京大学・大学院農学生命科学研究科・応用生命工学専攻 博士課程修了 学位論文:「cDNAマイクロアレイを用いた遺伝子発現解析手法の開発」

(指導教官:清水謙多郎教授)

2002/4/1~ 産総研・生命情報科学研究センター(CBRC) 産総研特別研究員 マイクロアレイ解析手法開発

2003/11/1~ 放医研・先端遺伝子発現研究センター 研究員 一次元電気泳動波形解析手法開発

2005/2/16~ 東京大学・大学院農学生命科学研究科・アグリバイオインフォマティクスプログラム マイクロアレイ解析手法開発 RNA-seqデータ解析手法開発

4Jun12 2014

(トランスクリプトーム解析周辺の)手法開発系のヒトです

Page 5: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

5Jun12 2014

講義風景(平成26年度)

Page 6: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Contents Rでゲノム解析

シロイヌナズナゲノムのGC含量計算 multi-FASTAファイルの読み込み

関数やオプションの利用法

パッケージの説明

Rでトランスクリプトーム解析

シロイヌナズナのRNA-seqデータを一通り解析 公共DBからの生データ取得

マッピングおよびカウントデータ取得

サンプル間クラスタリング

発現変動遺伝子(DEG)検出

6Jun12 2014

Page 7: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

植物グローバルなので… 例:シロイヌナズナ(Arabidopsis thaliana)

ゲノム配列決定(chr1-5, chrC, chrM) 1番染色体:Theologis et al., Nature, 408: 816-820, 2000

2番染色体:Lin et al., Nature, 402: 761-768, 1999

3番染色体:Salanoubat et al., Nature, 408: 820-822, 2000

トランスクリプトーム配列(cDNA配列)決定 アノテーション:Seki et al., Science, 296: 141-145, 2002

まとめサイト The Arabidopsis Information Resource (TAIR)

Lamesch et al., Nucleic Acids Res., 40: D1202-1210, 2012

http://www.arabidopsis.org/

7Jun12 2014

Rでゲノム解析が可能です

Page 8: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

アノテーションファイル?!

8Jun12 2014

TAIR10のゲノム配列ファイル(TAIR10_chr_all.fas)はここからダウンロードしました

Page 9: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

アノテーションファイル?!

9Jun12 2014

TAIRウェブインターフェースから取得する際のイメージ

参考

Page 10: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

10Jun12 2014

TAIR10のゲノム配列ファイル(TAIR10_chr_all.fas)

はこんな感じです

参考

Page 11: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

11Jun12 2014

multi-FASTAファイル?!

「>のヘッダ行、塩基またはアミノ酸配列」が複数(multi)個からなるファイルのこと

Page 12: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Rで配列長とGC含量計算

12Jun12 2014

最新のゲノム配列を読み込んでGC含量を計算することができます。“TAIR10_chr_all.fas”はhogeフォルダ中にあり

Page 13: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

13Jun12 2014

Rの起動

デスクトップにあるhogeフォルダ中のファイルを解析

Page 14: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

作業ディレクトリの変更

14Jun12 2014

① ②③

⑤⑥

この部分はひとそれぞれ

「Windows(C:)」となっている場合もあるが、気にしない

Page 15: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

getwd() と打ち込んで確認

15Jun12 2014

Page 16: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

基本はコピペ

16Jun12 2014

①一連のコマンド群をコピーして②R Console画面上でペースト

2013年7月以降のリニューアル

で、コードのコピーがやりずらくなっています。CTRLとALTキー

を押しながらコードの枠内で左クリックすると、全選択できます。

Page 17: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

実行結果

17Jun12 2014

実行前のhogeフォルダ

実行後のhogeフォルダ

出力: hoge4.txt

Page 18: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

18Jun12 2014

ありがちなミス1

作業ディレクトリの変更を忘れているため、入力ファイルの読み込み段階でエラーとなる

Page 19: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

19Jun12 2014

ありがちなミス2

必要な入力ファイルが作業ディレクトリ中に存在しない…

Page 20: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

20Jun12 2014

ありがちなミス3

出力予定のファイル名と同じものを別のプログラムで開いているため最後のwrite.table関数のところでエラーが出る

Page 21: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

21Jun12 2014

ありがちなミス4

実行スクリプトをコピーする際、最後の行のところで改行を含ませずにR Console画面上でペーストしたため、最後のコマンドが実行されない(出力ファイルが生成されない)

Page 22: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Rで配列長とGC含量計算

22Jun12 2014

出力: hoge4.txt 原著論文中の数値

ちゃんと似た結果が得られています

Page 23: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

詳細を説明

23Jun12 2014

出力: hoge4.txt

入力と出力ファイル名を指定しているところ

Page 24: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

詳細を説明

24Jun12 2014

GC含量計算をしたいときにはBiostringsというパッケージを読み込む必要があります。この作業を行っておかないと、例えば、multi-FASTAファイルを読み込むためのreadDNAStringSet関数を利用できません。

Page 25: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

詳細を説明

25Jun12 2014

readDNAStringSet関数を用いて…①in_fで指定した入力ファイルを②fasta形式で読み込んだ結果を③fastaというオブジェクト名で格納しています

① ②③

Page 26: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

詳細を説明

26Jun12 2014

fastaオブジェクトは確かにmulti-FASTAファイル中の情報を適切に読み込めている

Page 27: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

27Jun12 2014

色についての説明

Page 28: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

色についての説明

28Jun12 2014

単に確認しているだけなので灰色になっている

Page 29: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

浮かんでくる疑問

29Jun12 2014

FASTA形式以外にどん

な形式を読み込めるのだろう?FASTQ形式は

読み込めるの?

DNA配列以外にど

んな配列を読み込めるのだろう?アミノ

酸配列は?

Page 30: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

30Jun12 2014

関数の使用法について

・「?関数名」で使用法を記したウェブページが開く・ページの下のほうに、(大抵の場合)使用例が掲載されている・使用法既知の関数のマニュアルをいくつか読んで、慣れておく

Page 31: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

31Jun12 2014

関数の使用法について

・FASTQファイルは読み込めそうだ・readAAStringSet関数を用いればアミノ酸配列を読み込めそうだ

Page 32: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

32Jun12 2014

関数の使用法について

FASTQファイルは読み込めそうだ

Page 33: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

33Jun12 2014

FASTQ形式ファイル読み込みreadDNAStringSet関数を用いた読み込み時に、オプションを変更することでFASTQ形式ファイルに対応している

Page 34: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

GC含量計算の詳細を説明

34Jun12 2014

alphabetFrequency関数を実行して塩基ごとの出現回数をカウントした結果をhogeに格納している

dim関数は行列hogeの行数と列数を表示。つまりhogeは7行×18列から構成されているということ

Page 35: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

GC含量計算の詳細を説明

35Jun12 2014

A, C, G, T, およびN(A/C/G/T)の出現回数が多いのは当たり前。それ以外は、M(A/C), R(A/G), W(A/T), S(C/G), …といった具合です。

Page 36: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

GC含量計算の詳細を説明

36Jun12 2014

入力のシロイヌナズナゲノム配列ファイル(TAIR10_chr_all.fas)中を検索すると、確かにWなどのACGTN以外の文字が存在します

Page 37: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

GC含量計算の詳細を説明

37Jun12 2014

出力: hoge4.txt行列hogeに対して、rowSums関数を用いて行ごとのカウント数の総和を計算すると、染色体ごとの配列長と一致するのは当然です

Page 38: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

GC含量計算の詳細を説明

38Jun12 2014

CGまたはACGTのサブセットを抽出してからrowSums関数を実行

Page 39: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

GC含量計算の詳細を説明

39Jun12 2014

Page 40: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

パッケージ説明

40Jun12 2014

パッケージを個別にインストールする場合

使い方の解説記事はPDFのところをクリック。例えば…

Page 41: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

41

Jun12 2014

Biostringsパッケージ中の関数を使いこなせると、他の自然言語処理系プログラミング言語(perlやruby)を改めて勉強しなくても必要な解析の多くを実行可能

Page 42: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

原著論文引用はお願いします

42Jun12 2014

(Rで)塩基配列解析のこと

は見なかったことにしても、用いたRパッケージや元と

なるプログラムの原著論文は引用してください

by KDT39

「(Rで)塩基配列解析」を利用した証拠もないしアクセスログもとってないので引用や謝辞は必要なし

Page 43: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Contents Rでゲノム解析

シロイヌナズナゲノムのGC含量計算 multi-FASTAファイルの読み込み

関数やオプションの利用法

パッケージの説明

Rでトランスクリプトーム解析

シロイヌナズナのRNA-seqデータを一通り解析 公共DBからの生データ取得

マッピングおよびカウントデータ取得

サンプル間クラスタリング

発現変動遺伝子(DEG)検出

43Jun12 2014

Page 44: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

トランスクリプトーム解析

44

シロイヌナズナのRNA-seqデータを一通りRで解析 2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014

Huang et al., Development, 139: 2161-2169, 2012

生データ取得から発現変動解析までをRのみで実行

Page 45: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

トランスクリプトーム解析

45

シロイヌナズナのRNA-seqデータを一通りRで解析 2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014

Step1:生データをダウンロード(するために必要なID情報を取得)

Page 46: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

トランスクリプトーム解析

46

シロイヌナズナのRNA-seqデータを一通りRで解析 2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014

生データをダウンロードするために必要なIDはSRP011435だということを知る

Page 47: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

トランスクリプトーム解析

47Jun12 2014

SRP011435を入力として、R上でFASTQファイルをダウンロード可能(東大有線LANで数時間)実習ではやらないで!!!

Page 48: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

原著論文引用はお願いします

48Jun12 2014

CTRLとALTキーを押しながら

コードの枠内で左クリックすると全選択できるので積極的に活用

Page 49: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step1:生データのダウンロード中…

49Jun12 2014

ここでは作業ディレクトリとして、デスクトップ上のSRP011435を指定している

Page 50: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step1:生データのダウンロード終了後

50Jun12 2014

シロイヌナズナのRNA-seqデータを一通りRで解析 2群間比較用:4 DEX-treated vs. 4 mock-treated

IDとサンプル属性(ラベル)

との対応関係を知りたい

Page 51: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

トランスクリプトーム解析

51

シロイヌナズナのRNA-seqデータを一通りRで解析 2群間比較用:4 DEX-treated vs. 4 mock-treated

Jun12 2014

hoge2実行結果を眺める

ことで対応付けが可能

Page 52: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

ダウンロード終了後

52Jun12 2014

シロイヌナズナのRNA-seqデータを一通りRで解析 2群間比較用:4 DEX-treated vs. 4 mock-treated ここまでで、Step1生デー

タのダウンロードが完了

Page 53: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step2:マッピングおよびカウントデータ取得

53

マッピングに必要な情報 FASTQファイル:8個の*.fastq.gz

リストファイル:srp011435_samplename.txt

リファレンスゲノム:TAIR10_chr_all.fas

カウントデータ取得に必要な情報 遺伝子アノテーションファイル:TAIR10_GFF3_genes.gff

Jun12 2014

遺伝子ごとに、どの染色体のどの座標上に存在するのかなどの情報を含むタブ区切りテキストファイル

Page 54: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step2:マッピングおよびカウントデータ取得

54

マッピングに必要な情報

リストファイル:srp011435_samplename.txt(通常はテキストエディタで自作)

リファレンスゲノム:TAIR10_chr_all.fas(TAIRからダウンロード)

カウントデータ取得に必要な情報

遺伝子アノテーションファイル:TAIR10_GFF3_genes.gff(TAIRからダウンロード)

Jun12 2014

必要なファイルを作業ディレクトリに保存

Page 55: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

アノテーションファイル?!

55Jun12 2014

TAIR10のアノテーションファイル(TAIR10_GFF3_genes.gff)

はここからダウンロードしました

参考

Page 56: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

56Jun12 2014

TAIRウェブインターフェースからアノテーションファイル(TAIR10_GFF3_genes.gff)を取得する際のイメージ

参考

Page 57: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step2:マッピングおよびカウントデータ取得

57Jun12 2014

Step2が二つ存在するが、リファレンスとしてRパッケージ

BSgenome.Athaliana.TAIR.TAIR9ではなくTAIR10_chr_all.fasを利

用するほうで説明します。

Page 58: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

58Jun12 2014

最初に、description行の記述をChr1やChr2に変更した

tmp_genome.fastaを作成

Page 59: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

description行の記述を揃えるのは基本

59

遺伝子アノテーションファイル:TAIR10_GFF3_genes.gff

Jun12 2014

遺伝子アノテーションファイル中の1列目の表記法と同じ

にするのが基本

Page 60: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step2:マッピングおよびカウントデータ取得

60Jun12 2014

コード実行後、確かにtmp_genome.fastaが作成されている

Page 61: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step2:マッピングおよびカウントデータ取得

61Jun12 2014

CTRLとALTキーを押しながらコー

ドの枠内で左クリックすると全選択できるので積極的に活用。7時間程度かかるので実行しないで!!

Page 62: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step2:マッピングおよびカウントデータ取得

62Jun12 2014

私はカウントデータを入力としてその後の各種解析を行います

Page 63: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step2:マッピングおよびカウントデータ取得

63

マッピングに必要な情報 FASTQファイル:8個の*.fastq.gz

リストファイル:srp011435_samplename.txt

リファレンスゲノム:TAIR10_chr_all.fas

カウントデータ取得に必要な情報 遺伝子アノテーションファイル:TAIR10_GFF3_genes.gff

Jun12 2014

カウントデータファイル:srp011435_count_bowtie_2.txt

リストファイル中に記載した任意のサンプル名がカウントデータファイルのヘッダー行となる

ゲノム上の遺伝子座標情報ファイルを読み込んでいるから遺伝子ごとのカウントデータを取得可能なんです

Page 64: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

トランスクリプトーム解析

64

シロイヌナズナのRNA-seqデータを一通りRで解析 2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014

Huang et al., Development, 139: 2161-2169, 2012

ここまでで、生データ取得からカウントデータ生成まで終了

Page 65: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

トランスクリプトーム解析

65

実験デザイン再確認 2群間比較用:4 DEX-treated vs. 4 mock-treated

Jun12 2014

Huang et al., Development, 139: 2161-2169, 2012

個体数は2群合わせて4個体

群ごとに用いた個体数(biological replicates)は2

個体ごとに用いた反復数(technical replicates)は2

生物アイコン(http://biosciencedbc.jp/taxonomy_icon/taxonomy_icon.cgi)

Page 66: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step3:サンプル間クラスタリング

66Jun12 2014

CTRLとALTキーを押しながら

コードの枠内で左クリックすると全選択できるので積極的に活用。

Page 67: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step3:サンプル間クラスタリング実行結果

67Jun12 2014

出力:srp011435_count_cluster.png

40

0

500

Page 68: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step4:発現変動遺伝子(DEG)同定の前に

68Jun12 2014

Technical replicatesデータ

のマージを行います

Page 69: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step4:発現変動遺伝子(DEG)同定の前に

69Jun12 2014

入力:srp011435_count_bowtie_2.txt

出力:srp011435_count_bowtie_3.txt

Technical replicatesデータ

のマージを行います

Page 70: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

Step4:発現変動遺伝子(DEG)同定

70Jun12 2014

入力:srp011435_count_bowtie_3.txt

G1群

G2群

Page 71: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

71Jun12 2014

出力:srp011435_MAplot_bowtie.png

39

0

430

Page 72: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

出力ファイルの説明

72Jun12 2014

正規化後のデータ

M-A plotのA値とM値

p-valueとその順位

q-value

FDR閾値判定結果。 q-value < 0.05

を満たすDEGが1、non-DEGが0。

Page 73: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

原著論文引用はお願いします

73Jun12 2014

(Rで)塩基配列解析のこと

は見なかったことにしても、用いたRパッケージや元と

なるプログラムの原著論文は引用してください

by KDT39

「(Rで)塩基配列解析」を利用した証拠もないしアクセスログもとってないので引用や謝辞は必要なし

Page 74: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

まとめ Rでゲノム解析

シロイヌナズナゲノムのGC含量計算 multi-FASTAファイルの読み込み

関数やオプションの利用法

パッケージの説明

Rでトランスクリプトーム解析

シロイヌナズナのRNA-seqデータを一通り解析 公共DBからの生データ取得

マッピングおよびカウントデータ取得

サンプル間クラスタリング

発現変動遺伝子(DEG)検出

74Jun12 2014

Rでいろいろできます

Page 75: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

スライドPDFはウェブから取得可能です

75Jun12 2014

Page 76: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

今後の予定

76Jun12 2014

Page 77: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

NGS速習コース開催(9/1~12@東大農)

77Jun12 2014

Page 78: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

78

謝辞共同研究者

清水謙多郎 先生(東京大学・大学院農学生命科学研究科)

西山智明 先生(金沢大学・学際科学実験センター)

孫建強 氏(東京大学・大学院農学生命科学研究科・大学院生)

グラント 基盤研究(C)(H24-26年度):「シークエンスに基づく比較トランスクリプトーム解析のためのガイドライン構築」(代表)

新学術領域研究(研究領域提案型)(H22年度-):「非モデル生物におけるゲノム解析法の確立」(分担;研究代表者:西山智明)

挿絵やTCCのロゴなど

Jun12 2014

(有能な秘書の)三浦文さま作

(妻の)門田雅世さま作

Page 79: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

M-A plot

79

2群間比較用

横軸が全体的な発現レベル、縦軸がlog比からなるプロット

名前の由来は、おそらく対数の世界での縦軸が引き算(Minus)、横軸が平均(Average)

Jun12 2014

A = (log2G2 + log2G1)/21 2 3 4 5

M =

log

2G

2 -

log

2G

10

-1-2

12

低発現 ← 全体的に → 高発現

G1群 > G2群

G1群 < G2群

G1群 = G2群

G1群で高発現

G2群で高発現

Dudoit et al., Stat. Sinica, 12: 111-139, 2002

DEGが存在しないデータのM-A plotを眺めることで、縦軸の閾値のみに相当する倍率変化を用いたDEG同定の危険性が分かります

参考

Page 80: ゲノム情報解析基礎 ~ Rで塩基配列解析kadota/20140612_kadota.pdf2014/06/12  · Jun12 2014 1 (Rで)塩基配列解析の利用法: GC含量計算から発現変動解析まで

多重比較問題:FDRって何?

80

p-value (false positive rate; FPR)

本当はDEGではないにもかかわらずDEGと判定してしまう確率

全遺伝子に占めるnon-DEGの割合(分母は遺伝子総数)

例:10,000個のnon-DEGからなる遺伝子をp-value < 0.05で検定すると、

10,000×0.05 = 500個程度のnon-DEGを間違ってDEGと判定することに相当

実際のDEG検出結果が900個だった場合:500個は偽物で400個は本物と判断

実際のDEG検出結果が510個だった場合:500個は偽物で10個は本物と判断

実際のDEG検出結果が500個以下の場合:全て偽物と判断

q-value (false discovery rate: FDR)

DEGと判定した中に含まれるnon-DEGの割合

DEG中に占めるnon-DEGの割合(分母はDEGと判定された数)

non-DEGの期待値を計算できれば、p値でも上位x個でもDEGと判定する手段は

なんでもよい。以下は10,000遺伝子の検定結果でのFDR計算例

p < 0.001を満たすDEG数が100個の場合:FDR = 10,000×0.001/100 = 0.1

p < 0.01を満たすDEG数が400個の場合:FDR = 10,000×0.01/400 = 0.25

p < 0.05を満たすDEG数が926個の場合:FDR = 10,000×0.05/926 = 0.54Jun12 2014

Benjamini and Hochberg J. Roy. Stat. Soc. B, 57: 289-300, 1995 参考