ngs解析(rnaseq)...ngs解析(rnaseq) 坊農 秀雅(ぼうのう ひでまさ)...
TRANSCRIPT
NGS解析(RNAseq)
坊農 秀雅(ぼうのう ひでまさ) 大学共同利用機関法人 情報・システム研究機構 ライフサイエンス統合データベースセンター
(DBCLS)
今日のレシピ»NGS は Now Generation Sequencer!
»NGSデータ解析の概要!»具体的な解析例→ハンズオン!»おまけ
4
NGS(Next Generation Sequencer)は既に Now
Generation Sequencer
DNA塩基配列解読の超高速化•かつてはSanger法 •最近は「次世代シーケンサー(NGS)」 ‒Illumina: Sequence By Synthesis
• http://www.youtube.com/watch?v=womKfikWlxM !‒Life Technologies(現 ThermoFisher Scientific) •ヌクレオチドがDNA鎖に取り込まれる過程でポリメラーゼによって放出される水素イオンを検出
• http://www.youtube.com/watch?v=MxkYa9XCvBQ !‒PacBio: 一分子・リアルタイム(SMRT®)検出
• http://www.youtube.com/watch?v=NHCJ8PtYCFc 6
MiSeq → NextSeq• Illumina社のデスクトップ次世代シーケンサ NextSeq 500 •ヒト全ゲノムリシーケンス(3Gb ゲノム) ‒coverage: 30x ‒リード長: 2 x 150塩基 ‒時間: 29h ‒データ出力: 100-120Gb/run ‒(右図はMiSeq)
7
NGSからの生データ•FASTQフォーマットのファイル ‒4行/readが基本単位 ‒Illumina NextSeq 500 ‒3億リードx4行 ‒=12億行
•ファイルサイズも4Gbyte/file超 ‒FAT32フォーマットでは扱えない •いわゆる「開く」ことが不可能
8
SRR001356.1 2023DAAXX:5:1:123:563 length=33 TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC +SRR001356.1 2023DAAXX:5:1:123:563 length=33 -IIIIIIII8IIIIIIIIIII6IIIIIIIII9I @SRR001356.2 2023DAAXX:5:1:123:476 length=33 TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG +SRR001356.2 2023DAAXX:5:1:123:476 length=33 IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III @SRR001356.3 2023DAAXX:5:1:121:746 length=33 GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT +SRR001356.3 2023DAAXX:5:1:121:746 length=33 IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
NGSでできること• RNA転写量測定!
–RNAseq(transcriptome sequencing)!• DNA結合タンパク質の結合配列の解析!
–ChIPseq(ヒストンや転写因子)!• ChIPはChromatin immunoprecipitationの略!
•多型解析!–Exome(exon限定), Re-sequence!
•その他、塩基配列解読が伴うさまざまな応用9
NGSによるデータ解析の概要
トランスクリプトーム解析(RNAseq)
RNAseqとは?•「次世代シーケンサを利用して、サンプル中の RNA の中身に関する情報を得るために cDNA をシーケンシングする方法」!–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳!
• Whole transcriptome shutgun sequencing (WTSS) や!
• Transcriptome sequencingとも
11
RNAseq データ 解析の流れ1
予測転写単位ごとの(推定)発現量情報
SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQ
1.tophat (bowtie)
2.cufflinks
3.cummeRbund12
遺伝子アノテーション
ゲノム .fa
ゲノムアノテーション
.gtf
ゲノムに対する多重配列アラインメント
.bam
種々のデータフォーマット
13
ファイルフォーマット ファイル拡張子1 FASTA .fa .fasta
2 FASTQ .fq .fastq
3 SRA/SRA-lite .sra .lite.sra
4 SAM/BAM .sam .bam
5 GTF(GFF) .gtf .gff
6 BED .bed
7 VCF .vcf
1. FASTA
• FASTAというプログラムで使われる配列データ形式!–プレーンテキスト。ファイル拡張子: .fa .fasta など!
• 1行目に“>”で始まる1行のヘッダ行!• 2行目以降に実際のシーケンス文字列
14
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]!LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV!EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG!LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL!GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX!IENY
参考: http://ja.wikipedia.org/wiki/FASTA
2. FASTQ• NGSデータの配列データ形式のデファクトスタンダード!
–プレーンテキスト。ファイル拡張子: .fq .fastq など!• 1行目に“@”で始まる1行のヘッダ行!• 2行目に実際の塩基配列!• 3行目に”+”!
• 4行目に2行目に記述した配列のクオリティ値
15
@SEQ_ID!GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT!+!!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
参考: http://ja.wikipedia.org/wiki/Fastq
3. SRA, SRA-lite
• FASTQ形式の代わりに使われている、NGS配列データ配布フォーマット!
–配列拡張子: .sra .lite.sra !
• SRA-toolkitを使ってFASTQを生成できる!–http://www.ncbi.nlm.nih.gov/Traces/sra/?view=software
16
fastq-dump -A SRR233129 SRR233129.lite.sra
4. SAM/BAM•ゲノムマッピングしたときに生成されるアラインメントのフォーマット!
–リファレンスゲノム配列に対するアラインメント!• SAMはプレーンテキスト(ASCII)形式なのに対して、BAMはバイナリ(binary)形式!
17参考: http://genome.sph.umich.edu/wiki/SAM
1:497:R:-272+13M17D24M! 113! 1! 497! 37! 37M! 15! 100338662! 0! CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG! 0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>>!XT:A:U! NM:i:0!SM:i:37! AM:i:0!X0:i:1!X1:i:0!XM:i:0!XO:i:0!XG:i:0!MD:Z:37!19:20389:F:275+18M2D19M! 99! 1! 17644!0! 37M! =! 17919!314! TATGACTGCTAATAATACCTACACATGTTAGAACCAT! >>>>>>>>>>>>>>>>>>>><<>>><<>>4::>>:<9!RG:Z:UM0098:1! XT:A:R! NM:i:0!SM:i:0!AM:i:0!X0:i:4!X1:i:0!XM:i:0!XO:i:0!XG:i:0!MD:Z:37!19:20389:F:275+18M2D19M! 147! 1! 17919!0! 18M2D19M! =! 17644!-314! GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT! ;44999;499<8<8<<<8<<><<<<><7<;<<<>><<! XT:A:R! NM:i:2!SM:i:0!AM:i:0!X0:i:4!X1:i:0!XM:i:0!XO:i:1!XG:i:2!MD:Z:18^CA19!9:21597+10M2I25M:R:-209! 83! 1! 21678!0! 8M2I27M! =! 21469!-244! CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT! <;9<<5><<<<><<<>><<><>><9>><>>>9>>><>! XT:A:R! NM:i:2!SM:i:0!AM:i:0!X0:i:5!X1:i:0!XM:i:0!XO:i:1!XG:i:2!MD:Z:35!
5. GTF(GFF)• General Transfer Format. GFF(General
Feature Format)のversion2!•ゲノムアノテーションのフォーマット!
–例: ゲノム上のどこに遺伝子があるか
18参考: http://asia.ensembl.org/info/website/upload/gff.html
X! Ensembl! Repeat!2419108! 2419128! 42! .! .! hid=trf; hstart=1; hend=21!X! Ensembl! Repeat!2419108! 2419410! 2502! -! .! hid=AluSx; hstart=1; hend=303!X! Ensembl! Repeat!2419108! 2419128! 0! .! .! hid=dust; hstart=2419108; hend=2419128!X! Ensembl! Pred.trans.!2416676! 2418760! 450.19!-! 2! genscan=GENSCAN00000019335!X! Ensembl! Variation! 2413425! 2413425! .! +! .! !X! Ensembl! Variation! 2413805! 2413805! .! +! .
6. BED•ゲノムアノテーションのフォーマット!
–例: ゲノム上のどこに遺伝子があるか
19参考: http://genome.ucsc.edu/FAQ/FAQformat.html#format1
track name=pairedReads description="Clone Paired Reads" useScore=1!chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512!chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601
7. VCF• Variant Call Format!•配列の多型を記述するフォーマット
20参考: http://en.wikipedia.org/wiki/Variant_Call_Format
##fileformat=VCFv4.0!##fileDate=20110705!##reference=1000GenomesPilot-NCBI37!##phasing=partial!##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">!##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">!##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">!##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">!##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">!##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">!##FILTER=<ID=q10,Description="Quality below 10">!##FILTER=<ID=s50,Description="Less than 50% of samples have data">!##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">!##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">!##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">!##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">!#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3!2 4370 rs6057 G A 29 . NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.!2 7330 . T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3!2 110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4!2 130237 . T . 47 . NS=2;DP=16;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2!2 134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
NGSに比べてマイクロアレイ• 2000年前後に使われ初めて、ある程度(技術として)枯れてきた!–参考: 公共データベースの登録数の推移!
–遺伝子発現バンク(GEO)目次 http://lifesciencedb.jp/geo/!•本もそれなりに出ている
21
マイクロアレイ解析の流れ
遺伝子アノテーション
Genespringoligoprobeに対応する遺伝子ごとの発現量
22
RNAseq データ 解析の流れ
ゲノムに対する多重配列アラインメント
.bam
ゲノムアノテーション
.gtf
予測転写単位ごとの(推定)発現量情報
SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQゲノム .fa
23
遺伝子アノテーション
1.tophat (bowtie)
2.cufflinks
3.cummeRbund
マイクロアレイのデータ形式の実際•タブ区切りテキスト!
–数万(=スポットの数)行!
• (古い)Excelでも「開ける」!–Excel2003の行数制限内!
•コマンドライン操作なしで中身が直接見れる
24
データ解析に必要なものマイクロアレイ NGS(RNAseq)
解析ソフト +++ +++
遺伝子 アノテーション +++ +++
ゲノム アノテーション - ++
ゲノム配列 - ++
コマンドライン操作 + +++
計算機パワー + +++25
マイクロアレイとの違い: RPKM• Reads Per Kilobase per Million mapped reads!•ノーマライズした遺伝子発現量!
–100万リード数マップされたとき、転写産物を1000塩基長としたときのマップされたリード数!
• FPKMもほぼ同じ!–Fragments Per Kilobase of exon per Million
mapped fragments!– !
• Reference: Nat Methods, 5(7):621-628.26
具体的な解析例 ハンズオン!
次世代シークエンス解析スタンダード!NGSのポテンシャルを活かしきるWET&DRY
• 通称、「愛本」!• https://www.yodosha.co.jp/jikkenigaku/book/9784758101912/
28
The cat way•理化学研究所の二階堂愛さんのブログ!
–http://cat.hackingisbelieving.org/lecture/!!
!
!
!
•オープンソースソフトウェア!–Tuxedo suite!
• bowtie,tophat,cufflinks!–R + Bioconductor
29
cuffdiff -p 24 ensembl_gene.gtf ! -L iPS_01,iPS_02,hESC_01,hESC_02,Fibroblast_01,Fibroblast_02! -o results iPS_01.bam,iPS_2.bam hESC_1.bam,hESC_2.bam Fibroblast_01.bam,Fibroblast_02.bam!
tophat -p 8 -r 100 -o output_dir/iPS_01 bowtie2_indexes/mm9 iPS_01_1.fastq iPS_01_2.fastq
RNAseq データ 解析の流れ1
ゲノムに対する多重配列アラインメント
.bam
ゲノムアノテーション
.gtf
予測転写単位ごとの(推定)発現量情報
SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQゲノム .fa
30
遺伝子アノテーション
1.tophat (bowtie)
2.cufflinks
3.cummeRbund
0. ゲノム&アノテーションファイル取得
• Illumina iGenomes
31
Illumina iGenomes•超でかいですが、とりあえず必要なのは(human
UCSC hg19の場合)!• (インデックス済みゲノム配列)!
–Homo_sapiens/UCSC/hg19/Sequence/Bowtie2Index/ 以下!–これをコピーしておきましょう!!
• (ゲノムアノテーション)!
–Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf !–これもコピーしておきましょう
32
% cp -r Bowtie2Index/ 141025/
% cp genes.gtf 141025/
1. fastqファイル取得•すでに.fastqファイルを持っている場合はpass!
• .sra 形式のファイルは fastq-dump で変換!–fastq-dumpはhomebrewのsratoolkitに含まれています!!
–インストール失敗した人はtapしていないからかも!!
!
–分オーダーで時間がかかります!• .fastqなファイルをゲット
33
% fastq-dump *.sra
% brew install sratoolkit -v
% brew tap homebrew/science -v
2. tophat(bowtie)!でゲノムにマッピング
• tophatをインストール!!
• bowtie2, samtoolsとか同時に色々入ります!•実行!!
!
!
• tophatからbowtieを呼び出してゲノム配列にマッピングを行います
35
% brew install tophat -v
% tophat -p 8 -o tophat/CNTL Bowtie2Index/genome GSE50491/SRR960409.fastq
tophat2•出力ディレクトリがないと怒れました。作りましょう!!
•再度実行!!
!
•オプション!• p: 使用CPU数!• r: ペアエンド間の距離の指定(ペアエンドシークエンスの場合に指定)!
• 1fastqあたり小1時間かかりました(MacProで-p 12)36
% mkdir tophat
% tophat -p 8 -o tophat/BRD4 Bowtie2Index/genome GSE50491/SRR960410.fastq
3. cufflinksで発現量を定量• cufflinksをインストール!
!
•実行!!
!
!
!
• 1bamあたり1.5時間程かかりました(MacProで-p 12)
38
% brew install cufflinks -v
% cufflinks -p 8 -o cufflinks_CNTL tophat/CNTL/accepted_hits.bam!% cufflinks -p 8 -o cufflinks_BRD4 tophat/BRD4/accepted_hits.bam
cuffmerge• cuffmergeでassemblyをmerge!
!
• cuffcompare!!
!
•こちらを使うのは新規transcriptやslice variantの発見を行う場合!•そうでない場合は次のcuffdiffを
39
% cuffmerge -p8 —s hg19.fa assemblies.txt
% cuffcompare -p8 —s hg19.fa -r genes.gtf merged_asm/merged.gtf
cuffdiff
• homebrewで入れたバイナリではエラー…!
•仕方なく、バイナリ配布のものを使用!• http://cufflinks.cbcb.umd.edu/
40
% cuffdiff -p 8 -L CNTL,BRD4 -o cuffdiff genes.gtf tophat/CNTL/accepted_hits.bam tophat/BRD4/accepted_hits.bam
% ~/Downloads/cufflinks-2.2.1.OSX_x86_64/cuffdiff -p 8 -L CNTL,BRD4 -o cuffdiff genes.gtf tophat/CNTL/accepted_hits.bam tophat/BRD4/accepted_hits.bam
4. cummeRbundでRの世界に
• cummeRbundをインストール!!
!
•可能なグラフ in R Graphical Manual!
• http://rgm3.lab.nig.ac.jp/RGM/R_image_list?package=cummeRbund&init=true!
42
> source("http://bioconductor.org/biocLite.R")!> biocLite("cummeRbund")
% R
> browseVignettes("cummeRbund")
cummeRbund(続)• manualを参照!!
!
!
•発現の密度分布プロット!!
• CSV形式でFPKM値を出力
43
> library(“cummeRbund")!> setwd("~/Desktop/141025")!> cuff.dir <- "cuffdiff"!> cuff <- readCufflinks(dir=cuff.dir)
> dens <- csDensity(genes(cuff))!> dens
> gene.matrix <- fpkmMatrix(genes(cuff))!> write.csv(gene.matrix, file="fpkm.csv")
4. おまけ
統計解析環境R
• Rを使ったトランスクリプトーム解析!–(Rで)マイクロアレイデータ解析!
• http://www.iu.a.u-tokyo.ac.jp/~kadota/r.html!
–(Rで)塩基配列解析!• http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html!
!
• トランスクリプトーム解析 by 門田幸二 from 共立出版!–http://www.kyoritsu-pub.co.jp/bookdetail/9784320123700
45
有償のソフトウェアの利用•CLC Genomics workbench!•Agilent!
–Avadis NGS!–GeneSpring!
•TIBCO Spotfire
46
RNAseq データ 解析の流れ1
ゲノムに対する多重配列アラインメント
.bam
ゲノムアノテーション
.gtf
予測転写単位ごとの(推定)発現量情報
SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQゲノム .fa
1.tophat (bowtie)
2.cufflinks
3.cummeRbund47
遺伝子アノテーション
統合TVに動画チュートリアルが
• CLC Genomics Workbench でショートリードのマッピングを行う!–http://togotv.dbcls.jp/20110628.html
48
RNA-seq by Avadis NGS
• http://togotv.dbcls.jp/20111124.html 49
ChIP-seq by Avadis NGS
• http://togotv.dbcls.jp/20120626.html50
GeneSpring
51• https://www.youtube.com/user/GeneSpringTV
Spotfireによるcuffdiff出力の可視化
52
% cuffdiff -p 8 Caenorhabditis_elegans.WBcel215.69.gtf -L N2,UV -o cuffdiff SRR454084.bam SRR454085.bam