rck; accurate and efficient inference of sequence and structure-based protein-rna binding models...

11
早稲学 浜研究室 本学術振興会特別研究員(PD) 福永 津嵩

Upload: tsukasa-fukunaga

Post on 22-Jan-2017

214 views

Category:

Science


2 download

TRANSCRIPT

Page 1: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

早稲⽥田⼤大学 浜⽥田研究室⽇日本学術振興会特別研究員(PD) 福永 津嵩

Page 2: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

RNA結合タンパク質とは何か?

• RNA結合タンパク質(RBP)は、mRNAやlncRNAに結合して、スプライシングや発現量の制御を⾏行う

• ALS(筋萎縮性側索硬化症)をはじめとする神経疾患に、RBPが関与する事が知られている。

• RBPがどのRNAのどの領域に結合するのかを調べることが重要→モチーフ解析の重要性

2

Page 3: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

RBPの結合には⼆二次構造も重要

• RBPの結合には、配列モチーフだけでなくターゲット領域の⼆二次構造が重要である事が知られている。

• MEMEなど、DNA⽤用のモチーフ解析ソフトウェアをそのまま適⽤用する事ができない!→RNA⼆二次構造を考慮したモチーフ解析ソフトウェアの重要性

3

Page 4: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

RNA⼆二次構造を考慮したモチーフ発⾒見ソフトウェア

• 配列情報のみから発⾒見• MEMRIS (Hiller et al. (2006), NAR)• RNAMotifFinder (Wang et al. (2011), BMC Genomics)• GraphProt (Maticzka et al. (2014), Genome Biology)

• affinityデータが必要 (RNAcompete)• RNAcontext (Kazan et al. (2010), PLOS Computational Biology)• RCK (Hiller et al. (2016), ISMB2016)

• アプタマー(核酸医薬の⼀一種)⽤用• AptaMotif (Hoinka et al. (2012), ISMB2012)

Page 5: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

RNAcompete

RBPの結合活性をin vitroで測る⽅方法

• (Ray et al. (2011), Nature Biotechnology)

Page 6: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

RNA context

• (Kazan et al. (2010), PLOS Computational Biology)

• ⼆二次構造はRNAplfoldで予測

Page 7: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

RCK

• PWMによる学習からk-merでの学習へ• position ごとの依存関係を考慮

• ⼆二次構造への結合特性を、各k-merごとに学習

Page 8: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

in vitroでの性能評価

• 予測された結合affinityと実際のaffinityとの相関係数で評価

• ⼆二次構造を考慮しないDeepbindや、先⾏行研究のRNAcontextよりもよい。

Page 9: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

in vivoでの性能評価

• in vitroで学習したモデルをin vivoデータに適⽤用

• 先⾏行研究と同程度に良い(統計的有意差なし)

Page 10: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

気になる点• 最終的な(⽣生物学上の)ゴールをin vivoでのターゲット予測だとすると、その精度が向上していないのは果たしてどうなのか?

• in vivoでの⽐比較は、(学習データが違ってくるとはいえ)GraphProtとも⽐比較するべきではないか?

• 精度評価しかしておらず、折⾓角k-merごとに学習したのにpositionごとの依存関係についての解析が不⼗十分。また、全然異なるk-merのaffinityが⾼高くなっていたりする事がないのかは気になるが、調べていない。

• RNAcompeteは、short RNAしか調べられないので、Bulge/Internal/Multi loopに対するbinding affinityが適切に調べられるようには思えない。また、negative datasetとpositive datasetの間でsequence compositionがかなり違うので学習にバイアスがかかる気がする。

Page 11: Rck; accurate and efficient inference of sequence  and structure-based protein-rna binding  models from rn acompete data

なぜISMBに通ったのか

• 問題設定の重要性(そして研究の進んでなさ)は疑う余地がない• ENCODEも近年RNA-RBP結合データの網羅的取得を始めた

• 解釈はまだ深められるように思うが、⼿手法としては問題はないように思う(ISMBでは、あまり⽣生物学的解釈は問われない気がする)

• 勝⼿手な偏⾒見ですが、多分⽣生物学的解釈があったらGenome Biologyとかに出すのだと思う