negative training samples are also important for mining micrornas from genome-scale data

23
Negative training samples a re also important for minin g microRNAs from genome-sca le data BY Leyi Wei

Upload: savannah-sargent

Post on 31-Dec-2015

53 views

Category:

Documents


5 download

DESCRIPTION

Negative training samples are also important for mining microRNAs from genome-scale data. BY Leyi Wei. 背景介绍. microRNA 和 microRNA precursor ( 1 ) microRNA 是一类长度大约为 22nt 的非编码 RNA ,与参与调控细胞过程,近期研究发现与疾病也有很大关联,发掘 microRNA 意义重大。 - PowerPoint PPT Presentation

TRANSCRIPT

Negative training samples are also important for mining microRNAs fr

om genome-scale data

BY Leyi Wei

背景介绍

• microRNA 和 microRNA precursor

( 1 ) microRNA 是一类长度大约为 22nt 的非编码 RNA ,与参与调控细胞过程,近期研究发现与疾病也有很大关联,发掘 microRNA 意义重大。

( 2 ) microRNA precursor ( pre-miRNA ) 俗称为前体 microRNA 。 简单来说 microRNA 与 pre-miRNA 的关系就是: pre-miRNA 包含着 microRNA 。 当然不仅仅是简单的包含,这只是个前提。 Pre-miRNA 的序列是能形成典型的发卡环( hairpin )结构。

The pathway of microRNA in mammals

预测 microRNA 的方法

• Comparative methods

基于同源信息 ,序列保守性信息等等,只 能预测保守的 microRNA

• Non -- comparative methods

其中很多方法都是基于机器学习算法, 能够预测非保守的 microRNA

影响机器学习的因素1. 分类器 和 特征 在目前的大多数方法都集中于对分类器很特征的开发 而性能提高的却不是很多。

• 训练集 很少的方法会去研究训练集的选取,特别是反例的选取。

在机器学习方法中训练集一般是由:正例( real pre-miRNA )和反例 ( pseudo pre-miRNA )所组成。

正例 是由实验验证过的 real pre-miRNA 组成的

反例 则是由 pseudo pre-miRNA 组成的,这是一类和正例具有非常相似特征的序列,也具有典型的发卡环。由于与 real pre-miRNA 的极其相似,所以被应用于作为反例集。

训练集如何影响分类器性能呢?

正反例的相似性高往往能得到高的性能 现有的少量方法也有致力于反例的提取,我们发

现多数的方法都是用简单的过滤在 CDS 上选取与正例相似的,但是用这些反例组成的训练集真的能得到高的分类器性能吗?

(实验设计)用我们的测试集做测试:

• ROC- analysis

实验总结1. 在对正例进行预测时,现有的方法都表现

出差不多的性能,与我们的方法相当。

2. 而在预测反例时,现有方法性能表现不一,都比较差。导致了分类器的性能较差。这说明现有方法在预测反例集是不够有效的

基于我们负集训练的效果• Triplet-SVM classifier

基于我们负集训练的效果• Mirident-classifier (Table)

Mirident-classifier (Figure)

Our ensemble classifier based on this negative set

1. Our ensemble classifier performance 实验设计: 由于用的是联合分类器,我们

与其单一分类器做了比较,看是否有提高性能。

2. Feature set performance 实验设计: 由于我们主体的特征集都是用

别人的,加上自己提出的三个特征,看是否这三个特征会提高分类器性能

mirnaDetect

• 基于我们的之前的分类器系统,还结合使用了搜索算法,我们开发出了能在基因组中挖掘 pre-miRNA 的程序

mirnaDetect

• 算法流程:

投稿经验• 作为一个菜鸟,一篇文章都还没有发成功,但是很愿意很

大家投稿时的感受哈 ~ 主要针对投国外期刊( SCI ): ( 1 )投哪? 怎么投? 一开始, 听老师的。一般作为菜鸟肯定不知道哪些期刊好,

哪些坏,听老师的,过来人有经验。一般的原则就是从高往低的投。幸运的话,高水平的期刊往往能返回一些你的文章的命门,建议先投会议(会议往往拒了你,也会给你点意见的)。

当然到了你自己对这领域有所了解,就可以自主选择期刊了。

( 2 )文章格式。 选择完 期刊了,注意有些期刊还会要求你

文章的格式问题,如果是会议的话都会有模板,一般他们的网站上都有。

( 3 )有些会要求要写 cover letter .

需要的话找我要模板。

(4) 终于投出去了。 一般国外期刊的审稿周期很长,比较快的

应该至少也要一个月才有消息吧。网站上的状态会持续的保持在“ under review” 。

直到有消息前,干点别的吧 ~

有消息的话,他们会邮件通知 responding author

( 5 )终于有消息了! Rejected OR ( major ) Revision ( 6 ) Revision 说明你还有希望。 你要重视。 Editor或者

Riviewers 会给你一堆的意见。要做到逐条修改,认真对待。编辑会要你再提交修改版的 manuscript 时候,把你对意见的回复也提交上去,一般这叫做 The Rebuttal Letter

但是要怎么写呢? 请看下面一个例子:

• 提交 Revised manuscript : 会要求你把修订过程一并提交,一般叫做 T

rack Changes File 。 可是你在修改后,往往就是你接受所有修订的文章,没有修订痕迹怎么办?

谢谢大家!