【CN109920477A】基于Adaboost与BP神经网络融合的多物种PremicroRNA识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910141392.6
(22)申请日 2019.02.26
(71)申请人 哈尔滨工业大学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 胡杨 程亮 徐培刚 赵天意 
张凝一 
(74)专利代理机构 北京天奇智新知识产权代理
有限公司 11340
代理人 范光晔
(51)Int.Cl.
G16B 20/00(2019.01)
G16B 40/00(2019.01)
G06K 9/62(2006.01)
G06N 3/04(2006.01)
(54)发明名称
基于Adaboost与BP神经网络融合的多物种
Pre-microRNA识别方法
(57)摘要
本发明提供了一种基于Adaboost与BP神经
网络融合的多物种Pre -microRNA真伪识别方法,
属于多物种Pre -microRNA真伪识别技术领域。


发明提取N -Gram频率、能量特征、基于结构多样
性的特征和三重结构序列;通过提取的特征及其
相应的标签建立N个BP网络分类器;在训练和建
立分类器时,每个分类器将获得相应的权重;最
后,通过组合这些N个权重分布的分类器获得了
强分类器。

本发明不仅可以识别出Pre -microRNA
的真伪,还可以识别出其所属物种;可以有效地
克服输出不稳定和过拟合现象的缺陷,通过整合
多分类器获得了强大的分类器;并且分类器的准
确性高于其他方法。

权利要求书2页 说明书7页 附图2页CN 109920477 A 2019.06.21
C N 109920477
A
1.一种基于Adaboost与BP神经网络融合的多物种Pre -microRNA真伪识别方法,其特征在于,包括以下步骤:
步骤1:从pre -miRNA序列中提取N个特征;
步骤2:通过提取特征及其相应的标签建立N个BP分类器;
步骤3:在训练和建立分类器时,计算每个分类器获得的相应权重;
步骤4:组合N个权重分布的BP分类器获得强分类器。

2.根据权利要求1所述的识别方法,其特征在于,所述步骤1中从pre -miRNA序列中提取N个特征包括一级序列特征和二级序列特征。

3.根据权利要求2所述的识别方法,其特征在于,所述一级序列特征为N -Gram频率,选择N值为3,对于某个序列,三核苷酸组中存在64个组合,计算序列中64个组合出现的频率。

4.根据权利要求2所述的识别方法,其特征在于,所述二级序列特征包括能量特征、基于结构多样性的特征和三重结构序列;其中,
所述能量特征为最小自由能;
所述基于结构多样性的特征为pre -miRNA序列中的核苷酸配对G -U配对;
所述三重结构序列为对于任何三个核苷酸组,有8个可能的字符组合,考虑三个字符组的第一个核苷酸,有32个不同的组合。

5.根据权利要求1所述的识别方法,其特征在于,所述步骤2中设置BP分类器的参数包括:
设置隐藏层数为3,
隐藏层中的节点数为M,
其中,M为节点数;a为取1到10的常数;N为特征数量;L为输出维度,因为输出的维度是分类标签,其表示为0或1,所以L=1;
确定BP神经网络的节点数和隐藏层后,BP网络的结构即确定;然后设置BP网络的参数和功能,BP网络的参数包括:Epochs,学习率和误差界限;功能包括:性能函数,隐层节点的传递函数,输出节点的Trans -fer函数和训练函数。

6.根据权利要求1所述的识别方法,其特征在于,所述步骤2中获得BP分类器的方法为:对于给定的多个分类训练数组,输入数据T={(x 1,y 1),…,(x N ,y N )},具有任意整数标签,其中,T代表输入数据,x代表特征,y代表分类标签;
首先,初始化训练数据权重分布,设置每个样品的初始重量为1/N;
则权重表示如下:然后,训练样本以获得BP分类器G m (x),并减少正确分类样本的重量,同时增加不正确的分类样本的权重。

7.根据权利要求1所述的识别方法,其特征在于,所述步骤3的具体步骤为:
计算BP分类器的误差率:
通过统计不正确分类样本的权重,得到相应分类器的权重,如下:
权 利 要 求 书1/2页2CN 109920477 A。

相关文档
最新文档