【CN110060738A】基于机器学习技术预测细菌保护性抗原蛋白的方法及系统【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910264168.6

(22)申请日 2019.04.03

(71)申请人 中国人民解放军军事科学院军事医

学研究院

地址 100850 北京市海淀区太平路27号

(72)发明人 陈薇 宰晓东 徐俊杰 殷瑛 

张军 李汭桦 

(74)专利代理机构 北京市众天律师事务所

11478

代理人 李新军

(51)Int.Cl.

G16B 30/10(2019.01)

G16B 40/00(2019.01)

G16B 50/00(2019.01)

(54)发明名称基于机器学习技术预测细菌保护性抗原蛋白的方法及系统(57)摘要本发明公开了一种基于机器学习技术预测细菌保护性抗原蛋白的方法,所述方法包括:(1)数据收集:收集已知细菌保护性抗原和非保护性抗原分别作为学习模型的阳性集和阴性集,并分析抗原序列的特征因素;(2)模型建立:采用投票算法将支持向量机算法、神经网络算法、贝叶斯分类算法和决策树算法集成,建立保护性抗原预测的机器学习模型;(3)保护性抗原预测:对细菌待预测蛋白序列进行特征值分析并利用建立好的模型预测其是否为保护性抗原,排除与人、鼠同源性蛋白,输出预测到的细菌保护性抗原。本发明可对细菌全基因组编码的蛋白进行保护性抗原预测,提高了预测准确度,能够缩短细菌疫苗研发的进程,

适用于广泛应用。权利要求书2页 说明书15页 附图1页CN 110060738 A 2019.07.26

C N 110060738

A

权 利 要 求 书1/2页CN 110060738 A

1.一种基于机器学习技术预测细菌保护性抗原蛋白的方法,所述方法包括以下步骤:

(1)数据收集:收集已知细菌保护性抗原作为机器学习模型的阳性数据集,收集已知非保护性抗原作为机器学习模型的阴性数据集,并基于与保护性抗原密切相关的特征因素,对数据集中抗原的蛋白序列特征进行分析,构建保护性抗原和非保护性抗原特征注释数据集,用于后续机器学习模型的构建,所述特征因素包括:亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率;

(2)建立模型:针对抗原特征注释数据集,将数据集分为训练集和测试集两部分,使用机器学习算法,对数据集进行训练后建立模型,再采用投票算法对所述机器学习算法建立的模型集成以建立保护性抗原预测的机器学习模型,所述机器学习算法包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法;

(3)保护性抗原预测:输入待预测细菌全基因组蛋白序列后,使用计算机程序分析获得相应的特征因素值,并利用建立好的机器学习模型进行保护性抗原的预测,判断该蛋白是否为保护性抗原蛋白,并排除人、鼠蛋白同源性,输出预测到的细菌保护性抗原。

2.根据权利要求1所述的方法,其特征在于,在步骤(1)中所述序列特征分析时,使用CELLO软件分析获选抗原的亚细胞定位特征;使用BLAST软件分析获选抗原的保护性功能域特征;使用VaxiJen软件分析获选抗原的氨基酸抗原性特征;使用MED软件分析获选抗原的表位密度特征;使用Mp3软件分析获选抗原的毒力基因概率特征;使用Vaxign软件分析获选抗原的黏附概率特征。

3.根据权利要求1所述的方法,其特征在于,步骤(2)中所述训练集占总集合的70%,用于建立预测模型,测试集占总集合的30%,用于对所建立模型进行评价和验证,并将数据集中数据进行正态化处理。

4.根据权利要求1所述的方法,其特征在于,步骤(2)中所述投票算法评估的指标包括:精确率、召回率、F1值和样本数目。

5.根据权利要求1所述的方法,其特征在于,在步骤(3)中所述计算机程序分析获得相应的特征因素值时,使用CELLO软件对细菌全基因组蛋白进行蛋白亚细胞定位预测,获得待预测蛋白亚细胞定位概率;使用BLAST软件,将细菌全基因组蛋白与保护性功能域数据集进行检索比对,获得待预测蛋白保护性功能域相似性;使用VaxiJen软件对细菌全基因组蛋白进行氨基酸性质分析,获得待预测蛋白抗原性数值;使用MED软件对细菌全基因组蛋白进行表位密度分析,获得待预测蛋白表位密度;使用Mp3软件对细菌全基因组蛋白进行毒力分析,获得待预测蛋白毒力基因概率;使用Vaxign软件对细菌全基因组蛋白进行粘附素分析,获得待预测蛋白黏附概率。

6.一种基于机器学习技术预测细菌保护性抗原蛋白的系统,所述系统包括以下模块:

(1)数据收集模块:收集已知细菌保护性抗原作为机器学习模型的阳性数据集,收集已知非保护性抗原作为机器学习模型的阴性数据集,并基于与保护性抗原密切相关的特征因素,对数据集中抗原的蛋白序列特征进行分析,构建保护性抗原和非保护性抗原特征注释数据集,用于后续机器学习模型的构建,所述特征因素值包括:亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率;

(2)模型建立模块:针对抗原特征注释数据集,将数据集分为训练集和测试集两部分,使用机器学习算法,对数据集进行训练后建立模型,再采用投票算法对所述机器学习算法

2

相关文档
最新文档