【CN110120265A】基于多维特征和模型融合的提高预测血尿酸精度的方法【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910355425.7
(22)申请日 2019.04.29
(71)申请人 天津大学
地址 300072 天津市南开区卫津路92号
(72)发明人 于瑞国 潘丽 赵满坤 高洁 
于健 李雪威 喻梅 安永利 
(74)专利代理机构 天津市北洋有限责任专利代
理事务所 12201
代理人 李林娟
(51)Int.Cl.
G16H 50/70(2018.01)
(54)发明名称
基于多维特征和模型融合的提高预测血尿
酸精度的方法
(57)摘要
本发明公开了一种基于多维特征和模型融
合的提高预测血尿酸精度的方法,包括:对清洗
后的数据集中的数字特征和文字特征,分别进行
相关系数计算筛选出重要特征;对所述重要特征
进行扩充,以此获得更加丰富的特征;根据递归
消除从更加丰富的特征中删除无用特征,选择出
最佳特征,重复迭代,直至遍历所有的特征;对原
始语料进行预处理删除其中的异常符号,并删除
无用单词;对预处理后的语料进行分词并通过
Doc2vec算法提取特征向量,对特征向量进行训
练,将训练结果作为新的特征向量加入到原始特
征集中,构建完备的特征集;基于Boosting和
Stacking的多模型融合,对完备的特征集进行预
测,
获取血尿酸值的精度。

权利要求书1页 说明书8页 附图1页CN 110120265 A 2019.08.13
C N 110120265
A
1.一种基于多维特征和模型融合的提高预测血尿酸精度的方法,其特征在于,所述方法包括以下步骤:
对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;对所述重要特征进行扩充,以此获得更加丰富的特征;
根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征,重复迭代,直至遍历所有的特征;
对原始语料进行预处理删除其中的异常符号,并删除无用单词;
对预处理后的语料进行分词并通过Doc2vec算法提取特征向量,对特征向量进行训练,将训练结果作为新的特征向量加入到原始特征集中,构建完备的特征集;
基于Boosting和Stacking的多模型融合,对完备的特征集进行预测,获取血尿酸值的精度。

2.根据权利要求1所述的一种基于多维特征和模型融合的提高预测血尿酸精度的方法,其特征在于,所述对预处理后的语料进行分词并通过Doc2vec算法提取特征向量具体为:
通过Doc2vec模型的训练获得若干维文本向量,每一行代表一位体检者的检查信息;所获得的文本向量仅由Lightgbm模型单独训练以获得预测结果,将预测结果作为文本向量特征,合并到数值特征中用于构建完备特征集合。

3.根据权利要求1所述的一种基于多维特征和模型融合的提高预测血尿酸精度的方法,其特征在于,所述基于Boosting和Stacking的多模型融合具体为:
1)基于Boosting的GBDT算法,对于弱学习器进行初始化;
2)GBDT通过迭代不断计算残差r im ;
3)对叶子区域j=1,2,..J计算最佳拟合值,
如下式所示;
4)更新学习器,
如下式所示:
其中,I为满足x∈R jm 条件个数,更新后的学习器输入x,输出f(x)即为预测值。

权 利 要 求 书1/1页2CN 110120265 A。

相关文档
最新文档