【CN109920547A】一种基于电子病历数据挖掘的糖尿病预测模型构建方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910161929.5
(22)申请日 2019.03.05
(71)申请人 北京工业大学
地址 100124 北京市朝阳区平乐园100号
(72)发明人 闫健卓 孔永辉 谭绍峰 贺东东
(74)专利代理机构 北京思海天达知识产权代理
有限公司 11203
代理人 沈波
(51)Int.Cl.
G16H 50/30(2018.01)
G16H 50/70(2018.01)
G16H 10/60(2018.01)
(54)发明名称
一种基于电子病历数据挖掘的糖尿病预测
模型构建方法
(57)摘要
本发明公开了一种基于电子病历数据挖掘
的糖尿病预测模型构建方法,该方法从电子病历
数据清洗和预测模型的构建出发,将从各个服务
器导出来的电子病历数据通过唯一的病案号进
行数据的整合,数据包括基本信息以及诊断、糖
化以及生化检查数据,将基本信息,诊断信息等
合并成一个完整的样本。对数据进行了数据的清
洗,去除异常数据、重复数据和存在的错误数据,
将清洗后的数据存入数据库。对清洗后的糖尿病
数据进行了分类预测,通过结果可以得出,
改进的BP神经网络模型无论分类精度还是模型评价
指标都优于其他算法模型。本方法提高了人群中
未诊糖尿病性肾病的检出率,增强糖尿病性肾病
防治效果,
并节省大量的卫生资源。权利要求书1页 说明书4页 附图3页CN 109920547 A 2019.06.21
C N 109920547
A
权 利 要 求 书1/1页CN 109920547 A
1.一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:本方法的实施步骤如下,
步骤1:将从各个服务器导出来的电子病历数据通过唯一的病案号进行数据的整合,将电子病历的基本信息和诊断信息等合并成一个完整的样本;
步骤2:将电子病历数据预处理,得到干净的可用的电子病历数据并存入数据库;
步骤3:分析所得的电子病历数据情况,确定糖尿病的若干个危险因素,根据糖尿病数据的特点对选取的BP神经网络进行改进,并在此基础上建立糖尿病预测模型;根据糖尿病数据的特点对选取的BP神经网络进行改进,并在此基础上建立糖尿病预测模型,并使用处理过的电子病历数据进行实验;
步骤4:采用K近邻、逻辑回归、决策树、随机森林算法对糖尿病数据进行模型的训练预测,并与步骤3的结果对比。
2.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤1具体包括:电子病历的数据包括基本信息包括入院日期、出院日期、姓名、年龄、性别以及诊断、糖化以及生化检查数据;基本信息和住院检查数据来源于不同的服务器和数据库,需要对其进行整合得到可用于统计分析的数据集。
3.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤2:电子病历预处理包括:数据清洗、数据变换、数据规约。
4.根据权利要求3所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:数据清洗:将检查检验数据通过住院号与患者的基本信息匹配好后,发现数据存在可读性不强、部分体检化验数据缺失严重,部分数据存在异常值等问题;噪声数据由于病历是由医生手工记录的,记录形式不统一,不同的医生记录的方式不同,因此首先对数据进行了数据的清洗,去除异常数据、重复数据和存在的错误数据。
5.根据权利要求3所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:数据变换:包括几个方面内容,第一如果需要的特征不存在,通过已有的特征计算得到,其次对于数据中不满足规范的数据进行数据规范化的处理。
6.根据权利要求3所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:数据规约:原始数据中包含很多的特征,并不是所有的特征都需要,减少无帮助的数据特征。
7.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤3:糖尿病预测模型的构建,在分析了电子病历数据的特点之后,选取BP神经网络作为基础预测模型,根据BP神经网络存在对初始权重敏感,极易收敛于局部极小的缺点以及糖尿病数据的不规则时序特点,对BP神经网络进行了改进,使其能够后更好的达到预测的效果。
8.根据权利要求1所述的一种基于电子病历数据挖掘的糖尿病预测模型构建方法,其特征在于:步骤4:实验结果对比:同时采用了K近邻、逻辑回归、决策树、随机森林算法对处理后的糖尿病数据进行了预测。
2