基于LIME-BP神经网络的医疗费用预测研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医疗成本的不断上升是医疗卫生领域亟待解决的
梗死住院患者信息ꎮ 为方便衡量预测模型的有效性ꎬ
疗成本的关键步骤ꎬ对降低医院服务成本ꎬ改善医患关
高费用、高费用五个等级ꎬ分别由等级 1 ~ 5 表示ꎮ
重要问题之一ꎮ 精准预测患者医疗相关费用是降低医
系ꎬ评价医疗保险支出具有重要意义
[1]
ꎮ 其中ꎬ医院、
既往病史
吸烟史
数据来源于国内某三甲医院自 2016 年 11 月 4 日
∗基金项 目: 河 北 省 自 然 科 学 基 金 和 重 点 研 究 基 础 专 项 课 题 号:
G2019202350
1 河北工业大学经济管理学院(300401)
2 沧州市中心医院精细化管理办公室
3 北京师范大学法学院
包含:高同型半胱氨酸血症、高脂血症、
高血压Ⅲ、 脑 梗 死 后 遗 症、 冠 状 动 脉 硬
化、脑动脉硬化、支架植入术后状态、椎
0 = 否ꎻ
动脉狭窄、支气管炎、颈动脉狭窄、心房
1 =是
颤动( 心房纤颤) 、颅内动脉瘤、 肺部感
染、贯穿性大脑动脉狭窄、大脑后动脉狭
窄、脑出血、血脂代谢异常、外周动脉病
型ꎬ有效预测并解释脑梗死患者医疗费用及其来源ꎮ 方法 使用五折交叉验证对模型进行调参ꎬ并以外推检验集的预测
结果对模型进行评价ꎮ 然后通过 LIME 算法对每条模型预测结果进行解释ꎬ最后统计费用等级的 LIME 解释结果ꎬ分析特
征重要性ꎮ 结果 微查准率、宏查准率、微查全率、宏查全率、微 F1、宏 F1 分别为 0 73、0 75、0 75、0 71、0 74、0 73ꎻ患者
类别:农民、专技人员等
疾病及并
发症诊断
1 资料来源
至 2017 年 12 月 31 日产生医疗费用的全部 9892 条脑
0 = 未婚ꎻ1 = 已婚ꎻ2 = 离婚ꎻ3 = 丧偶ꎻ
4 = 其他
TIA
是否危重
资料和方法
连续
入院 NIHSS
入院 mRS
提供决策支持ꎮ
说明
0 = 男ꎻ1 = 女
高血压
冠心病史
698
中国卫生统计 2020 年 10 月第 37 卷第 5 期
基于 LIME - BP 神经网络的医疗费用预测研究 ∗
芮 晨1ꎬ2 李 杰1 郭栋炜1 张胜发3
【 提 要】 目的 针对 BP 神经网络无法解释、规则不透明的问题ꎬ引入 LIME 算法ꎬ建立可解释的医疗费用预测模
解释与预测结果 [4] ꎮ 本文在使用 BP 神经网络进行建
模预测的同时ꎬ采用 LIME 算法对模型进行解释ꎬ筛选
出医疗费用的主要影响因素ꎬ为患者、医院、医保部门
血型描述
付款方式
患者查体
特征
连续
连续
0 = Aꎻ1 = Bꎻ2 = ABꎻ3 = O
自费、公费、新农合等
连续
连续
连续
0 = 否ꎻ1 = 是
些扰动后的数据点距离原始数据点的距离分配权重ꎬ
最终学习到黑盒模型的解释结果ꎮ
n
1
Ri
∑
1
n
MacroR =
MicroR =
TP
医疗费用预测是一种多分类问题ꎬ其模型构建主
要步骤为:(1) 按照医疗费用 y 高低ꎬ将样本划分为五
类标 签ꎬ 记 为 y i ( i = 1ꎬ 2ꎬ ꎬ 5 ) ꎬ 其 中 y1 ( y ∈ [ 0ꎬ
5000] ) 表示低费用ꎬy2 ( y∈(5000ꎬ10000] ) 表示较低
特征ꎮ 患者自然属性包括性别、年龄、婚姻、职业、民族
等ꎻ患者既往病史包括高血压、心脏病、吸烟史、药物过
敏史等ꎻ查体特征主要包含入院 NIHSS、短暂性脑缺
血发作( TIA) 、入院 mRS 等ꎻ疾病及并发症诊断维度
主要包含糖尿病、高同型半胱氨酸血症、高脂血症、颈
动脉狭窄等共性特征ꎮ 数据维度及特征如表 1 所示ꎮ
糖尿病
2 型糖尿病
过敏药物有无
0 = 否ꎻ1 = 是
0 = 否ꎻ1 = 是
0 = 否ꎻ1 = 是
0 = 否ꎻ1 = 是
0 = 否ꎻ1 = 是
0 = 否ꎻ1 = 是
699
Chinese Journal of Health StatisticsꎬOct. 2020ꎬVol. 37ꎬNo. 5
2 LIME 模型原理
查体特征与并发症维度的特征对医疗费用的影响最强ꎮ 结论 基于 LIME ̄BP 神经网络的医疗费用预测模型可以有效预
测医疗费用并解释其费用来源ꎬ对降低医疗费用ꎬ改善医患关系有重要参考价值ꎮ
【 关键词】 医疗费用 LIME 模型 BP 神经网络 数据挖掘
【 中图分类号】 R197 32 【 文献标识码】 A DOI 10. 3969 / j. issn. 1002 - 3674. 2020. 05. 014
表 1 数据维度及特征说明
维度
自然属性
特征
性别描述
年龄
行处理ꎮ
模型无关的局部可解析性算法( local interpretable
婚姻
model ̄agnostic explanationsꎬLIME) 是近年来被广泛采
职业
用的一种模型解释技术ꎬ它依据观察到的模型预测变
住院次数
BMI
化分配特征及样本权重ꎬ进而得到相应“ 黑盒” 模型的
LIME 由 Marco 等人于 2016 年提出
[5]
ꎬ是一种与
模型本身无关ꎬ针对局部( 某个样本) 的黑盒模型解释
算法ꎮ LIME 没有深入分析黑盒模型内部运算ꎬ与模
型性能没有联系ꎮ 为计算出特征对预测结果的影响程
度ꎬLIME 在输入值附近添加微小的扰动ꎬ观察模型将
样本预测为各个类别的概率变化ꎬ最后 Fra bibliotekIME 根据这
策树等可视化能力强但预测精度相对较差的“ 白盒”
模型 [3] ꎮ 若问 题 的 预 测 难 度 较 大ꎬ 对 精 度 的 要 求 较
高ꎬ则需要使用神经网络、随机森林等“ 黑盒” 模型进
本文将上述数据划分为低费用、较低费用、中费用、较
数据主要包括患者自然属性、患者既往病史、患者
查体特征、疾病及并发症诊断四个维度ꎬ共包含 38 个
医保机构等部门可以通过对患者医疗费用的合理预测ꎬ
挖掘造成医疗费用上升的主要因素ꎬ发现各环节的成本
降低空间ꎻ患者可以客观评价自身医疗费用高低ꎬ有效
降低医疗过程中的信息不对称ꎬ避免医患纠纷
[2]
ꎮ
预测模型可大致划分为“ 黑盒” 与“ 白盒” 两类ꎬ由
于医疗卫生领域对模型的易理解性、可解释性与透明
化程度要求较高ꎬ现有预测模型大多采用线性回归、决