患者地域来源数据提取方法的分析与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

患者地域来源教据提取方法的分析与卖现
罗辉」薛万国*
*通信作者:解放军总医院医学信息情报所副所长,医疗大数据中心主任,高级工程师,100853,北京市海淀区复兴路28号
①解放军总医院医学信息情报所,10()853,北京市海淀区复兴路28号
摘要 目的:掌握患者地域来源及人次数,为医院管理和决策提供参考依据。

方法:介绍患者地域来源数据抽取整合的 思路和方法。

结果:梳理总结各种患者地域来源数据抽取方法的适用范围、执行效果和选择的优先级。

结论:数据质量的 好坏直接影响到数据提取的过程和统计分析的结果,建议从数据采集录入的源头开始,抓好数据质量的全流程管控。

关键词 患者地域来源 数据提取 思路 方法
Doi:10.3969/j.issn.1673-7571.2019.01.012
[中图分类号]R319
[文献标识码]A
Analysis and Implementation of Data Extraction Method for Patients' Geographical Origin / LUO Hui, XUE Wan —guo//China Digital Medicine.—2019 14(1): 39 to 40
Abstract Objective: To grasp the source and frequency of patients in hosp 让;il, so as to provide reference for hospital management
and decision-making. Method: Introduce the idea and method of extracting and integrating regional source data of patients. Results:
Sort out and summarize the application scope, execution effect and priority of data extraction methods from various geographical sources. Conclusion: The quality of data directly affects the process of data extraction and the results of statistical analysis. It is
recommended to grasp the whole process control of data quality from the source of data collection and input:.
Keywords regional source of patients, data extraction, thinking, method
Corresponding author Vice Director of Medical infbnnation Institute, the PLA General Hospital, Beijing 10()853, P.R.C.
患者地域来源统计是各级各类医疗卫生管理部门和医疗机构经常开展的一项基础性工作。

2017年底,解放军总医院
进行了2012-2016年癌症相关数据的统计分析,其中,患者地域来源统计是不可或缺的重要内容。

现将数据抽取、整 合、归类。

1数据源
从HIS 中抽取患者的ID 号、工作单位及地址和邮政编码信息,作为患者地域来源统计的数据源,建立患者地址来源信
息表单。

2数据质量
通讯地址的标准格式是省+地市+区县+街道乡镇及小区+单元+楼层+门牌号或自然村组,省级信息包括省、自治区、 直辖市和特别行政区的信息,地市级信息包括地级市、地区、自治州和盟的信息⑴。

统计患者的地域来源,一般只需要统
计到患者通讯地址的省一级信息,无需涉及或细化到地市、区县乃至街道乡镇级的信息。

浏览提取到的患者地域来源信息表单后发现,绝大部分患者的通讯地址格式规范,内容详实,包含省级、地市级信
息,满足统计需求,但也不同程度地存在着以下问题:一是内容不全:部分患者的地址信息只有地市级或区县级的信息, 无省级信息,邮政编码缺失的现象也比较严重;二是格式不规范:部分患者通讯地址填写的是单位名称,而非标准格式的 地址信息内容;三是地址信息不唯一:部分患者有多次入院记录,通讯地址的填写前后不一致,有重复、不唯一的现象。

以上问题,给地址信息的抽取和数据统计带来困难。

因此,采取了以下地址信息抽取的思路和方法。

3地址信息抽取的思路和方法
首先,建立省级地名目录。

考虑到省级地名大多为两个汉字的情况,先抽取患者地址信息中的前两个汉字,并与省级地名目录中的内容做比较,如内容一致,则将省级地名直接填写到新建的患者地域来源一栏,反之,患者地域来源栏置空。

针对黑龙江、内蒙古等省级地名有三个汉字的情况,也是只抽取地址信息中的前两个汉字,但在填写地域来源信息时填写对应的三个汉字的省级地名到地域来源栏。

其次,针对无省级信息、只有地市级地址信息的情况,建立省级地名与其下辖的地市级地名对照表。

在前—工作的基础上,继续抽取地域来源栏为空的患者地址信息中的前两个汉字,并与地市级地名做比较,如内容一致,则填写地市级地名对应的省级地名到患者地域来源栏,否则,患者地域来源栏仍然置空。

针对地址内容填写不规范,且在医院就诊的北京居民和驻京单位人数较多的情况,建立北京市与其下辖的各区县及医院周边主要街道、部分驻京就诊单位之间的地名和单位名称对照表,思路和操作方法同上。

对于可能重复和混淆的市和区县的信息,如辽宁省的朝阳市和北京市的朝阳区,黑龙江的大兴安岭和北京的大兴区,如果地址信息中没有填写辽宁省、黑龙江和北京市,而是直接填写了朝阳市、朝阳区或大兴安岭、大兴区,那么程序在提取地址信息前两个汉字且对应到省级地名时会出现
因重复且导致计算机报错的情况,此
时,可根据计算机的提醒和报错信
息,采用人工甄别的方法填写,不由
计算机程序批量处理。

针对无省级和地市级信息、内容
分散、数量不多、无法穷举的地址信
息,采用邮政编码识别的方法。

我国的邮政编码归采用四级六位制
的编排方式,前两位代表省级城市,
中间两位代表省会城市、地级市和区
县,最后两位代表投递邮局回,即从
邮政编码的前两位就可以确定需要的
省级地址信息。

各省级区域按照地理
大区分配邮政编码的前两位,根据所
辖市、区、县的多少,分配一个或两
到三个邮政编码的前两位数字,如直
辖市北京是10、辽宁是11、12,河北
是05、06、07,但由于历史归属等原
因,也存在着不同的省级地区共用邮
政编码前两位的现象,这些特例如表1
所ZF,需区别对待。

通过程序,先把特例邮编对应的
省级地域信息遴选出来填报,再将普通
邮编前两位对应的省级地名填写到患者
地域来源栏,不能填报的仍然置空。

通过以上几种方法,可填报绝大
部分患者的地域来源信息,但仍有部
表1省级地区共用邮政绵码前两位的持例情况汇总表
地区邮政编码区、县邮政编码共用的省份及
前两位(特例)邮编前两位天津30塘沽区330452江西33
甘肃73,74定西718201,713309,478301陕西71
河南47内蒙古01,02兴安盟1357
**、1374
**、1375
**、吉林13
1376
**、1377
**、1378
**
呼伦贝尔1626
**、1627
**、1628
**、黑龙江16
1654
**
阿拉善盟7354
**、7373
**、7503
**甘肃73
宁夏75
分患者的地址信息无法通过以上方法
提取,只能借助于人工,利用有限的
信息内容,逐条判断、查询、补录。

如针对一个患者有多次住院记录、多
个通讯地址的情况,根据去少存多的
原则,甄别、选择患者的地域来源信
息;针对患者缺失省级和地市级地名
信息的情况,根据患者仅有的单位名
称或县级信息,查询、补录患者的地
域来源信息;人工甄别和查询补录均
有困难的只能当垃圾信息删除处理。

根据患者手机号归属地查询,
也可提取到患者的地域来源信息。


于没有找到手机归属地查询的相关规
则,故这一方法没有尝试,在此不做
赘述。

4结果
采用省级地名对照法、地级市地
名对照法、北京市和主要街道及部分
就诊单位名称对照法、邮政编码查询
法和人工甄别查询和补录法,分别完
成患者地域来源信息抽取的77.72%、
21.11%,0.93%、0.01%和0.23%。

根据患者的ID号和抽取到的地域
来源信息,统计出医疗服务的覆盖范
围、患者的地域来源分布及人次数、
人数等相关信息。

(下转第60页)
疗,需要继续加强学科建设。

用DRG 组数和病例组合指数(CM门评价医院的医疗服务广度和整体技术难度,DRGs组数越多,说明医院收治疾病范围的病种越广泛。

对组数较低的医院,应进一步加强院内病案首页质控与信息化建设,提升病案首页质量。

CMI指数越大,说明技术难度越高,部分医院CMI指数较低,与其医院性质、收治病种难度、病案首页填写有关。

3.3医疗服务效率分析医疗服务效率通过费用消耗指数及时间消耗指数两个指标,即治疗同类疾病医疗费用高低和住院时间长短来反映。

资历较老的三级综合医院费用消耗指数较高,应进一步控制住院费用。

湖北省有51%的综合医院住院时间与住院费用情况相对较好,说明大部分综合医院医疗服务效率较高,控费取得了一定成效。

但是仍然有6家三级综合医院不
(上接第40页)
5结论
从统计结果可以看出,省级地名对照法是最有效的患者地域来源信息提取法,其次,是地市级地名对照法。

邮政编码因为填报的人数有限,尽管梳理和汇总我国的邮政编码、找寻其规律和特例费了不少功夫,但收效甚微,不建议使用。

人工甄别查询和补录的方法虽费时费力,但这是在依靠SQL语句无法完成批量数据提取时的最终解决方案,可根据数据统计的需要选择性使用。

6思考
从患者地域来源信息的提取过程可以看出,数据质量的好坏,直接关系到数据提取过程是否顺利及统计结仅住院时间长,费用消耗也高,这些
医院应缩短住院天数,控制医疗费用
过度增长,进一步提高工作效率。

3.4医疗安全分析"医疗安全”指标
使用全市总体病例范围内各类死亡率
的DRG组发生死亡的概率,用于度量
医院住院服务的安全和质量。

死亡率
呈现较大差别,与医院性质、收治病
种难度有关,如省内某医院是老年疗养
医院,故死亡率也较高,同时,死亡率
高的原因也可能不在疾病的本身而在临
床过程。

因此,对死亡率较高的医院,
也应进一步核实明细病案,分析死亡原
因,提高医疗安全与质量。


/参考文献_
|I|程凯,周仕海.DRGs推广对临床路
径发展的促进作用探析[J]•中国数字医
学,2013,8(11):101-103.
[2]郑乐乐,陈善豪,曹卫军,等•基于病种的精
果是否准确。

在医疗大数据的统计分
析利用如火如荼广泛开展的今天,如
何保证数据的完整性、规范性、一致
性和准确性便显得尤为重要。

从数据
填报记录的源头抓起,搞好数据质量
的全流程管控意义重大,影响深远,
需要管理部门的高度重视和全体医护
人员的共同努力。


/参考文献_
|1|通讯地址格式填写说明[EB/OL].http://
/p-522543974.htnil.
[2|全国邮政编码查询系统[EB/OL].http://
/.
[3]中国邮政编码的编写规则[EB/OL].https://
/question/5()6()45735.htnil.
【收稿日期:2018-03-28]
[修回日期:2018-07-01]
(责任编辑:肖姑妖)
细化医疗管理模式研究与实践|J].中国医院
管理,2()1鮒):33-35.
|3|斯琴,邱杰,夏拥军,等•基于PDCA模式对
医院实施DRGs效果的评价与意义[J].中国数
字医学,2015,10(1):37-39.
|4|李姑■,胡光宇.DRGs在医院精细化管理中
的应用出.中国管理信息化,2016,19(14):72-73.
[5|李维,计虹,宋文利,等•打造住院线上
流程提升就诊服务效率|J|.中国数字医
学,2017,12(10):32-34.
|6]李洪源.标准化死亡率比山.中国卫生统
计,1991,8(1):60-63.
|7]张娟,鱼锋,李笠•某医院基于DKGS:的住
院绩效评价H中国病案,2017,18⑶:13-16.
|8]罗爱静,常维夫•湖南地区某三甲综合
医院住院医疗绩效分析|J]•中国数字医
学,2017,12(2):89-90,98.
【收稿日期:2018-03-18]
(责任编辑:张倩)
(上接第43页)
[7]Frank Kandzioda.Treatment of traumatic
cervical spine instabil让y\v让h interbody Rision
cagesrA prospective controlled study w让h a
2—year follow—up[J|.Injury Int.J.Care Injured,
2005,36(12).
[8]Matage G.cervical cage fusion with5
different implants25()cases|J|.Acta Neurochir
(Wien),2002,144⑹:539-55().
[9]Majd ME,Vadhva M,Hok RT.Anterior
cervical reconstruction using titanium
cages w让h anterior plating SpineSurgery[J|.
Spine,1999,24(15):1604-10.
[10]McAfee P,Regan J,Farey I,et al.The
biomechanical and histomorphometric
properties of anterior lumbar fiisions:a canine
model|J].Spinal Disord,1988,22(1):105.
【收稿日期:2018-03-16]
【修回日期:2018-06-25]
(责任编辑:肖«)。

相关文档
最新文档