数据质量控制在区域卫生信息平台的实践与思考
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
169
中国卫生信息管理杂志2014年4月第11卷第2期 Chinese Journal of Health Informatics and Management, Apr.2014, Vol.11, No.2
中国卫生信息管理 CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENT
1 引言
随着社会信息化水平的不断提高,信息已成为一种重要的战略资源,信息和数据越来越成为决策者进行决 策的一种依据。同时,错误的数据和信息给社会发展带来的危害也越来越大。根据数据仓库研究所 (TDWI)2002 年的一项报告指出:在美国,每年因数据质量耗费约 6000 亿美元;A.T.Kearney 的 CEO 认为,服务业高达 25%~ 40% 的费用与用于数据质量有关。因此,获得高质量的数据更成为政府和企业追逐的目标。在我国,因 为数据质量而导致的各种问题也越来越突出。比如在国际投资银行的研究报告中,对中国经济的数据问题提出 诸多批评,尤其对 GDP 增长率、CPI 和房地产等行业的数据。在医疗卫生领域,伴随着各信息系统及信息平台 的应用,数据质量问题已浮出水面,“数据错误”、“垃圾数据”、“非标准数据”等一系列数据质量问题已经显著 影响数据的有效应用 [1],数据质量问题已成为限制医疗卫生信息系统效能发挥的瓶颈和短板。如何提高医疗数
4.1 监测指标
4.1.1 完整性指标 这类监测指标包括:所有上传 表单在各个环节数据量的记录,主 要客观记录数据上传情况。 4.1.2 稳定性指标 这类指标包括:各个医疗机构 是否每日根据要求向区级中心平台 提交数据。 4.1.3 关联性指标 这类指标包括:各个表单间有 业务上的逻辑勾连关系的校验结果。 4.1.4 准确性指标 根据所采集指标的业务上的定 义,对其准确性的检验结果。 4.1.5 及时性指标 业务产生数据要求尽量及时上 传,监测指标中将客观记录数据上 传的时间和业务产生的时间。
3 数据质量控制思路
3.1 组织管理
完 善 数 据 质 量 管 控 组 织 架 构, 在第一责任部门的总体协调下,各 相 关 责 任 部 门 通 力 合 作, 共 同 管 理数据质量 [3]。优化数据质量管理 流程,明确各个环节相关人员的责 任,制定考核指标,进行考核。
为 了 保 证 业 务 数 据 准 确、 及 时、完整一致,必须要有专门的机
据质量,是一个值得研究的问题。
2 数据质量问题分析
2.1 数据质量控制的难点
由 于 各 级 卫 生 信 息 平 台 [2] 的 建立,数据量急速增加,这种急剧 增长势必会对运行环境、信息准确 性、数据冗余性、计算算法合理性 等相关指标提出更高要求,甚至会 带来软件研制与测试阶段无法预见 的附加影响,究其原因,主要有以 下几个方面:
数据质量控制在区域卫生信息平台的实践与思考
孔 斌① 蔡佳慧① 宗文红①△
文章编号:1672-5166(2014)02-0169-05 中图分类号:R-37 ;R197.1 文献标志码:A 摘 要 本文阐述了数据质量控制的难点及对平台建设的影响,提出数据质量控制的思路与技术解决方案, 根据影响数据质量的监测指标建设数据质量核查系统,保障了区域卫生信息平台的数据质量,为确保区域卫 生信息平台提供管理者科学、客观、有效的数据分析功能打下了扎实的基础。 关键词 区域卫生信息平台 数据质量控制 实践与思考
2.1.1 数据量的增加使数据管 理和处理的复杂性增加
海 量、 远 程 和 不 断 变 化 的 数 据对数据存储、提取和处理的要求 发生了根本改变,而且因实际运行 状态下大量递增数据所需的硬件条 件、专业环境以及操作技能等主客 观因素,很多是在软件研制期间和 测试期间所不具备的,甚至存在着 因量变导致质变的极大风险性。
2.1.2 数据量的增加使得数据 异构源自文库增加
除在数据结构、数据表示和数 据存储系统方面的异构性,面对大 量半结构化数据、非结构化数据、 流数据、动态结构实体数据及多媒 体数据,也存在着因局部内在质量 因素破坏全局数据的变化和递增的 问题。
2.1.3 对“有价值”信息的期 望值大大增加
这主要是针对具有辅助决策作 用的系统平台考虑的,从以往的简
① 上海市闸北区卫生科技与信息中心,上海市,200070 作者简介:孔斌(1982),男,硕士学位,信息科副科长,工程师;研究方向:卫生信息;E-mail:zbkxzx@126.com 通讯作者:宗文红(1968),女,硕士学位,上海市闸北卫生科技与信息中心主任,主任医师;研究方向:卫生信息管理;E-mail: zongwenhong2006@126.com △通讯作者
3.2 统一标准
数据是否可信、可用,这是卫 生管理部门关心数据的两个层面。 是否可信是指数据在适用性、准确 性、 完 整 性、 及 时 性 和 有 效 性 方 面,是否满足应用要求;是否可用 是指数据的格式、内容等能否被操 作人员读取和使用,能不能很方便 地进行深入处理和分析 [4]。以上两 个层面中,可信就是数据的基本质 量问题,需要通过采取管理手段、 技术手段等各方面的努力来解决; 可用是技术层面的问题,主要通过 技术手段使数据规范化、格式化来 解决。
Thinking of Data Quality Control Based on Regional Health Information Platform Kong Bin, Cai Jiahui, Zong Wenhong Zhabei District Health Research and Information Center, Shanghai 200070, China Abstract This paper explores the difficulties of data quality control and its impact on regional health information platform establishment. The solving scheme of controlling data quality has been put forward. The data quality check system was developed based on monitoring index of data quality control to ensure data quality and provide data analysis function for the scientific, objective and effective decision making. Key words Regional health information platform, Data quality control, Practice and thinking
有了统一的数据标准后,数据 录入采集、加工处理等诸过程都将 按照标准要求进行,数据混乱出错 的情况将大为减少。需要整理发布 的基础性数据标准包括业务元数据 的标准和相关代码的标准。
3.3 制定规则
业务元数据是从业务角度描
述的数据,即对业务数据或信息进 行描述的数据。发布业务元数据的 标准就是提供一个统一的业务数据 项定义和描述方法,对数据元素名 称、数据元素定义、数据来源、源 数 据 载 体、 数 据 类 型、 逻 辑 一 致 性、采集主体、采集频率、更新等 级、业务类别等方面作详细说明。 管理部门需要和集成商一起根据实 际情况制定可操作的管理制度,主 要的管理制度包括分阶段定义的数 据质量目标、数据评价办法、数据 管控流程、统一编码、数据核对规 则等。
4 数据质量技术解决方案
数据质量是卫生信息平台及决 策支持系统能否真正发挥效能的决 定性因素之一,必须从数据流转的 整体过程出发,包括采集阶段、传 输阶段、存储阶段、应用阶段,分 析产生数据质量问题的根本原因 [5], 针对决定数据质量好坏的监测指标 制定出一套切实可行的完善的卫生 数据质量控制体系,并与各医疗机 构绩效考核挂钩,有效保障卫生数 据质量水平 [6],从而提高领导决策 的有效性和准确性,让系统及平台 发挥更大的效益和作用。
170
Chinese Journal of Health Informatics and Management, Apr.2014, Vol.11, No.2 中国卫生信息管理杂志2014年4月第11卷第2期
Data Mining and Utilization 数据挖掘与利用
构和岗位负责业务数据质量的监督 管理。如信息中心负责数据质量管 理工作,制定有关制度和办法,业 务数据加工处理过程中的质量控 制。数据质量改进与管理的关系密 不可分。在数据质量的管理上,需 要建立一个由卫生局主管部门牵 头,相关医疗机构和集成商参与的 项目小组负责数据质量标准定义和 控制。如果发现有质量问题及时通 报,从而保障了数据质量改进的有 效推行。
度记录医疗数据,它们相互补充、 相互佐证、相互联系,如果它们之 间 的 关 联 不 正 确、 甚 至 是 虚 假 数 据,就不能有效发挥信息系统整体 效应。
(3)对管理层决策的影响 医院是医疗数据的生产者、管 理者、使用者。高质量的数据才能 提供高质量的信息,使得各项管理 措施和决策有据可依,并且符合自 身情况,促进管理效益的发挥。低 质量的数据,势必会导致不准确的 信息,致使管理层做出不科学、不 合理的决策,从而影响医院的良性 发展。 (4)对数据仓库及数据挖掘的 影响 从医院信息系统海量的医疗 数据中挖掘出有用的信息,了解疾 病之间的相互关系和疾病的发展规 律, 总 结 各 种 治 疗 方 案 的 治 疗 效 果,这将对疾病的诊断、治疗和医 学研究具有重大意义。数据质量问 题成为数据仓库建设成败和数据能 否有效应用的关键。
Chinese Journal of Health Informatics and Management, Apr.2014, Vol.11, No.2 中国卫生信息管理杂志2014年4月第11卷第2期
Data Mining and Utilization 数据挖掘与利用
doi:10.3969/j.issn. 1672-5166.2014.02.017
2.2.1 短期的影响 医 疗 数 据 质 量 的 好 与 坏, 在 短期内表现为应用服务器或数据库 中脏数据堆积,直接导致了统计数 据和指标信息的不准确,可信度下 降,不能给管理者提供正确的决策 依据 。 2.2.2 长期的影响 长时间数据的积累,使得脏数 据的不良影响呈放大效应。具体表 现在以下四方面: (1)对医疗服务的质量的影响 各种医疗信息系统是医护人员 的强大助手,利用好可以大大提高 工作效率和质量;但如果随意录入 或录入内容不完整、不合理甚至错 误的信息,都有可能对病人造成不 必要的痛苦或损失,容易发生医疗 差错、医患矛盾、甚至医疗事故。 (2)影响信息系统整体效应的 发挥 医院的各种医疗信息系统如 HIS、PACS、LIS 等从不同专业角
3.4 数据核查
数 据 质 量, 体 现 的 是 数 据 价 值。数据质量越高,数据的使用价 值就越大,为保证平台数据的准确 性,完整性,可靠性,拟定数据质 量管理指标体系,实现对平台上传 数据的管理,通过数据质量核查提 高上传数据质量,最终提高平台数 据的使用价值,从而帮助提高区域 卫生信息化水平。
针对业务上传厂商提出前置 机接口库约束过多,导致无法上传 数据问题,接口库已去掉主外键约 束、 非 空 约 束、 字 典 表 约 束, 故 而需要对上传至平台的数据进行数 据质量核查,确保上传至平台的数 据符合平台数据规范。针对数据质 量的影响因素建立数据质量管控系 统, 应 用 制 定 的 数 据 质 量 管 控 系 统,评价各医疗机构数据质量与效 果,根据评价结果,提出进一步完 善管控体系的合理化建议。
单报表和复合查询发展到如今用多 维复杂条件对大量语义数据进行综 合分析和分类统计,以及对数据关 联、相似规律及模糊趋势的抽象概 括和基于知识的检索,都是对“有 价值”信息的高度利用,但往往因 其质量完备性、动态准确性和长期 稳定性等问题困扰着价值信息的真 正体现。
2.2 数据质量问题的影响
鉴于医疗数据本身特性及平台 数据的指数级增长,医疗数据质量 产生的影响日益凸显:
中国卫生信息管理杂志2014年4月第11卷第2期 Chinese Journal of Health Informatics and Management, Apr.2014, Vol.11, No.2
中国卫生信息管理 CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENT
1 引言
随着社会信息化水平的不断提高,信息已成为一种重要的战略资源,信息和数据越来越成为决策者进行决 策的一种依据。同时,错误的数据和信息给社会发展带来的危害也越来越大。根据数据仓库研究所 (TDWI)2002 年的一项报告指出:在美国,每年因数据质量耗费约 6000 亿美元;A.T.Kearney 的 CEO 认为,服务业高达 25%~ 40% 的费用与用于数据质量有关。因此,获得高质量的数据更成为政府和企业追逐的目标。在我国,因 为数据质量而导致的各种问题也越来越突出。比如在国际投资银行的研究报告中,对中国经济的数据问题提出 诸多批评,尤其对 GDP 增长率、CPI 和房地产等行业的数据。在医疗卫生领域,伴随着各信息系统及信息平台 的应用,数据质量问题已浮出水面,“数据错误”、“垃圾数据”、“非标准数据”等一系列数据质量问题已经显著 影响数据的有效应用 [1],数据质量问题已成为限制医疗卫生信息系统效能发挥的瓶颈和短板。如何提高医疗数
4.1 监测指标
4.1.1 完整性指标 这类监测指标包括:所有上传 表单在各个环节数据量的记录,主 要客观记录数据上传情况。 4.1.2 稳定性指标 这类指标包括:各个医疗机构 是否每日根据要求向区级中心平台 提交数据。 4.1.3 关联性指标 这类指标包括:各个表单间有 业务上的逻辑勾连关系的校验结果。 4.1.4 准确性指标 根据所采集指标的业务上的定 义,对其准确性的检验结果。 4.1.5 及时性指标 业务产生数据要求尽量及时上 传,监测指标中将客观记录数据上 传的时间和业务产生的时间。
3 数据质量控制思路
3.1 组织管理
完 善 数 据 质 量 管 控 组 织 架 构, 在第一责任部门的总体协调下,各 相 关 责 任 部 门 通 力 合 作, 共 同 管 理数据质量 [3]。优化数据质量管理 流程,明确各个环节相关人员的责 任,制定考核指标,进行考核。
为 了 保 证 业 务 数 据 准 确、 及 时、完整一致,必须要有专门的机
据质量,是一个值得研究的问题。
2 数据质量问题分析
2.1 数据质量控制的难点
由 于 各 级 卫 生 信 息 平 台 [2] 的 建立,数据量急速增加,这种急剧 增长势必会对运行环境、信息准确 性、数据冗余性、计算算法合理性 等相关指标提出更高要求,甚至会 带来软件研制与测试阶段无法预见 的附加影响,究其原因,主要有以 下几个方面:
数据质量控制在区域卫生信息平台的实践与思考
孔 斌① 蔡佳慧① 宗文红①△
文章编号:1672-5166(2014)02-0169-05 中图分类号:R-37 ;R197.1 文献标志码:A 摘 要 本文阐述了数据质量控制的难点及对平台建设的影响,提出数据质量控制的思路与技术解决方案, 根据影响数据质量的监测指标建设数据质量核查系统,保障了区域卫生信息平台的数据质量,为确保区域卫 生信息平台提供管理者科学、客观、有效的数据分析功能打下了扎实的基础。 关键词 区域卫生信息平台 数据质量控制 实践与思考
2.1.1 数据量的增加使数据管 理和处理的复杂性增加
海 量、 远 程 和 不 断 变 化 的 数 据对数据存储、提取和处理的要求 发生了根本改变,而且因实际运行 状态下大量递增数据所需的硬件条 件、专业环境以及操作技能等主客 观因素,很多是在软件研制期间和 测试期间所不具备的,甚至存在着 因量变导致质变的极大风险性。
2.1.2 数据量的增加使得数据 异构源自文库增加
除在数据结构、数据表示和数 据存储系统方面的异构性,面对大 量半结构化数据、非结构化数据、 流数据、动态结构实体数据及多媒 体数据,也存在着因局部内在质量 因素破坏全局数据的变化和递增的 问题。
2.1.3 对“有价值”信息的期 望值大大增加
这主要是针对具有辅助决策作 用的系统平台考虑的,从以往的简
① 上海市闸北区卫生科技与信息中心,上海市,200070 作者简介:孔斌(1982),男,硕士学位,信息科副科长,工程师;研究方向:卫生信息;E-mail:zbkxzx@126.com 通讯作者:宗文红(1968),女,硕士学位,上海市闸北卫生科技与信息中心主任,主任医师;研究方向:卫生信息管理;E-mail: zongwenhong2006@126.com △通讯作者
3.2 统一标准
数据是否可信、可用,这是卫 生管理部门关心数据的两个层面。 是否可信是指数据在适用性、准确 性、 完 整 性、 及 时 性 和 有 效 性 方 面,是否满足应用要求;是否可用 是指数据的格式、内容等能否被操 作人员读取和使用,能不能很方便 地进行深入处理和分析 [4]。以上两 个层面中,可信就是数据的基本质 量问题,需要通过采取管理手段、 技术手段等各方面的努力来解决; 可用是技术层面的问题,主要通过 技术手段使数据规范化、格式化来 解决。
Thinking of Data Quality Control Based on Regional Health Information Platform Kong Bin, Cai Jiahui, Zong Wenhong Zhabei District Health Research and Information Center, Shanghai 200070, China Abstract This paper explores the difficulties of data quality control and its impact on regional health information platform establishment. The solving scheme of controlling data quality has been put forward. The data quality check system was developed based on monitoring index of data quality control to ensure data quality and provide data analysis function for the scientific, objective and effective decision making. Key words Regional health information platform, Data quality control, Practice and thinking
有了统一的数据标准后,数据 录入采集、加工处理等诸过程都将 按照标准要求进行,数据混乱出错 的情况将大为减少。需要整理发布 的基础性数据标准包括业务元数据 的标准和相关代码的标准。
3.3 制定规则
业务元数据是从业务角度描
述的数据,即对业务数据或信息进 行描述的数据。发布业务元数据的 标准就是提供一个统一的业务数据 项定义和描述方法,对数据元素名 称、数据元素定义、数据来源、源 数 据 载 体、 数 据 类 型、 逻 辑 一 致 性、采集主体、采集频率、更新等 级、业务类别等方面作详细说明。 管理部门需要和集成商一起根据实 际情况制定可操作的管理制度,主 要的管理制度包括分阶段定义的数 据质量目标、数据评价办法、数据 管控流程、统一编码、数据核对规 则等。
4 数据质量技术解决方案
数据质量是卫生信息平台及决 策支持系统能否真正发挥效能的决 定性因素之一,必须从数据流转的 整体过程出发,包括采集阶段、传 输阶段、存储阶段、应用阶段,分 析产生数据质量问题的根本原因 [5], 针对决定数据质量好坏的监测指标 制定出一套切实可行的完善的卫生 数据质量控制体系,并与各医疗机 构绩效考核挂钩,有效保障卫生数 据质量水平 [6],从而提高领导决策 的有效性和准确性,让系统及平台 发挥更大的效益和作用。
170
Chinese Journal of Health Informatics and Management, Apr.2014, Vol.11, No.2 中国卫生信息管理杂志2014年4月第11卷第2期
Data Mining and Utilization 数据挖掘与利用
构和岗位负责业务数据质量的监督 管理。如信息中心负责数据质量管 理工作,制定有关制度和办法,业 务数据加工处理过程中的质量控 制。数据质量改进与管理的关系密 不可分。在数据质量的管理上,需 要建立一个由卫生局主管部门牵 头,相关医疗机构和集成商参与的 项目小组负责数据质量标准定义和 控制。如果发现有质量问题及时通 报,从而保障了数据质量改进的有 效推行。
度记录医疗数据,它们相互补充、 相互佐证、相互联系,如果它们之 间 的 关 联 不 正 确、 甚 至 是 虚 假 数 据,就不能有效发挥信息系统整体 效应。
(3)对管理层决策的影响 医院是医疗数据的生产者、管 理者、使用者。高质量的数据才能 提供高质量的信息,使得各项管理 措施和决策有据可依,并且符合自 身情况,促进管理效益的发挥。低 质量的数据,势必会导致不准确的 信息,致使管理层做出不科学、不 合理的决策,从而影响医院的良性 发展。 (4)对数据仓库及数据挖掘的 影响 从医院信息系统海量的医疗 数据中挖掘出有用的信息,了解疾 病之间的相互关系和疾病的发展规 律, 总 结 各 种 治 疗 方 案 的 治 疗 效 果,这将对疾病的诊断、治疗和医 学研究具有重大意义。数据质量问 题成为数据仓库建设成败和数据能 否有效应用的关键。
Chinese Journal of Health Informatics and Management, Apr.2014, Vol.11, No.2 中国卫生信息管理杂志2014年4月第11卷第2期
Data Mining and Utilization 数据挖掘与利用
doi:10.3969/j.issn. 1672-5166.2014.02.017
2.2.1 短期的影响 医 疗 数 据 质 量 的 好 与 坏, 在 短期内表现为应用服务器或数据库 中脏数据堆积,直接导致了统计数 据和指标信息的不准确,可信度下 降,不能给管理者提供正确的决策 依据 。 2.2.2 长期的影响 长时间数据的积累,使得脏数 据的不良影响呈放大效应。具体表 现在以下四方面: (1)对医疗服务的质量的影响 各种医疗信息系统是医护人员 的强大助手,利用好可以大大提高 工作效率和质量;但如果随意录入 或录入内容不完整、不合理甚至错 误的信息,都有可能对病人造成不 必要的痛苦或损失,容易发生医疗 差错、医患矛盾、甚至医疗事故。 (2)影响信息系统整体效应的 发挥 医院的各种医疗信息系统如 HIS、PACS、LIS 等从不同专业角
3.4 数据核查
数 据 质 量, 体 现 的 是 数 据 价 值。数据质量越高,数据的使用价 值就越大,为保证平台数据的准确 性,完整性,可靠性,拟定数据质 量管理指标体系,实现对平台上传 数据的管理,通过数据质量核查提 高上传数据质量,最终提高平台数 据的使用价值,从而帮助提高区域 卫生信息化水平。
针对业务上传厂商提出前置 机接口库约束过多,导致无法上传 数据问题,接口库已去掉主外键约 束、 非 空 约 束、 字 典 表 约 束, 故 而需要对上传至平台的数据进行数 据质量核查,确保上传至平台的数 据符合平台数据规范。针对数据质 量的影响因素建立数据质量管控系 统, 应 用 制 定 的 数 据 质 量 管 控 系 统,评价各医疗机构数据质量与效 果,根据评价结果,提出进一步完 善管控体系的合理化建议。
单报表和复合查询发展到如今用多 维复杂条件对大量语义数据进行综 合分析和分类统计,以及对数据关 联、相似规律及模糊趋势的抽象概 括和基于知识的检索,都是对“有 价值”信息的高度利用,但往往因 其质量完备性、动态准确性和长期 稳定性等问题困扰着价值信息的真 正体现。
2.2 数据质量问题的影响
鉴于医疗数据本身特性及平台 数据的指数级增长,医疗数据质量 产生的影响日益凸显: