临床医学数据的分析方法与利用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
临床医学数据的分析方
法与利用
集团文件版本号:(M928-T898-M248-WU2669-I2896-DQ586-M1988)
临床医学数据的分析方法与利用
[摘要] 本文使用循证医学方法,对“临床医学数据的分析方法与利用”主题进行取词检索,检索中国生物医学文献、万方、维普、中国知网四大主流中文数据库,纳入相关文献进行分析。从临床数据的分析流程、临床数据的分析方法、数据在医疗领域的利用以及面临的挑战等几个方面展开讨论并加以归纳,为医疗大数据时代的临床数据管理提供参考。
[关键词] 临床数据;数据分析;数据利用
[中图分类号] R19 [文献标识码] A [文章编号] 1673-7210(2017)12(b)-0163-05
[Abstract] Based on the theory of the evidence-based medicine,the relevant information of the topic “analysis and utilization of clinical data” was searched. Sinomed, Wanfang Data, VIP and Chinese National Knowledge Infrastructure databases were searched to comprehensively collect related articles. The paper elaborates the following aspects: the data processing, the statistical analysis and utilization of the clinical data in the medical field as well as the confronting problems, in order to provide some references about clinical data management in the forthcoming years for big medical data.
[Key words] Clinical data; Data analysis; Data utilization
随着医疗技术的飞速发展以及医疗大数据时代的到来,面对激增的海量临床数据,临床数据管理的重要性日益凸显。2000年美国公布了《临床研究数据
管理规范》,并进行了多次后续修订,该规范对所有临床研究的数据收集流程、不良事件报告、数据质量控制、文件的分类归档以及数据管理培训等进行了明确的规定[1]。1999年我国颁布《药品临床试验管理规范》(good clinical practice,GCP),规定临床试验数据应正确无误并及时地录入分析,确保临床数据质量以及数据的可溯源性[2]。2003年我国GCP参照国际公认原则进行了重新修订,指出“所有涉及数据管理的各种步骤均需记录在案,以便对数据质量及试验实施进行检查”“数据管理应用适当的程序保证数据库的保密性,具有计算机数据库的维护和支持程序”,可更加强调临床数据的可溯源性[3]。2016年,国家颁布《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,提出健康医疗大数据作为国家重要的基础性战略资源,规范并推动其融合共享,开放应用势在必行[4]。
现今对“医疗大数据”的分析方法日新月异,常用的临床数据分析技术涉及到很多学科,包括医学统计学、职业流行病学等,因此如何提取不同类型的临床资料对有用的信息进行分析和利用是临床数据管理的重要命题[5]。
1 临床数据分析流程
临床数据除具有“大数据”的特征外,还具有不完整性、冗余性、非标准化、隐私性、价值高的特点[6-7]。数据采集方式往往使用病例报告表,包括纸质病例报告表和电子病例报告表,前者包含了大量的非结构化数据和半结构化数据,非结构化数据是数据结构或记录格式未经标准化的一种数据形式,通常采用了自然语言录入的方式;半结构化数据是部分结构化了的数据形式,相对于结构化数据,其构成更为复杂和不确定[8]。为了使这两类数据更规范明了且有利于分析统计,需要通过语义分析以及数据提取将非结构化数据或半结
构化数据转化成结构化数据[7]。20世纪80年代开始临床数据的采集开始逐步使用电子数采集系统,方便研究者创建结构化的电子病历系统,通过该系统,患者个体的医疗信息更加一目了然,有利于临床医生对病史进行追根溯源,并能够在此基础上建立临床数据库[1]。
临床数据库通过医院信息系统、实验室信息系统、放射信息管理系统及医学影像存档与通讯系统等采集临床数据,囊括患者从入院到出院的所有诊疗信息。通过临床数据库可以构建临床数据中心,医务人员及临床科研人员可以对临床数据进行实时处理,并在数据交换平台实现数据横向或纵向的共享或流动。大规模的医疗数据集成临床数据中心,利用临床数据采集分析软件可以对海量的医疗大数据进行统计学分析、数据挖掘、医学建模,完成临床数据的分析报告和临床研究报告,再通过知识挖掘构建规则库和知识库,有利于临床知识的管理,这样又形成了知识管理的循环链(图1)。另外,现有医院在不断更新临床数据中心的同时又加入“临床数据分析引擎”模块和数据监测环节,当然这也对医院各系统的兼容性提出了更高要求[9]。
2 数据分析
高质量临床数据的获得是临床数据管理的基本要求,临床数据必须是真实可信的,并且必须和研究目的相关,还要适合于统计分析[10]。临床数据分析具体过程可分为采集、导入、统计和分析、数据挖掘。数据挖掘技术包括医疗大数据的预处理、算法(人工神经网络、决策树分析、随机森林算法、聚类分析、贝叶斯算法等)、医学建模、大数据的快速检索与处理、数据安全等。
2.1 一般统计学分析
在临床研究中应用最广泛的是随机对照试验,在数据分析时,不同统计方法对结果的解释也不同,因此通过不同的资料类型选择适当的统计学方法尤为重要。循证医学对随机对照试验所获得的数据进行Meta分析,将主题词加自由词组合,通过循证医学方法在数据库中大范围检索相关文献,将同质性高的文献数据进行合并,计算合并效应量。 2.2 数据挖掘
数据挖掘在研究领域中被称作“数据库中知识的发现”[11]。医学数据挖掘是从大量医学数据中通过各种算法来寻找疾病新规律的过程。数据挖掘技术包涵多种算法,不同样本类型通过不同算法对临床数据进行分类,建立医学模型。大数据的分析需要与计算机技术结合,机器学习就是统计学、算法理论与人工智能结合的一门交叉学科,并在当今无人驾驶技术、人类基因组技术中获得大力发展。
人工神经网络算法是模仿大脑神经网络的结构建立的信息处理方法,它的特征是“计算机代码+数学函数”,它的本质是“学习”,将训练数据在一定的“学习规则”中进行学习,获取特征信息和参数后建立人工神经网络,新的数据通过神经网络计算出对应的输出,这就是“感知器学习规则”[12]。例如要评价A家不同医院的医疗水平,可以先用B家医院的数据作为训练数据,医护人员、床位、就诊数量和死亡率5个指标作为输入(X),B家医院建立的知识库作为突出权值(W),经过处理得到输出(Y),经学习后网络会自动处理A家医院的数据(图2)。
决策树算法和支持向量机与神经网络算法较相似,都是学习型的机制,是两种常用的数据分类方法。决策树算法通过构建决策树分类器处理不同的数据类型,计算出各特征属性的信息增益后,选取信息增益最大的特征属性作为节