医学信息数据库的建立与数据挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学信息数据库的建立与数据挖掘
【关键词】医学信息
关键词: 医学信息;数据仓库;数据挖掘;数据组织
0 引言
计算机和信息技术在医学领域中的应用,形成了现代医学中一个新的边缘学科医学信息学或医药信息学(medical informatics),进而成为生物医学工程学的重要支柱.医学信息涵盖了医学活动中产生的文字、图像、声音以及电磁波、光波、压力、温度等多媒体物理数据,这些数据在计算机和数据库技术的支持下,已成为医学技术领域实施科学管理和科学研究的重要资源.数据仓库(data warehouse,DW)与数据挖掘(data mining,DM)技术的出现[1],为医务管理人员、科研工作者分析、利用这些数据资源进行科学管理、决策和开展大规模、高水平医学研究提供了有力的技术工具.数据仓库与数据挖掘技术已在国外一些大型企业中得到了成功应用,国内一些企业也已开始着手这方面的投资,有的并得到了可喜的回报.由于医学技术具有很强的实践性、实验性、统计性,是一门验证科学,浩瀚的医学资源要用现代技术去组织、去分析、去利用,因此,探索数据仓库与数据挖掘技术在医学信息方面的应用就具有更重要的实用价值和广阔的发展前景.
1 问题的提出
目前,医学信息的处理大多停留在基于数据库技术支持的操作型事务处理的水平上,如数据的查询、修改等,是为特定的应用服务的.而建立在数据库技术之上的分析型信息处理最典型的应用是一些医学诊断方面的专家系统(expert system,ES),其数据资源仅仅是
某一方面的专家知识,涉及的数据量很小,覆盖面也很窄.那么,摆在我们面前这个巨大的医学资源宝库究竟能为我们做些什么呢?例如,医院信息系统(hospital information system,HIS),它是医学信息学的一个分支,分为管理信息系统(management informa-tion system,MIS)和临床信息系统(clinical information sys-tem,CIS).前者主要处理医院内部管理方面的信息如人事、财务和设备管理等,而后者是以处理患者为中心的信息系统,如患者入院、住院、治疗、检查、病历、出院等一系列与患者有关的信息.那么,这两类系统能否满足下列要求呢?①如果医院明年利润目标要增长5%,哪些前提条件变化才能达到这一目标?此外还需采取哪些措施来实现这些变化?②未来某段时间内哪些药品使用的频度最高或最低?以
及与治疗疾病间的关系?③未来某段时间内哪些疾病是常发病或发病率最高?使用的药物主
要有哪些?如何组织急需药品的供应?④环境、气候、地理位置与流行病间的关系?利用现有信息系统要回答这些问题是困难的,有些甚至是不可能的.然而,利用数据仓库与数据挖掘技术就可以轻而易举地找到问题的答案.因此,建立数据仓库与利用数据挖掘技术对于开展科学研究,提高医学技术水平是很有必要的.
2 数据仓库的建立
所谓数据仓库是支持管理决策过程的、面向主题的、集成的、与时间有关的、持久的数据集合,它以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径,是与网络通信技术、面向对象技术、并行技术、多媒体技术、人工智能技术等相互浸透、互相结合与综合应用的技术.
创建基于HIS的数据仓库,是从已有数据出发的数据仓库的设计方法,称之为“数据驱动”的系统设计方法联系重新考虑,组织数据仓库中的主题,利用数据模型有效地识别数据和数据仓库中的主题,它的基本思路是:利用以前建设的数据库系统的数据,按照分析领域对数据及数据之间的的数据的“共同性”(即建立主题间相互联系的属性).其创建的基本方法如Fig1所示[2] .
图1 略
从图中看出,数据仓库的设计是一个动态的、循环的过程,在系统设计初级阶段,人们对系统的分析需求不能预先作出规范说明,只能给出一个抽象的模糊的描述,数据仓库的内容、结构、粒度、分割以及其他物理设计根据用户反馈信息再不断地调整和完善.
2.1 主题抽取数据仓库中数据的组织是面向主题的[3] .它是在较高层次上对分析对象的数据的一个完整的、一致的描述,能完整、统一地刻画各个分析对象所涉及的各项数据以及数据之间的关系.可以说,主题定义的过程就是数据仓库模型建立的过程.
2.1.1 系统边界确定由于数据仓库建立初期很难获得明确而又详细的需求,系统设计人员只能得到一些基本的方向性的需求信息,如决策的类型、决策者感兴趣的问题、解决这些问题需要哪些信息,这些信息需要包含原有数据库系统的哪些部分的数据等等.这就是数据仓库设计过程中的需求分析,称之为系统边界界定,以此作为确定主题的基本依据.
2.1.2 主题的确定根据有关军卫1号工程设计思想和实施细则的报道,HIS几乎涵盖MIS和CIS的方方面面,涉及范围广泛,内容丰富全面,可以从管理角度、从科学研究的角度,确定若干个主题如患者、药品、门诊、检验等,作为管理决策和科研分析的数据来源.例如:患者:患者固有信息:患者标识号,住院号,姓名,性别,出生年月,文化程度,身份证号,住址,电话……患者住院信息:患者标识号,入院科室、职业、身份、费别、在职标志、医保类别、医疗保险号、工作单位、门诊医师……药品:药品固有信息:药品编码,药品名称,规格、单位、剂型、毒理分类、标准剂量、材质分类、用药梯次、价格系数……药品采购信息:药品编码、药品名称、规格、单位、剂型、市场批发价、市场零售价、货源足缺、包装规格……
2.2 数据组织数据仓库中的数据分为早期细节级、当前细节级、轻度综合级和高度综
合级4个级别,各个级别的数据根据需要划分为不同的粒度[4] .所谓粒度是对数据仓库中数据的综合能力的度量,它既影响仓库中数据量的多少,也影响数据仓库所能回答的问题多少,粒度越小,细节程度越高,综合程度越低,回答查询的种类越多.
各个级别的数据是随着时间的变化而变化的,也就是以时间段来区分不同的细节.当数据按照时间段划分完成后,无论是主题还是主题之间的联系,都用关系来表示,也就是说数据仓库的数据最终也表现为关系,其数据的组织通过关系数据库实现,因此,数据仓库的逻辑模型就是关系模型,即用二维表表示一个主题或者说一个关系,表中的一行称为一个元组,一列称为属性,每列的名字即为属性名,某个可以唯一地标识一个元组的属性称其为主码或关键字.
实际上,数据组织中的关键问题是数据仓库的物理模型设计,一是采用哪种数据库管理系统以及存储结构和存取方法;二是如何在庞大的数据仓库中建立索引以提高数据的存取效率;
三是根据主题的重要程度、使用频率选择不同的存储媒体以提高系统响应速度和降低系统硬件费用.
2.3 数据获取与集成在数据仓库的逻辑模型和物理模型建立后,紧接着是建立数据仓库与传统数据库之间的接口,即将操作型环境下的数据装载进入数据仓库环境,这是一个所需数据的抽取与不同环境或异构数据库的集成的过程[5],它完成了由操作型环境生成完整数据、基于时间的数据转换、数据的凝聚、异构数据库的集成以及数据的时标设定等任务[6] .接口设计就是要选择合适的软件开发平台如PB,VB,VC,Delphi等设计数据提取与集成的接口程序,完成数据的装入以及异构数据库的访问等任务,达到数据获取与集成的目的.
2.4 建立应用数据装入仓库后,为进一步开发决策支持系统DSS以及其他联机分析处理[7](online analytical process-ing,OLAP)准备了充分的数据资源.在DSS和OLAP 开发中需要采用软件工程中的原型法开展应用系统研究,即在初步建立系统的基础上,尽快地让系统运行起来,近早产生效益,在系统运行中不断地理解需求,改善、完善系统性能.
3 数据挖掘
随着时间的推移,数据仓库的数据量在急剧增长,这些日积月累的数据中是否存在着某种关系、模式或者趋势,是很难一眼就看得出来的,或者知道有某种关系,但必须进一步加以证明或修正,这时,数据挖掘DM技术就有用武之地了.
数据挖掘是基于人工智能(artificial intelligence,AI)、机器学习、统计学等技术,高度自动化地分析原有数据,作出归纳性的推理,从中挖掘出潜在的模式或行为,以帮助决策者作出正确决策的过程.也就是说为了寻找未知的模式或趋势而在细节数据中进行搜索的过程,从而生成新的信息和知识[8] .数据挖掘利用人工智能中的一些成熟的算法和技术作为发现知识的方法,如人工神经网络、遗传算法、决策树、邻近搜索算法、规则推理等,利用关联分析、序列模式分析、分类分析、聚类分析作为数据挖掘的分析方法.