数据挖掘技术及其在医学上的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术及其在医学上的应用
数据挖掘技术及其在医学上的应用
冯敏1阴珊珊2许涛3
1、泰山医学院信息工程学院271016
2、泰安市疾病预防控制中心传染病防制科2710003、济南广播电视大学
信息技术学院250001
1引言
很多人已经意识到数据中潜在的大量商机,并踏踏实实地进行着从数据中沙里淘金的
工作。自20世纪80年代中期以来,人们利用信息技术生产和搜集数据的能力大幅度提高,大量数据库被用于商务管理、生产控制、市场分析、工程设计和科学探索等领域。但是,面对不断增加的海量数据,人们已不再满足于数据库的查询功能,而是提出了深层次
的问题:能不能从数据中提取信息或者知识为决策服务?要解决这一问题,就数据库技术
而言已经无能为力,同样,传统的统计技术也面临极大的挑战。这就急需有新的方法来处
理这些数据。于是,集统计学、数据库、机器学习、可视化等技术于一身的综合性学科
“数据挖掘”应运而生。近年来,数据挖掘技术在零售业、电信业、金融业、医疗卫生等
许多领域得到了广泛的应用。
2数据挖掘技术介绍
2.1定义和发展
数据挖掘又称数据库中的知识发现(KnowledgeDiscoveryi
nDatabase,KDD),是从大量的数据中,抽取潜在的、有价值的知识(模
式或规则)的过程。数据挖掘所挖掘的数据,可以存放在数据库、数据仓库或其它信息存
储中。这是一个年青的跨学科领域,源于诸如数据库系
统、数据仓库、统计、机器学习、数据可视化、信息提取和高性能计算。其它有贡献
的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和一些应用领域,包括商务、经济和生物信息学等[1]。随着数据挖掘技术的逐步发展和完善,近年来在
金融、电信、零售、医疗卫生、科学研究等多个领域中得到成功应用,发挥了巨大作用。
当前,KDD国际研讨会的研究重点逐渐从发现方法等理论研究转向系统应用研究和数据
挖掘工具的开发,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。
2.2数据挖掘方法
数据挖掘常用的技术方法有特征化规则、关联规则、分类和预测规则、聚类规则、局
外者分析规则、演变分析规则等。
特征化规则是对数据库中原始数据进行分析,获得它们所拥有的共同特征,又称数据
总结。其目的是对目标类数据的一般特征或特性进行汇总,对数据进行浓缩。其方法是根
据属性列的临界值和概括层次树,对原始数据进行概括,合并相同和相似的元组,最后得
到一个或几个“抽象宏记录”即为所挖掘的知识。在特征化规则的发现中,概括的程度由
一个合适的阈值来控制,规则的数量被控制在阈值以内。阈值越大,发现的规则越多,但
规则的概括程度越小[2]。
关联规则挖掘可以发现大量数据中项目集之间有趣的关联或相关联系,从所有对象中
来决定哪些相关对象应该放在一起。从大量商务事务记录中发现有趣的关联关系,可以帮
助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。依照不同的标准,关联规则
可以分为布尔的和量化的、单维的和多维的、单层的和多层的关联规则。关联规则的算法
有很多,其中,Apriori和DHP是比较成功的两个算法。
数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类和预测是两种
数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。然而,分类
是预测分类标号(或离散值),而预测建立连续值函数模型。例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类;而可以建立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的花费。许多分类和预测方法已被机器学习、专家系统、统
计和神经生物学方面的研究者提出。分类方法包括判定树归纳、贝叶斯分类和贝叶斯网络、神经网络、遗传算法和模糊集方法等。预测是构造和使用模型评估无标号样本或评估给定
样本可能具有的属性值或区间值,一般采用线性回归、多元回归、非线性回归等方法获得
该连续值函数模型。
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由
聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他
簇中的对象相异。在许多应用中,一个簇中的数据对象可以被作为一个整体来对待。在聚
类化技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加
以归类。所使用的方法有k-means法、k-medoids法、神经网络法和基于
网格的方法等。
数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对
象是局外者。大部分数据挖掘方法将局外者视为噪音或例外而丢弃。然而,在一些应用中(如:欺骗检测),罕见的事件可能比正规出现的那些更有趣。
数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包
括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数
据分析、序列或周期模式匹配和基于类似性的数据分析。
2.3数据挖掘过程
作为一种新的数据分析和知识获取技术,一个完整的数据挖掘过程应该包括5个方面:
2.3.1问题理解和提出
在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。
2.3.2数据准备
获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果单位原来的数据仓库满足数据挖
的分析工具。然而人类的分析和抽象能力无法适应这些高维的海量数据,而且这些数据的增长速度也远远超过人类手工分析技术所能处理的程度。如果我们没有能力把这些原始资料转化成更易理解的信息和知识提供给使用者时,这些数据也就失去了存在的意义,造成大量的数据浪费。而数据挖掘可以更好地利用这些数据,帮助医师提高诊断的效率和准确性、降低医师的工作强度、发现新的医学规律、探索人体奥秘等,最大限度地降低医疗风险,提高治愈的成功率。
3.4在生物医学中的应用
在过去的十几年时间里,生物医学研究有了迅猛的发展,从新药物的开发和癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。而目前生物医学的大量研究都集中在DNA数据的分析上,近期DNA分析的3数据挖掘的医学应用
研究成果已经导致了对许多疾病和残疾的近年来,数据挖掘技术在医学领域中
的应用越来越广泛。在疾病诊断、治疗、基因成因的发现,以及对疾病的诊断、预器官移植、基因研究、图像分析、康复、防和治疗的新药物、新方法的发现。基因
研究中的一个重要关注点是DNA序列的研药物开发、科学研究等方面都获得了可喜
究,因为这种序列构成了所有活的生物体的成果。
的基因代码的基础。所有的DNA序列由3.1在病理学中的应用
四个基本的构块(称为核苷)组成:腺在病理学研究中,通过数据挖掘对病
嘌呤(A),胞核嘧啶(C),鸟嘌呤理切片标本的大量数据进行分析,总结出
,胸腺嘧啶(T)。这四个核苷组其中的关键性指标,建立正常和病理的虚(G)
拟细胞模型。这样可以虚拟细胞的发生、合构成很长的序列或链,类似一个双绞旋
梯。人类有约100,000个基因。一个基活动和调节的生理机制,还可以了解和揭