医学数据挖掘.

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章
一．填空
1．DM的对象分为：关系型DB、数据仓库、文本DB、复杂类型DB
2．从用户角度来看，数据仓库的基本组成包括：数据源、数据存储、应用工具、可视化用户界面
3．数据仓库是最流行的数据模型是多维数据模型，多维数据模型将数据看作是数据立方体的形式，数据立方体是由维和事实来定义
4．常用的多维数据模式包括：星型模式、雪花模式、事实星座模式。星型模式是由事实表和维表构成
第三章
一.填空题
1.确定商业目标,认清数据挖掘的目的是DM的第一步
2.影响DM结果质量的两个因素是:所采用DM技术的有效性(模型的选择),用于挖掘的数据的质量和数量
3.数据质量的含义包含四个方面:数据的正确性,数据的一致性,数据的完整性,数据的可靠性
4.数据清洗的技术:空值处理,噪音数据,不一致数据等处理技术
三．简答
1．数据挖掘的特点
a挖掘对象是超大型的DB，b发现隐含的知识，c可以用于增进人类认知的知识，d不是手工完成的
2．案例是解决新问题的一种知识，案例知识表示为三元组
a问题描述：对求解的问题及周围环境的所有特征的描述，b解描述：对问题求解方案的描述，c效果描述：描述解决方案后的结果情况，是失败还是成功
5.预测模型和描述模型的区别
数据挖掘模型按照功能分为预测模型和描述模型.在预测模型中,用来预测的称为独立变量,要预测的称为相关变量或目标变量.预测模型包括分类模型,回归模型和时间序列模型;描述模型包括聚类模型,关联模型和序列模型.前者有时又称为有监督学习,可直接用来检测模型的准确性,一般在建立这些模型时,使用一部分数据作为样本,用另一部分数据来检验,校正模型;后者又称为无监督学习,因为在模型建立前结果是未知的,模型的产生不受任何监督
5．WEBＤＭ分为：ＷＥＢ内容挖掘、ＷＥＢ结构挖掘、ＷＥＢ使用挖掘
二．名解
１．数据仓库：一个面向主题的、集成的、时变的、非易失的数据集合，用以支持管理活动的决策过程
２．数据立方体：指以两维或多维来描述或者分类数据。这里的维类似于关系数据结构中的属性或者字段
３．ＷＥＢ数据挖掘：指同万维网相关数据的挖掘
第四章
一.填空
1．关联分析就是用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的联系可以利用关联规则或者频繁项集的形式表示
2.关联规则算法通常采用的策略是把关联规则挖掘任务分解为两步:找出所有频繁的项集;由频繁项集产生强关联规则
3.Apriori算法的两大缺点:可能产生大量的候选集,可能需要重复扫描数据库
2.数据归纳:其目的是建立用于挖掘的合适的数据集合,缩小处理范围,是在数据选择的基础上对挖掘数据的进一步约简,又叫数据缩减或数据收缩
三:简答
1.CRISP-DM模型的六个阶段
理解问题,理解数据,准备数据,建立模型,方案评估,方案实施
2.数据准备包含的方面
a从多个数据源中整合数据挖掘所需要的数据,保证数据的综合性,易用性,数据的质量和数据的时效性;b如何从现有数据中衍生出所需要的指标
4.Apriori算法优化的四种思路:减少DB描述的次数,对挖掘的数据集中进行扫描,利用修剪技术来减少候选集Ck的大小,并行数据挖掘
5.同层关联规则可以采用的两种支持策略:统一的最小支持度,递减的最小支持度
第五章聚类分析
一,填空.1.大多数聚类算法采用的两种具有代表性的数据结构:数据矩阵,相异度矩阵.
第一章
一．填空
1．数据挖掘和知识发现的三大主要技术为：数据库、统计学、机器学习
2．数据挖掘获得知识的表现形式主要有6种：规则、决策树、知识基网络权值、公式、案例
3．规则是由前提条件、结论两部分组成
4．基于案例推理CBR的基础是案例库
5．知识发现的基本步骤：数据选择、处理、转换、数据挖掘、解释与评价。数据挖掘是知识发现的关键步骤
3.在数据生成,处理和管理的许多阶段都会引入错误,主要包括
a数据输入和获得过程的错误;b数据集成所表现出来的错误(a度量纲问题b命名冲突问题c数据精度问题d汇总问题);c数据传输过程所引入的错误
4.通过历史数据预测未来,它的的有效性的前提条件隐藏着三个假设为
a过去是将来的好的预测器;b数据是可利用的;c数据包含我们想要的预测
6．数据挖掘的核心技术是：人工智能、机器学、统计学
7.目前数据挖掘在医学领域的应用集中在疾病辅助诊断、药物开发、医院信息系统、遗传学等方面
二．名解
1．数据挖掘DM：在数据中正规的发现有效的、新颖的、潜在有用的、并且最终可以被读懂的模式的过程
2．案例推理CBR：当要解决一个新问题时，CBR利用相似性检索技术到案例库中搜索与新问题相似的案例，再经过对就案例的修改来解决新问题
5.数据挖掘模型按功能可分为:预测模型,描述模型.其中前者包括:分类模型,回归模型,时间序列模型;后者包括:聚类模型,关联模型,序列模型
6.模型准确性的测试分为三类:简单验证,交叉验证,自举法
二.名词解释
1.静态数据:开展业务活动所需要的基本数据(动态数据的基础,保持数据的唯一性)
动态数据:指每笔业务发生时产生的事务处理信息
三．简答
１．人们使用文本DB的三个主要目的
a用户需要便利的获得全文文本，即文献检索，b用户应用此类数据库确定需要阅读的相关资料，c用户希望从文本数据库中获得信息的特异性片段，即从相关资料的特异性部分获得某个特意问题的答案
2．WEB数据库中的数据可以分为五个类别
a网页的内容，b网页间的结构，c网页内的结构，d描述用户如何使用网页的数据，e用户的人口统计学和注册信息
3．医学数据挖掘来自百度文库在的关键问题
a数据预处理，b信息融合技术，c快速的鲁棒的书库挖掘算法，d提供知识的准确性和安全性
4．数据挖掘在遗传学方面的应用
遗传学的研究表明，遗传疾病的发生是由基因决定的，基因数据库搜索技术在基因研究上做出了很多重大发现，其工作主要包括：a从各种生物体的大量DNA序列中定位出具有某种功能的基因，b在基因DB中搜索与某种具有高阶结构或功能的蛋白质相似的高阶结构序列
2.基于划分的聚类分析方法有,K-平均算法,K-中心点算法,CLAYANS算法.
3.孤立点挖掘的方法主要有:基于统计的方法,基于距离的方法,基于偏离的方法.
4.两种基于偏离的孤立点的检测技术是:序列异常技术，olap数据立方体技术.