医学数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.两种基于偏离的孤立点的检测技术是:序列异常技术,数据立 方体技术.
二,名词解释
1.聚类分析,是一个将数据集划分为若干组成类的过程.并使得 同一个组内的数据对象具有较高的相似度,而不同组中的数据 是不相似的.
5.预测模型和描述模型的区别 数据挖掘模型按照功能分为预测模型和描述模型.在预测模型 中,用来预测的称为独立变量,要预测的称为相关变量或目标 变量.预测模型包括分类模型,回归模型和时间序列模型;描述 模型包括聚类模型,关联模型和序列模型.前者有时又称为有 监督学习,可直接用来检测模型的准确性,一般在建立这些模 型时,使用一部分数据作为样本,用另一部分数据来检验,校正 模型;后者又称为无监督学习,因为在模型建立前结果是未知 的,模型的产生不受任何监督
模式。星型模式是由事实表和维表构成
5.DM分为:WEB内容挖掘、WEB结构挖掘、WEB使用
挖掘
二.名解
1.数据仓库:一个面向主题的、集成的、时变的、非易失的数
据集合,用以支持管理活动的决策过程
2.数据立方体:指以两维或多维来描述或者分类数据。这里的
维类似于关系数据结构中的属性或者字段
3.WEB数据挖掘:指同万维网相关数据的挖掘
三.简答
1.人们使用文本的三个主要目的
a用户需要便利的获得全文文本,即文献检索,b用户应用 此类数据库确定需要阅读的相关资料,c用户希望从文本数据 库中获得信息的特异性片段, 即从相关资料的特异性部分获得 某个特意问题的答案
2.数据库中的数据可以分为五个类别
a网页的内容,b网页间的结构,c网页内的结构,d描述用
3.医学数据挖掘存在的关键问题
a数据预处理,b信息融合技术,c快速的鲁棒的书库挖掘算 法,d提供知识的准确性和安全性
4.数据挖掘在遗传学方面的应用
遗传学的研究表明,遗传疾病的发生是由基因决定的,基因 数据库搜索技术在基因研究上做出了很多重大发现, 其工作主 要包括:a从各种生物体的大量序列中定位出具有某种功能的 基因,b在基因中搜索与某种具有高阶结构或功能的蛋白质相 似的高阶结构序列
5.数据挖掘模型按功能可分为:预测模型,描述模型.其中前者包 括:分类模型,回归模型,时间序列模型;后者包括:聚类模型,关联模型,序列模型
6.模型准确性的测试分为三类:简单验证,交叉验证,自举法
2.名词解释
1.静态数据:开展业务活动所需要的基本数据(动态数据的基础,保持数据的唯一性)
动态数据:指每笔业务发生时产生的事务处理信息
2.数据归纳:其目的是建立用于挖掘的合适的数据集合,缩小处 理范围,是在数据选择的基础上对挖掘数据的进一步约简,又
叫数据缩减或数据收缩
三:简答
1模型的六个阶段
理解问题,理解数据,准备数据,建立模型,方案评估,方案实施
2.数据准备包含的方面
a从多个数据源中整合数据挖掘所需要的数据,保证数据的综
合性,易用性,数据的质量和数据的时效性如何从现有数据中 衍生出所需要的指标
三.简答
1.数据挖掘的特点
a挖掘对象是超大型的,b发现隐含的知识,c可以用于增进 人类认知的知识,d不是手工完成的
2.案例是解决新问题的一种知识,案例知识表示为三元组
a问题描述:对求解的问题及周围环境的所有特征的描述,b解描述:对问题求解方案的描述,c效果描述:描述解决方案 后的结果情况,是失败还是成功
第四章
一.填空1.关联分析就是用于发现隐藏在大型数据集中的令人感兴趣的
联系,所发现的联系可以利用关联规则或者频繁项集的形式表 示
2.关联规则算法通常采用的策略是把关联规则挖掘任务分解为
两步:找出所有频繁的项集;由频繁项集产生强关联规则
3算法的两大缺点:可能产生大量的候选集,可能需要重复扫描数 据库
4算法优化的四种思路:减少描述的次数,对挖掘的数据集中进行 扫描,利用修剪技术来减少候选集的大小,并行数据挖掘
第一章
.填空
1.数据挖掘和知识发现ቤተ መጻሕፍቲ ባይዱ三大主要技术为:数据库、统计学、 机器学习
2.数据挖掘获得知识的表现形式主要有6种:规则、决策树、
知识基网络权值、公式、案例
3.规则是由前提条件、结论两部分组成
4.基于案例推理的基础是案例库
5.知识发现的基本步骤:数据选择、处理、转换、数据挖掘、 解释与评价。数据挖掘是知识发现的关键步骤
3.在数据生成,处理和管理的许多阶段都会引入错误,主要包括a数据输入和获得过程的错误数据集成所表现出来的错误(a度量纲问题b命名冲突问题c数据精度问题d汇总问题)数据 传输过程所引入的错误
4.通过历史数据预测未来,它的的有效性的前提条件隐藏着三个 假设为
a过去是将来的好的预测器数据是可利用的数据包含我们想要 的预测
第二章
一.填空
1.的对象分为:关系型、数据仓库、文本、复杂类型2.从用户角度来看,数据仓库的基本组成包括:数据源、数据 存储、应用工具、可视化用户界面
3.数据仓库是最流行的数据模型是多维数据模型,多维数据模 型将数据看作是数据立方体的形式, 数据立方体是由维和事实 来定义
4.常用的多维数据模式包括:星型模式、雪花模式、事实星座
5.同层关联规则可以采用的两种支持策略:统一的最小支持度,递减的最小支持度
第五章 聚类分析
一,填空.1.大多数聚类算法采用的两种具有代表性的数据结构:
数据矩阵,相异度矩阵.
2.基于划分的聚类分析方法有平均算法中心点算法算法.
3.孤立点挖掘的方法主要有:基于统计的方法,基于距离的方法,基于偏离的方法.
户如何使用网页的数据,e用户的人口统计学和注册信息 第三章
1.填空题
1.确定商业目标,认清数据挖掘的目的是的第一步
2.影响结果质量的两个因素是:所采用技术的有效性(模型的选
择),用于挖掘的数据的质量和数量
3.数据质量的含义包含四个方面:数据的正确性,数据的一致性,数据的完整性,数据的可靠性
4.数据清洗的技术:空值处理,噪音数据,不一致数据等处理技术
6.数据挖掘的核心技术是:人工智能、机器学、统计学
7.目前数据挖掘在医学领域的应用集中在疾病辅助诊断、 药物开 发、医院信息系统、遗传学等方面
二.名解
1.数据挖掘:在数据中正规的发现有效的、新颖的、潜在有用 的、并且最终可以被读懂的模式的过程
2.案例推理:当要解决一个新问题时,利用相似性检索技术到 案例库中搜索与新问题相似的案例, 再经过对就案例的修改来 解决新问题
二,名词解释
1.聚类分析,是一个将数据集划分为若干组成类的过程.并使得 同一个组内的数据对象具有较高的相似度,而不同组中的数据 是不相似的.
5.预测模型和描述模型的区别 数据挖掘模型按照功能分为预测模型和描述模型.在预测模型 中,用来预测的称为独立变量,要预测的称为相关变量或目标 变量.预测模型包括分类模型,回归模型和时间序列模型;描述 模型包括聚类模型,关联模型和序列模型.前者有时又称为有 监督学习,可直接用来检测模型的准确性,一般在建立这些模 型时,使用一部分数据作为样本,用另一部分数据来检验,校正 模型;后者又称为无监督学习,因为在模型建立前结果是未知 的,模型的产生不受任何监督
模式。星型模式是由事实表和维表构成
5.DM分为:WEB内容挖掘、WEB结构挖掘、WEB使用
挖掘
二.名解
1.数据仓库:一个面向主题的、集成的、时变的、非易失的数
据集合,用以支持管理活动的决策过程
2.数据立方体:指以两维或多维来描述或者分类数据。这里的
维类似于关系数据结构中的属性或者字段
3.WEB数据挖掘:指同万维网相关数据的挖掘
三.简答
1.人们使用文本的三个主要目的
a用户需要便利的获得全文文本,即文献检索,b用户应用 此类数据库确定需要阅读的相关资料,c用户希望从文本数据 库中获得信息的特异性片段, 即从相关资料的特异性部分获得 某个特意问题的答案
2.数据库中的数据可以分为五个类别
a网页的内容,b网页间的结构,c网页内的结构,d描述用
3.医学数据挖掘存在的关键问题
a数据预处理,b信息融合技术,c快速的鲁棒的书库挖掘算 法,d提供知识的准确性和安全性
4.数据挖掘在遗传学方面的应用
遗传学的研究表明,遗传疾病的发生是由基因决定的,基因 数据库搜索技术在基因研究上做出了很多重大发现, 其工作主 要包括:a从各种生物体的大量序列中定位出具有某种功能的 基因,b在基因中搜索与某种具有高阶结构或功能的蛋白质相 似的高阶结构序列
5.数据挖掘模型按功能可分为:预测模型,描述模型.其中前者包 括:分类模型,回归模型,时间序列模型;后者包括:聚类模型,关联模型,序列模型
6.模型准确性的测试分为三类:简单验证,交叉验证,自举法
2.名词解释
1.静态数据:开展业务活动所需要的基本数据(动态数据的基础,保持数据的唯一性)
动态数据:指每笔业务发生时产生的事务处理信息
2.数据归纳:其目的是建立用于挖掘的合适的数据集合,缩小处 理范围,是在数据选择的基础上对挖掘数据的进一步约简,又
叫数据缩减或数据收缩
三:简答
1模型的六个阶段
理解问题,理解数据,准备数据,建立模型,方案评估,方案实施
2.数据准备包含的方面
a从多个数据源中整合数据挖掘所需要的数据,保证数据的综
合性,易用性,数据的质量和数据的时效性如何从现有数据中 衍生出所需要的指标
三.简答
1.数据挖掘的特点
a挖掘对象是超大型的,b发现隐含的知识,c可以用于增进 人类认知的知识,d不是手工完成的
2.案例是解决新问题的一种知识,案例知识表示为三元组
a问题描述:对求解的问题及周围环境的所有特征的描述,b解描述:对问题求解方案的描述,c效果描述:描述解决方案 后的结果情况,是失败还是成功
第四章
一.填空1.关联分析就是用于发现隐藏在大型数据集中的令人感兴趣的
联系,所发现的联系可以利用关联规则或者频繁项集的形式表 示
2.关联规则算法通常采用的策略是把关联规则挖掘任务分解为
两步:找出所有频繁的项集;由频繁项集产生强关联规则
3算法的两大缺点:可能产生大量的候选集,可能需要重复扫描数 据库
4算法优化的四种思路:减少描述的次数,对挖掘的数据集中进行 扫描,利用修剪技术来减少候选集的大小,并行数据挖掘
第一章
.填空
1.数据挖掘和知识发现ቤተ መጻሕፍቲ ባይዱ三大主要技术为:数据库、统计学、 机器学习
2.数据挖掘获得知识的表现形式主要有6种:规则、决策树、
知识基网络权值、公式、案例
3.规则是由前提条件、结论两部分组成
4.基于案例推理的基础是案例库
5.知识发现的基本步骤:数据选择、处理、转换、数据挖掘、 解释与评价。数据挖掘是知识发现的关键步骤
3.在数据生成,处理和管理的许多阶段都会引入错误,主要包括a数据输入和获得过程的错误数据集成所表现出来的错误(a度量纲问题b命名冲突问题c数据精度问题d汇总问题)数据 传输过程所引入的错误
4.通过历史数据预测未来,它的的有效性的前提条件隐藏着三个 假设为
a过去是将来的好的预测器数据是可利用的数据包含我们想要 的预测
第二章
一.填空
1.的对象分为:关系型、数据仓库、文本、复杂类型2.从用户角度来看,数据仓库的基本组成包括:数据源、数据 存储、应用工具、可视化用户界面
3.数据仓库是最流行的数据模型是多维数据模型,多维数据模 型将数据看作是数据立方体的形式, 数据立方体是由维和事实 来定义
4.常用的多维数据模式包括:星型模式、雪花模式、事实星座
5.同层关联规则可以采用的两种支持策略:统一的最小支持度,递减的最小支持度
第五章 聚类分析
一,填空.1.大多数聚类算法采用的两种具有代表性的数据结构:
数据矩阵,相异度矩阵.
2.基于划分的聚类分析方法有平均算法中心点算法算法.
3.孤立点挖掘的方法主要有:基于统计的方法,基于距离的方法,基于偏离的方法.
户如何使用网页的数据,e用户的人口统计学和注册信息 第三章
1.填空题
1.确定商业目标,认清数据挖掘的目的是的第一步
2.影响结果质量的两个因素是:所采用技术的有效性(模型的选
择),用于挖掘的数据的质量和数量
3.数据质量的含义包含四个方面:数据的正确性,数据的一致性,数据的完整性,数据的可靠性
4.数据清洗的技术:空值处理,噪音数据,不一致数据等处理技术
6.数据挖掘的核心技术是:人工智能、机器学、统计学
7.目前数据挖掘在医学领域的应用集中在疾病辅助诊断、 药物开 发、医院信息系统、遗传学等方面
二.名解
1.数据挖掘:在数据中正规的发现有效的、新颖的、潜在有用 的、并且最终可以被读懂的模式的过程
2.案例推理:当要解决一个新问题时,利用相似性检索技术到 案例库中搜索与新问题相似的案例, 再经过对就案例的修改来 解决新问题