数据挖掘考试复习资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘考试复习资料

一、名词解释

1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,

用来支持管理决策。

2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被

称为聚类

3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先

前未知的和可能有用的模式或知识

4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构

进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。

5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的

信息和知识的计算机处理技术

6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从

多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1:OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。

定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。)

7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特

征。特征化:提供给定数据汇集的简洁汇总

比较:提供两个或多个数据汇集的比较描述

8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表

了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵、平均自信息量。

二、简答题

1、数据仓库和传统数据库的区别和联系是什么?

(1)区别:数据仓库和数据库是不同的概念

数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。数据仓库系统和传统数据库系统相比,不同点表现在以下几方面。

(2)联系:数据库是数据管理技术,是计算机科学的重要分支,其应用已从一般管理扩大到计算机辅助设计、人工智能以及科技计算等领域.数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,是20世纪末到21世纪初数据库市场的一个新的增长点.数据仓库的数据常常来自于多个数据源,存放模式一致,数据一般驻留在单个站点,数据仓库中的数据已经清理、变换、集成于装载,并定期刷新,数据仓库中的数据是海量的,数据仓库所要研究和解决的问题就是从数据库中的获取信息.

数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。

2、数据挖掘的主要功能是什么?

数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

(1)自动预测趋势和行为——数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势。

(2)关联分析——数据关联是数据库中存在的一类重要的可被发现的知识,若两个或两个以上变量的取值之间存在某种规律性,就称为关联。

(3)聚类——聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。

(4)概念描述——就是对目标类对象的内涵进行描述,并概括这类对象的有关特征。

(5)偏差检测——数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。

3、简述OLAP在多维数据模型中的几个基本操作?

(1)切片:在多维数组的某一维上选定一维成员的动作成为切片。

(2)切块:在多维数组的某一维上选定某一区间的维成员的动作。

(3)旋转:旋转既是改变一个报告或者页面的维方向

(4)钻取。钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。

4、数据挖掘的步骤包括哪些?

①理解数据和数据的来源②获取相关知识与技术③整合与检查数据

④ 去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作

⑦测试和验证挖掘结果⑧解释和应用

(1)数据准备:包括数据的选择、净化、推测、转换数据缩减。

数据准备包括:选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;

数据预处理--进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

(2)数据挖掘:采用的技术有——决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算了。数据挖掘根据KDD的日标,选取相应算法的参数,得到可能形成知识的模式模型。

(3)评估、解释模式模型:上面得到的模式模型,需要评估以确定哪些是有效的模式。结果分析对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

(4) 巩固知识。

(5) 运用知识。将分析所得到的知识集成到业务信息系统的组织结构中去。

5、数据挖掘与传统分析方法的区别是什么?

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征.

先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.

6、简述事务处理与分析处理的操作特点的不同?

OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

相关文档
最新文档