期末复习题目
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
名词解释,简明扼要地解释下列概念、并且给出它们对应的英文表达。
1.数据挖掘
英文名称:Data Mining
定义:就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
2.过度拟合
英文名称:Overfitting
定义:为了得到一致假设而使假设变得过度复杂称为过度拟合。
3.人工神经网络
英文名称:ArtificialNeuralNetworks,简写为ANNs
定义:它是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
4.数据仓库
英文名称:Data Warehouse,可简写为DW或DWH。
定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
5.商业智能
英文名称:Business Intelligence,简写为BI。
定义:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
6.决策支持系统
英文名称:decision support system ,简称dss
定义:是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
简答题
1、KDD是一个多步骤的处理过程,它一般包含哪些基本阶段?简述各阶段的主要功能。
KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。
主要功能1:
(1)问题定义阶段的功能:和领域专家以及最终用户紧密协作,一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘目标等要求;另一方面通过对各种学习算法的对比而确定可用的学习算法。
(2)数据抽取阶段的功能:选取相应的源数据库,并根据要求从数据库中提取相关的数据。
(3)数据预处理阶段的功能:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性。
(4)数据挖掘阶段的功能:运用选定的数据挖掘算法,从数据中提取出用户所需要的知识。
(5)模式评价阶段的功能:将KDD系统发现的知识以用户能了解的方式呈现,并且根据需要进行知识的评价。如果发现知识和用户挖掘的目标不一致,则重复以上阶段以最终获得可用知识。
主要功能2:
1:问题定义: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中.
2: 数据预处理: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在的错误以及缺失信息
3: 数据抽取: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.
4: 数据挖掘: 应用数据挖掘工具.
5: 模式评估: 了解以及评估数据挖掘结果.
2、数据挖掘的六种常用算法和技术分别是什么?
算法:
1.决策树算法
2.聚类分析算法
3.Naive Bayes 算法
4.关联规则算法
5.顺序分析和聚类分析算法
6.时序算法
7.神经网络算法
8.逻辑回归算法
9.线性回归算法
下面是六种最主要的分类算法:决策树、KNN法(K最近邻法)、SVM法(支持向量机法)、VSM法(向量空间模型法)、Bayes法、神经网络。
技术:
1.人工神经网络
2. 决策树
3. 遗传算法
4. 近邻算法
5. 规则推导
(一)关联分析法。
(二)人工神经元网络(ANN)
(三)决策树(DT)
(四)遗传算法(GA)
(五) 聚集发现
(六)关联分析和序列模式分析
3、数据仓库的内容与特点。
内容:
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
由以下几点组成:
1、数据仓库数据库
数据仓库的数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
2、数据抽取工具
数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。
3、元数据
元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;
元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
4、访问工具
为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;经理信息系统(EIS)工具;联机分析处理(OLAP)工具;数据挖掘工具。
5、数据集市(Data Marts)
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。
数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。