数据挖掘试卷分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、简答题
1、什么是数据挖掘?数据挖掘有哪些挖掘任务?请进行简要的解释。
答:数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。简而言之,数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
数据挖掘的任务主要有分类分析、聚类分析、关联分析、序列分析及时间序列。另外,还有孤立点分析、依赖关系分析、概念描述、偏差检测等。
1、分类分析(Classification Analysis)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是有制导的学习,它利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测,常应用于风险管理、广告投放等商业环境。
2、聚类分析(Clustering Analysis)
聚类又被称为分隔(segmentatio),聚类分析是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。聚类分析是无制导的学习,聚类分析与分类分析不同,它不依赖于没有事先确定的类,也没有已具有类标识的训练集。好的聚类分析算法应该使得所得到的聚簇内的相似性很高,而不同的聚簇间的相似性很低。
3、关联分析(Association Analysis)
关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。最典型的应用是市场中购物篮分析。
4、序列分析及时间序列(Sequence Analysis and Time Sequence)
序列分析及时间序列是指通过序列信息或时间序列搜索出重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处的序列或时间的不同。
2、为什么要数据预处理?简要论述数据预处理步骤和每一步骤的任务
答:原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。
数据预处理步骤包含数据清理、数据集成、数据规约和数据变换。数据清理的任务是通过填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致。将多个数据源中的数据结合起来存放在一个一致的数据存储中,有助于减少结果数据集的冗余和不一致,从而提高其后挖掘过程的准确性和速度。数据规约的任务是指在尽可能保持原始数据完整性的前提下,最大限度地精简数据量(缩小数据的取值范围)。这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。数据变换的任务是对数据进行变换和统一,主要有规范化、离散化等策略,达到适用于挖掘的目的。
3、数据仓库相关?什么是OLAP?在数据仓库上经常进行哪些OLAP操作?请进行简要解释。
答:
建立数据仓库(特点见书P83)的目的有3个:
一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策
分析的响应速度。
二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。
三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。
建立数据仓库的方法:可以使用自顶向下方法、自底向上方法或者二者结合的混合方法建立
构造步骤:一般的,数据仓库的设计过程包含如下步骤:①选取待建模的商务处理②选取商务处理的粒度③选取用于每个事实表记录的维④选取事实表中每条记录的度量。
数据仓库与数据库的不同:
数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,
数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER数据模型.它们都为数据挖掘提供了源数据,都是数据的组合
OLAP是联机分析处理的简称,OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
OLAP的特性:
OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。
(1)快速性。用户对OLAP的快速反应能力有很高的要求。要求系统能在几秒钟内对用户的多数分析要求做出反应。
(2)可分析性。OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统可以事先编程,但并不意味着系统定义了所有的应用。
(3)多维性。多维性是OLAP的关键属性。系统能够提供对数据分析的多维视图和分析,包括对层次维和多重层次维的支持。事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。
(4)信息性。不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
(5)共享性。共享性是在大量用户间实现潜在地共享秘密数据所必须的安全需求。
OLAP的操作:
(1)上卷:上卷操作通过沿一个维的概念分层向上攀升或者通过维规约,对数据立方体进行聚集;
(2)下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入附加的维来实现;
(3)切片和切块:切片操作对给定立方体的一个维进行选择,导致一个子立方体。切块操作通过对两个或多个维执行选择,定义子立方体;
(4)转轴(旋转):转轴是一种可视化操作,它转动数据的视角,提供数据的替代表示;
(5)其他OLAP操作:钻过执行涉及多个事实表的查询;钻透操作使用关系SQL机制,钻透数据立方体的底层,到后段关系表。
OLTP和OLAP的区别:
用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;
数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;