数据挖掘笔记2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、聚类算法主要有:划分法、层次法、局部方法和模型方法。

2、噪音水平:数据库中所含噪音数据的比例。

3、优化:选择某种算法是的分类误差最小化的过程。

4、机器学习领域中的噪音(Noise Data):不完整数据(incomplete data)、嘈杂数据(noisy data)、不一致数据(inconsistent data)

5、消除噪音的方法:箱柜法、聚类法、回归法和优化法。

6、数据预处理方法:包括数据清洗、数据集成、数据变换和数据消减。

7、OLAP有哪些特性?

①快速性:用户对OLAP的快说反应能力有很高的要求。系统能在5秒内对用户的大部分分析要求作出反应

②可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和系统分析

③多维性:多为形式OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。

④信息性:不论信息量有多大,也不管信息存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。

8、数据仓库的生命周期CLDS包括那几个方面:

①实现数据仓库②集成数据③检验偏差④针对数据编程⑤设计DSS系统⑥分析结果⑦理解需求

9、数据仓库的特点:面向主题、集成的、数据不可更改、随时间变化

10、数据挖掘的基本过程是什么?数据挖掘一般有哪几步?

数据挖掘的基本过程:①数据准备,包括数据集成、数据选择和预分析②挖掘,数据挖掘处理器综合利用前面提到的多种数据挖掘方法分析数据③表述,数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户④评价,如果分析人员对分析结果不满意,可以递归的执行上面的三个过程,直到满意为止。

数据挖掘一般分为以下几步:

①问题定义②发现信息③制定计划④采取行动⑤检测效果

11、粒度(定义):是指数据仓库中保存数据的细化或综合程度的级别,粒度影响数据仓库中数据量的大小

12、什么是元数据?

元数据是数据的数据,是关于数据和信息资源的描述信息。它是数据仓库的核心,它定义了源数据库和数据仓库的存储模型和数据结构、转换规则和其他控制信息等。

13、关联分析:关联分析就是从给定的数据集发现频繁出现的项集模式知识。

14、数据压缩及方法。

数据压缩就是利用数据编码或数据转换将原来的数据集合压缩为一个较小

规模的数据集合。

数据压缩方法:小波转换和主要素分析。

相关文档
最新文档