数据挖掘复习总结

相关主题

数据挖掘总结

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、数据挖掘的概念：（商业及学术方面）

定义：a.技术定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们实现不知道的、但又是潜在的有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括以下几层含义：

1.数据源必须是真实的、大量的

2.发现的是用户感兴趣的知识

3.发现的知识是可接受的、可理解的、可运用的

4.发现的知识并不要求发放之四海皆准，仅要求支持特定的业务问题。商业定义：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关建化数据。简而言之，数据挖掘其实就一类深层次的数据分析方法

二、数据挖掘的模式

模式：数据特征化：目标类数据的一般特征或特性的汇总。通常用户指定类的数据通过数据库查询收集。

模式类型：a.概念/类描述：特征和区分数据可以与类或概念相关联。b.关联分析关联分析发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。c.分类与预测分类是这样的过程，它找描述或识别数据类或概念的模型(或函数)，以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集（即，其类标号已知的数据对象）的分析。d.聚类分析“何为聚类分析？”与分类和预测不同，聚类分析数据对象，而不考虑已知的类标号。e.局外者分析在一些应用中（如，欺骗检测），罕见的事件可能比正规出现的那些更有趣。局外者数据分析称作局外者挖掘。局外者可以使用统计试验检测。f．演变分析数据演变分析描述行为随时间变化的对象的规律或趋势，并对其建模。

三、OLAP技术，多维数据模型，数据立方体概念，构建星型数据库模型

OLAP技术（联机分析处理）：可以用不同的格式组织和提供数据，以满足不同用户的各种需求。

特点：面向市场的，用于知识工人的数据分析、管理大量历史数据，提供汇总和聚集机制，并在不同的粒度级别上存储和管理信息、通常采用星形或者雪花模型以及面向主题的数据库设计尝尝跨越数据库模式的多个版本，还可以处理来自不同组织的信息，由多个数据存储集成的信息、访问大部分是只读操作、多位数据模型：这种模型将数据看成数据立方体形式数据立方体：允许从多维对数据建模和观察，它由维和事实定义，维是关于一个组织想要保存记录的透视图或实体，事实是数值度量的。

构建星形数据库模型：数据仓库包括：一个大的包含大批数据并且不含冗余的中心表（事实表）；一组小的附属表，每维一个

四、度量分类与计算

度量可以根据其所用的聚集函数分成三类：（1）分布的：一个聚集函数是分布的，如果它能以如下分布方式进行计算：设数据被划分为n个集合，函数在每一部分上的计算得到一个聚集值。如果将函数用于n个聚集值得到的结果，与将函数用于所有数据得到的结果一样，则该函数可以用分布方式计算。（2）代数的：一个聚集函数是代数的，如果它能够由一个具有M个参数的代数函数计算（其中M是一个有界整数），而每个参数都可以用一个分布聚集函数求得。（3）整体的：一个聚集函数是整体的，如果描述它的子聚集所需的存储没有一个常数界。即不存在一个具有,个参数的代数函数进行这一计算（其中M是常数）。整体函数的常见例子包括median()，mode()和rank()。一个度量是整体的，如果它可以用整体聚集函数

得到。如何计算度量，首先看看如何对度量分类。注意，数据立方体空间的多维点由维-值对定义。例如，。数据立方体度量是一个数值函数，该函数可以对数据立方体的每一个点求值，通过对给定点的个维-值对聚集数据，计算该点的度量值。

五、K均值分配方法

（1）把对象划分为K个非空的子集（2）随机的选择一些种子点作为目前划分的簇的质心。质心是簇的中心（平均点）（3）把每一个对象赋给最近的种子点（4）重复第二步，直到没有新的分配

六、OLAP操作有哪些

（1）上卷：上卷操作（有些人称之为“上钻”操作）或者通过沿概念分层向上攀升，或者通过维归约，在数据方上进行聚集。

（2）下钻：下钻是上卷的逆操作，它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。

转轴：转轴（又称旋转）是一种目视操作，它转动数据的视角，提供数据的替代表示。（3）切片和切块：切片操作在给定的数据方的一个维上进行选择，导致一个子方。

（4）其它OLAP 操作：有些OLAP 还提供其它操作。例如，drill_across 执行涉及多个事实表的查询；drill_through 操作使用关系SQL 机制，钻到数据方的底层，到后端关系表。其它OLAP 操作可能包括列出表中最高或最低的N 项，以及计算移动平均值、增长率、利润、内部返回率、贬值、流通转换、和统计功能。

七、数据预处理（最小-最大规范化和小数定标规范化）

八、置信度与精确度的概念

精度是指重复测量值之间的接近度

所谓置信度,也叫可靠度，或置信水平、置信系数，它是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度.概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。

九、T 权值与D 权值计算

T-weight: 量化规则

a) 使用t_weight 表示主泛化关系中每个元组的典型性量化特征规则

将泛化的结果映射到相应的量化特征规则中，比如：

量化特征规则中每个析取代表一个条件，一般，这些条件的析取形成目标类的必要条件，因为该条件是根据目标类的所有情况导出的。也就是说，目标类的所有元组必须满足该条件。然而，该规则可能不是目标类的充分条件，因为满足同一条件的元组可能属于其他类。 eg.

D-wight:类比较描述中的目标类和对比类的区分特性也可以用量化规则来表示，即量化判别规则。量化判别规则使用d-weight 作为兴趣度度量（

q a －概化元组 C j －目标类

q a 的d-weight 是初始目标类工作关系中被q a 覆盖的元组数与初始目标类和对比类工作关系中被q a 覆盖的总元组数的比

❝ 例子：以下按照location 分类，分成EURTOPE 和NORTH_AMERICA 两类，描述这

两类的特征和比较

其中：第一个T-权=80/320=0.25，120/680=0.18；D-权=80/200=0.4，120/200=0.6

∑

==n i i a q count q count weight t 1)(/)(_]:[ )(...]:[ )()(_arg ,m m l l w t X condition w t X condition X class et t X ∨∨⇒∀%]

45:[ )" " )(( %]30:[ )"" )((%]25:[ )"" )(("" )( ,t American North X location t Europe X location t Asia X location computer X item X =∨=∨=⇒=∀∑

=∈∈=-m

1a a )

count(q )

count(q weight d i i j C C