数据挖掘期末

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(一)概述

为什么要数据挖掘(Data Mining)?

存在可以广泛使用的大量数据,并且迫切需要将数据转转换成有用的信息和知识

什么是数据挖掘?

数据挖掘(Data Mining)是指从大量数据中提取或“挖掘”知识。

对何种数据进行数据挖掘?

关系数据库、数据仓库、事务数据库

空间数据

超文本和多媒体数据

时间序列数据

流数据

(二)数据预处理

为什么要预处理数据?

为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性,是数据挖掘中非常重要的环节;

数据库和数据仓库中的原始数据可能存在以下问题:

定性数据需要数字化表示

不完整

含噪声

度量单位不同

维度高

数据的描述

度量数据的中心趋势:均值、加权均值、中位数、众数

度量数据的离散程度:全距、四分位数、方差、标准差

基本描述数据汇总的图形显示:直方图、散点图

度量数据的中心趋势

集中趋势:一组数据向其中心值靠拢的倾向和程度。

集中趋势测度:寻找数据水平的代表值或中心值。

常用的集中趋势的测度指标:

均值:

缺点:易受极端值的影响

中位数:对于不对称的数据,数据中心的一个较好度量是中位数

特点:对一组数据是唯一的。不受极端值的影响。

众数:一组数据中出现次数最多的变量值。

特点:不受极端值的影响。有的数据无众数或有多个众数。

度量数据的离散程度

反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。

常用指标:

全距(极差):全距也称极差,是一组数据的最大值与最小值之差。

R=最大值-最小值

组距分组数据可根据最高组上限-最低组下限计算。

受极端值的影响。

四分位距 (Inter-Quartilenge, IQR):等于上四分位数与下四分位数之差(q3-q1)

反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。

不受极端值的影响。

可以用于衡量中位数的代表性。

四分位数:

把顺序排列的一组数据分割为四(若干相等)部分的分割点的数值。

分位数可以反映数据分布的相对位置(而不单单是中心位置)。

在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:

SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。

Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。

如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。

方差和标准差:方差是一组数据中各数值与其均值离差平方的平均数,标准差是方差正的平方根。

是反映定量数据离散程度的最常用的指标。

基本描述数据汇总的图形显示

直方图(Histogram):使人们能够看出这个数据的大体分布或“形状”

散点图

如何进行预处理

定性数据的数字化表示:

二值描述数据的数字化表示

例如:性别的取值为“男”和“女”,男→1,女→0

多值描述数据的数字化表示

例如:信誉度为“优”、“良”、“中”、“差”

第一种表示方法:优→1,良→2,中→3,差→4

第二种表示方法:

填充空缺值(不完整的数据):

忽略元组

人工填写

使用属性的均值

使用与给定元组属同一类的所有样本的属性均值

消除含噪声的数据:

分箱:

分箱前对记录集按目标属性值的大小进行排序

等深分箱法

等宽分箱法

用户自定义

分箱之后,按箱平均值平滑,按箱边界平滑

数据变换

最小-最大规范化

z-score规范化

小数定标

数据压缩

主成分分析(PCA)

特征选择

(三)数据分类

分类的定义

分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。

分类问题使用的数据集格式:

描述属性的取值可以定性的数据,也可以是定量的数据;而类别属性的取值必须是定性的数据。

定量的数据是指在某一个区间或者无穷区间内取值是连续的,例如描述属性“Age”

定性的数据是指该属性的取值是不连续的,例如属性“Salary”和“Class”

获取数据

输入数据、对数据进行量化

预处理

去除噪声数据、对空缺值进行处理

数据变换、数据压缩

分类器设计

划分数据集、分类器构造、分类器测试

分类决策

对未知类标号的数据样本进行分类

决策树的基本概念

适用于定性取值属性、定量取值属性

采用自顶向下的递归方式产生一个类似于流程图的树结构

在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。

决策树的优点:

进行分类器设计时,决策树分类方法所需时间相对较少;

决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式;

可以将决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解。

决策树算法ID3

ID3只能处理定性取值属性;在选择根节点和各个内部节点上的分枝属性时,采用信息增益作为度量标准,选择具有最高信息增益的描述属性作为分枝属性

决策树算法C4.5

C4.5算法使用信息增益比来选择分枝属性,克服了ID3算法使用信息增益时偏向于取值较多的属性的不足;

C4.5既可以处理定性取值属性,也可以处理定量取值属性。

(四)数据聚类

聚类分析的定义

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度

相关文档
最新文档