第6章 数据聚类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据样本的二值离散型属性的取值情况
数据样本xi 1 数据样本xj 1 0 合计 a11 a01 a11+a01 0 a10 a00 a10+a00 合计 a11+a10 a01+a00 a11+a10+a01+a00
2015/10/26
数据仓库与数据挖掘
9
6.3.2 二值离散型属性的相似度计算方法
数据仓库与数据挖掘
15
6.4.1 k-means聚类算法的基本概念
聚类初始代表点的选择
根据实际问题的特点,按照经验来确定聚类子 集的数量,从数据中找出从直观上看来是比较 合适的k聚类的初始代表点 将数据集随机地分成k个聚类,之后计算每个聚 类的均值,并且将这些均值作为各个聚类的初 始代表点 随机地选择k个数据样本作为聚类的初始代表点
2015/10/26
数据仓库与数据挖掘
14
6.4.1 k-means聚类算法的基本概念
划分聚类方法对数据集进行聚类时包含三 个要点:
选定某种距离作为数据样本间的相似性度量 选择评价聚类性能的准则函数 选择某个初始分类,之后用迭代的方法得到聚 类结果,使得评价聚类的准则函数取得最优值
2015/10/26
k 1 d
明考斯基距离(Minkowski distance)
d( x i , x j ) ( x ik x jk )
k 1 d q 1/ q
2015/10/26
数据仓库与数据挖掘
7
距离满足的数学性质
2015/10/26
数据仓库与数据挖掘
8
6.3.2 二值离散型属性的相似度计算方法
数据仓库与数据挖掘
25
作业
上机:7 1-6,8-9
2015/10/26
数据仓库与数据挖掘
26
数据仓库与数据挖掘 20
2015/10/26
6.5.1 层次聚类方法的基本概念
层次聚类方法最常用的相似性度量有:
最小距离
d min (X i , X j )
pX i , p 'X j
min d(p, p' )
最大距离
d max (X i , X j )
pX i , p 'X j
wenku.baidu.com
数据挖掘技术对聚类分析的要求:
可伸缩性 处理不同类型属性的能力 发现任意形状聚类的能力 减小对先验知识和用户自定义参数的依 赖性 处理噪声数据的能力 可解释性和实用性
数据仓库与数据挖掘 4
2015/10/26
6.2 聚类分析概述
划分聚类方法 层次聚类方法
自底向上:凝聚型 自顶相下:分解型 每一个类别被看作一个数据区域,对于某个特定类别的 任一数据样本,在给定的范围内必须包含大于给定值的 数据样本
2015/10/26
数据仓库与数据挖掘
2
6.1 引例
聚类分析示例数据集
样本序号
x1 x2 x3 x4
描述属性1
1 1 1.5 4.5
描述属性2
3 6.5 4 7.5
聚类分析的数据集 没有类别属性
x5
x6 x7
2015/10/26
4
5.5 4.5
8.5
9 8
数据仓库与数据挖掘 3
6.2 聚类分析概述
2015/10/26
数据仓库与数据挖掘
6
6.3.1 连续型属性的相似度计算方法
欧氏距离(Euclidean distance)
d( x i , x j )
2 ( x x ) ik jk k 1 d
曼哈顿距离(Manhattan distance)
d ( x i , x j ) x ik x jk
2015/10/26 数据仓库与数据挖掘 18
6.5 层次聚类方法
6.5.1 层次聚类方法的基本概念 6.5.2 层次聚类方法应用举例
2015/10/26
数据仓库与数据挖掘
19
6.5.1 层次聚类方法的基本概念
凝聚型层次聚类 自底向上,将每个数据样本单独看作一个类别 逐步将数据样本进行合并,直到所有的样本都 在一个类中为止,或者是满足某个终止条件为 止 分解型层次聚类 自顶向下,把所有的样本归为一个类别,之后 逐步将样本分解为不同的类别,直到每个样本 单独构成一个类别或者满足终止条件为止
2015/10/26
数据仓库与数据挖掘
16
6.4.1 k-means聚类算法的基本概念
k-means聚类算法的操作步骤
2015/10/26
数据仓库与数据挖掘
17
6.4.2 SQL server 2005中的k-means应用 创建 Analysis Services 项目 创建数据源 创建数据源视图 创建k-means挖掘结构 设置k-means挖掘结构的相关参数 建立k-means挖掘模型 查看挖掘结果
2015/10/26
数据仓库与数据挖掘
22
6.5.1 层次聚类方法的基本概念
凝聚型层次聚类的操作步骤
2015/10/26
数据仓库与数据挖掘
23
6.5.2 层次聚类方法应用举例
根据表中给出的数据,利用凝聚型层次聚类方法 对其中的数据样本进行层次聚类
数据仓库与数据挖掘 24
2015/10/26
2015/10/26
对称的二值离散型属性
a10 a 01 d( x i , x j ) a11 a10 a 01 a 00
不对称的二值离散型属性
a10 a 01 d( x i , x j ) a11 a10 a 01
2015/10/26
数据仓库与数据挖掘
10
6.3.3 多值离散型属性的相似度计算方法
数据仓库与数据挖掘
第6章 数据聚类
主讲:张莉
Email:zhangliml@suda.edu.cn
2015/10/26
1
6.1 引例
聚类分析的定义
聚类分析是将物理的或者抽象的数据集 合划分为多个类别的过程,聚类之后的 每个类别中任意两个数据样本之间具有 较高的相似度,而不同类别的数据样本 之间具有较低的相似度
基于密度的聚类方法
基于网格的聚类方法
处理速度较快
数据仓库与数据挖掘 5
2015/10/26
6.3 聚类分析中相似度的计算方法
6.3.1 连续型属性的相似度计算方法 6.3.2 二值离散型属性的相似度计算方法 6.3.3 多值离散型属性的相似度计算方法 6.3.4 混合类型属性的相似度计算方法
多值离散型属性的相似度
du d( x i , x j ) d
d为数据集中的属性个数,u为样本xi和xj取值相 同的属性个数
2015/10/26
数据仓库与数据挖掘
11
例子
2015/10/26
数据仓库与数据挖掘
12
6.3.4 混合类型属性的相似度计算方法
对于包含混合类型属性的数据集的相似 度通常有两种计算方法:
将属性按照类型分组,每个新的数据集中只 包含一种类型的属性;之后对每个数据集进 行单独的聚类分析 把混合类型的属性放在一起处理,进行一次 聚类分析
2015/10/26
数据仓库与数据挖掘
13
6.4 k-means聚类算法
6.4.1 k-means聚类算法的基本概念 6.4.2 SQL server 2005中的k-means 应用
max d(p, p' )
2015/10/26
数据仓库与数据挖掘
21
6.5.1 层次聚类方法的基本概念
层次聚类方法最常用的相似性度量有:
均值距离
dmean(Xi , X j ) d(mi , m j )
平均距离
1 d avg (Xi , X j ) d(p, p' ) n i n j pX i p 'X j