模式识别课件之数据聚类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A K Q J
颜色相同的牌为一组
14
聚类分析原理
分组的意义在于我们怎么定义并度量“相似性” 因此衍生出一系列度量相似性的算法
15
聚类分析原理
相似性的度量(统计学角度)
距离Q型聚类(主要讨论)
主要用于对样本分类
常用的距离有:
明考夫斯基距离(包括:绝对距离、欧式距离、切比 雪夫距离)
兰氏距离 马氏距离 斜交空间距离 此不详述,可参考《应用多元分析》(第二版)王学
谁经常光顾商店,谁买什么东西,买多少?
按照卡记录的光临次数、光临时间、性别、年龄、 职业、购物种类、金额等变量分类
这样商店可以….
识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉 ,习惯周末时一次性大采购)
刻画不同的客户群的特征
5
聚类应用
挖掘有价值的客户,并制定相应的促销策略:
如,对经常购买酸奶的客户 对累计消费达到12个月的老客户
聚类准则是反映类别间相似性或分离性的函数
误差平方和准则(最常用的) 加权平均平方距离和准则
31
误差平方和准则
假定有混合样本X={x1, x2, …, xn} 采用某种相似性度量,X被聚合成c个分离开的子集 X1, X2, …, Xc。每个子集是一个类型,它们分别包含 n1, n2, …, nc个样本 为了衡量类的质量,采用误差平方和Jc聚类准则函数 ,定义为:
29
角度相似性度量
样本与之间的角度相似性度量定义为它们之间夹角
的余弦
S(x, y) cos xT y
|| x || || y ||
30
3.3 聚类准则
相似性度量 → 集合与集合的相似性 相似性准则 → 分类效果好坏的评价准则 聚类准则: 试探法
定义一种相似性度量的阈值 聚类准则函数法
监督学习:需要用训练样本进行学习和训练 非监督学习:对于没有类别标签的样本集,根
据该问题本身的目的和样本的特性,把全体N 个样本划分为若干个子集,同类样本特性相差 小,异类样本特性相差大。
3
聚类应用
花瓣的“物以类聚”
4
聚类应用
早在孩提时代,人就通过不断改进下意识中的聚类 模式来学会如何区分猫和狗,动物和植物
7
聚类应用
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群, 并且用购买模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况, 集中对特定的类做进一步的研究
8
聚类分析原理
聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相
似性和距离来划分 聚类的数目和结构都没有事先假定
9
聚类分析原理
聚类方法的目的是寻找数据中: 潜在的自然分组结构 感兴趣的关系
针对潜在客户派发广告,比在大街上乱发传单 命中率更高,成本更低!
6
聚类应用
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分 类,找出“黄金客户”!
这样银行可以制定更吸引的服务,留住客户!比如:
一定额度和期限的免息透支服务! 商场的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
mj为类型Xj中样本的均值,mj是c个集合的中心,可 以用来代表c个类型。
32
误差平方和准则
误差平方和准则适用于各类样本比较密集且样本数 目悬殊不大的样本分布
若距离阈值ds选择过大,则全部样本被视作一 个唯一类型;若ds选取过小,则可能造成每个 样本都单独构成一个类型
22
距离相似性度量
距离阈值对聚类的影响
23
距离相似性度量
特征选取不当使聚类无效 特征选取不足引起误分类 模式特征坐标单位的选取也会强烈地影响聚类
结果
24
距离相似性度量
特征选取不当使聚类无效
第三章 数据聚类
1
主要内容
3.1 引言 3.2 相似性度量 3.3 聚类准则 3.4 基于试探的两种聚类算法 3.5 系统聚类法 3.6 动态聚类 3.7 聚类评价
2
3.1 引言
聚类:将数据分组成为多个类别,在同一个类内对 象之间具有较高的相似度,不同类之间的对象差别 较大。 根据各个待分类的模式特征相似程度进行分类,相 似的归为一类,不相似的作为另一类。
2 1
25
距离相似性度量
特征选取不足引起误分类
1
2
3
26
距离相似性度量
d
c
a b
27
解决尺度问题——标准化
yi xi a
yi xi m s
yi xi min xi max xi min xi yi x i max xi min xi
28
解决尺度问题
为了进行聚类,我们需要一种合适的距离度量尺 度。 这种距离度量尺度依赖于特征标准化方法 为了选择标准化方法我们必须知道聚类的类型 试错法是唯一的避免这种恶性循环的方法。选择 不同的条件进行试验,通过观察、数据解释和效 用分析评价相应的解。平衡各特征值的贡献,并 保持原有的语义信息。
18
3.2 相似性度量
聚类分析符合“物以类聚,人以群分“的原则,它把 相似性大的样本聚集为一个类型 聚类分析的关键问题:如何在聚类过程中自动地确 定类型数目
19
相似性度量
20
相似性度量
距离相似性度量 角度相似性度量
21
距离相似性度量
模式样本向量与之间的欧氏距离定义为:
d
De (x, y) || x y || | xi yi |2 i 1
民
16
聚类分析原理
相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数 的变形,如1-rij定义距离
17
聚类分析原理
变量按测量尺度分类 间隔尺度变量
连续变量,如长度、重量、速度、温度等
有序尺度变量
等级变量,不可加,但可比,如一等、二等、三 等奖学金
名义尺度变量
类别变量,不可加也不可比,如性别、职业等
10
聚类分析Fra Baidu bibliotek理
什么是自然分组结构? 有16张牌,如何将他们分组呢?
A K Q J
11
聚类分析原理
分成四组:每组里花色相 同,组与组之间花色相异
A K Q J
花色相同的牌为一组
12
聚类分析原理
分成四组,符号相同的牌 为一组
A K Q J
符号相同的的牌为一组
13
聚类分析原理
分成两组,颜色相同的牌 为一组
颜色相同的牌为一组
14
聚类分析原理
分组的意义在于我们怎么定义并度量“相似性” 因此衍生出一系列度量相似性的算法
15
聚类分析原理
相似性的度量(统计学角度)
距离Q型聚类(主要讨论)
主要用于对样本分类
常用的距离有:
明考夫斯基距离(包括:绝对距离、欧式距离、切比 雪夫距离)
兰氏距离 马氏距离 斜交空间距离 此不详述,可参考《应用多元分析》(第二版)王学
谁经常光顾商店,谁买什么东西,买多少?
按照卡记录的光临次数、光临时间、性别、年龄、 职业、购物种类、金额等变量分类
这样商店可以….
识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉 ,习惯周末时一次性大采购)
刻画不同的客户群的特征
5
聚类应用
挖掘有价值的客户,并制定相应的促销策略:
如,对经常购买酸奶的客户 对累计消费达到12个月的老客户
聚类准则是反映类别间相似性或分离性的函数
误差平方和准则(最常用的) 加权平均平方距离和准则
31
误差平方和准则
假定有混合样本X={x1, x2, …, xn} 采用某种相似性度量,X被聚合成c个分离开的子集 X1, X2, …, Xc。每个子集是一个类型,它们分别包含 n1, n2, …, nc个样本 为了衡量类的质量,采用误差平方和Jc聚类准则函数 ,定义为:
29
角度相似性度量
样本与之间的角度相似性度量定义为它们之间夹角
的余弦
S(x, y) cos xT y
|| x || || y ||
30
3.3 聚类准则
相似性度量 → 集合与集合的相似性 相似性准则 → 分类效果好坏的评价准则 聚类准则: 试探法
定义一种相似性度量的阈值 聚类准则函数法
监督学习:需要用训练样本进行学习和训练 非监督学习:对于没有类别标签的样本集,根
据该问题本身的目的和样本的特性,把全体N 个样本划分为若干个子集,同类样本特性相差 小,异类样本特性相差大。
3
聚类应用
花瓣的“物以类聚”
4
聚类应用
早在孩提时代,人就通过不断改进下意识中的聚类 模式来学会如何区分猫和狗,动物和植物
7
聚类应用
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群, 并且用购买模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况, 集中对特定的类做进一步的研究
8
聚类分析原理
聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相
似性和距离来划分 聚类的数目和结构都没有事先假定
9
聚类分析原理
聚类方法的目的是寻找数据中: 潜在的自然分组结构 感兴趣的关系
针对潜在客户派发广告,比在大街上乱发传单 命中率更高,成本更低!
6
聚类应用
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分 类,找出“黄金客户”!
这样银行可以制定更吸引的服务,留住客户!比如:
一定额度和期限的免息透支服务! 商场的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
mj为类型Xj中样本的均值,mj是c个集合的中心,可 以用来代表c个类型。
32
误差平方和准则
误差平方和准则适用于各类样本比较密集且样本数 目悬殊不大的样本分布
若距离阈值ds选择过大,则全部样本被视作一 个唯一类型;若ds选取过小,则可能造成每个 样本都单独构成一个类型
22
距离相似性度量
距离阈值对聚类的影响
23
距离相似性度量
特征选取不当使聚类无效 特征选取不足引起误分类 模式特征坐标单位的选取也会强烈地影响聚类
结果
24
距离相似性度量
特征选取不当使聚类无效
第三章 数据聚类
1
主要内容
3.1 引言 3.2 相似性度量 3.3 聚类准则 3.4 基于试探的两种聚类算法 3.5 系统聚类法 3.6 动态聚类 3.7 聚类评价
2
3.1 引言
聚类:将数据分组成为多个类别,在同一个类内对 象之间具有较高的相似度,不同类之间的对象差别 较大。 根据各个待分类的模式特征相似程度进行分类,相 似的归为一类,不相似的作为另一类。
2 1
25
距离相似性度量
特征选取不足引起误分类
1
2
3
26
距离相似性度量
d
c
a b
27
解决尺度问题——标准化
yi xi a
yi xi m s
yi xi min xi max xi min xi yi x i max xi min xi
28
解决尺度问题
为了进行聚类,我们需要一种合适的距离度量尺 度。 这种距离度量尺度依赖于特征标准化方法 为了选择标准化方法我们必须知道聚类的类型 试错法是唯一的避免这种恶性循环的方法。选择 不同的条件进行试验,通过观察、数据解释和效 用分析评价相应的解。平衡各特征值的贡献,并 保持原有的语义信息。
18
3.2 相似性度量
聚类分析符合“物以类聚,人以群分“的原则,它把 相似性大的样本聚集为一个类型 聚类分析的关键问题:如何在聚类过程中自动地确 定类型数目
19
相似性度量
20
相似性度量
距离相似性度量 角度相似性度量
21
距离相似性度量
模式样本向量与之间的欧氏距离定义为:
d
De (x, y) || x y || | xi yi |2 i 1
民
16
聚类分析原理
相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数 的变形,如1-rij定义距离
17
聚类分析原理
变量按测量尺度分类 间隔尺度变量
连续变量,如长度、重量、速度、温度等
有序尺度变量
等级变量,不可加,但可比,如一等、二等、三 等奖学金
名义尺度变量
类别变量,不可加也不可比,如性别、职业等
10
聚类分析Fra Baidu bibliotek理
什么是自然分组结构? 有16张牌,如何将他们分组呢?
A K Q J
11
聚类分析原理
分成四组:每组里花色相 同,组与组之间花色相异
A K Q J
花色相同的牌为一组
12
聚类分析原理
分成四组,符号相同的牌 为一组
A K Q J
符号相同的的牌为一组
13
聚类分析原理
分成两组,颜色相同的牌 为一组