聚类方法(Clustering)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 分裂的方法(divisive)(自顶向下) 思想:一开始将所有的对象置于一类,在迭代的每一步中, 一个类不断地分为更小的类,直到每个对象在单独的一个 类中,或达到一个终止条件。
层次的方法(也称系统聚类法) (hierarchical method)
特点:
类的个数不需事先定好 需确定距离矩阵 运算量要大,适用于处理小样本数据
什么是聚类
早在孩提时代,人就通过不断改进下意识 中的聚类模式来学会如何区分猫和狗,动 物和植物
聚类分析无处不在
谁经常光顾商店,谁买什么东西,买多少?
按忠诚卡记录的光临次数、光临时间、性别、年 龄、职业、购物种类、金额等变量分类
这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜
层次的方法(也称系统聚类法) (hierarchical method)
定义:对给定的数据进行层次的分解: 分类:
➢ 凝聚的(agglomerative)方法(自底向上)(案例介绍) 思想:一开始将每个对象作为单独的一组,然后根据同类 相近,异类相异的原则,合并对象,直到所有的组合并成 一个,或达到一个终止条件为止。
该法利用了所有样本的信息,被认为是较好的 系统聚类法
广泛采用的类间距离:
重心法(centroid hierarchical method)
类的重心之间的距离 对异常值不敏感,结果更稳定
广泛采用的类间距离
离差平方和法(ward method)
D2=WM-WK-WL
即
如,对经常购买酸奶的客户 对累计消费达到12个月的老客户
针对潜在客户派发广告,比在大街上乱发 传单命中率更高,成本更低!
聚类分析无处不在
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对 客户分类,找出“黄金客户”!
这样银行可以…… 制定更吸引的服务,留住客户!比如:
统研会学术交流篇之——
聚类方法(Clustering)
演讲人: 上海财经大学统计学系 吕江平
主讲内容
聚类方法原理介绍 案例分析(SAS/Enterprise Miner) 推荐参考书目
什么是聚类
聚类(Clustering)就是将数据分组成为多个 类(Cluster)。在同一个类内对象之间具有 较高的相似度,不同类之间的对象差别较 大。
DK2L
nL nk nM
XK XL XK XL
Cluster K
Cluster M
Cluster L
对异常值很敏感;对较大的类倾向产生较大的距离, 从而不易合并,较符合实际需要。
层次的方法缺陷:
一旦一个步骤(合并或分裂)完成,就不 能被撤销或修正,因此产生了改进的层次 聚类方法,如 BRICH,BURE,ROCK,Chameleon。详见参考 书
变量之间的相关性也会影响聚类结果,因此 可以先用主成分或因子分析法把众多变量压 缩为若干个相互独立的并包含大部分信息的 指标,然后再进行聚类。
不稳定的聚类方法
输入参数凭主观导致难以控制聚类的质量
很多聚类算法要求输入一定的参数,如希望产生的类 的数目,使得聚类的质量难以控制,尤其是对于高维 的,没有先验信息的庞大数据。
相似系数R型聚类
用距于离对变量分类,可以用变量之间的相似系数的变形如1-rij定义 这里不详细介绍这种聚类度量方法
聚类分析原理介绍
变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量
连续变量,如长度、重量、速度、温度等
有序(Ordinal)尺度变量
一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
聚类的应用领域
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用购 买模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……
划分方法(Partitioning method)
特点:
k事先定好 创建一个初始划分,再采用迭代的重定位技术 不必确定距离矩阵 比系统聚类法运算量要小,适用于处理庞大的
样本数据 适用于发现球状类
划分方法(Partitioning method)
缺陷:
不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,
广泛采用的类间距离:
最小距离法(single linkage method)
极小异常值在实际中不多出现,避免极大值的 影响
广泛采用的类间距离:
最大距离法(complete linkage method)
可能被极大值扭曲,删除这些值之后再聚类
广泛采用的类间距离:
类平均距离法(average linkage method)类 间所有样本点的平均距离
聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看 不懂结果,也可能造成企业管理层无法对结果善 加利用。
聚类分析原理介绍
聚类分析中“类”的特征:
聚类所说的类不是事先给定的,而是根据数据 的相似性和距离来划分
聚类的数目和结构都没有事先假定
划分方法(Partitioning method)
较流行的方法有:
动态聚类法(也称逐步聚类法),如k-均值算 法、k-中心点算法
思想:
随机选择k个对象,每个对象初始地代表一个类 的平均值或中心,对剩余每个对象,根据其到 类中心的距离,被划分到最近的类;然后重新 计算每个类的平均值。不断重复这个过程,直 到所有的样本都不能再分配为止。(图解)
研究目的:挖掘不同人群拨打电话的特征 下面用SAS/Enterprise Miner演示
Q&A
推荐参考书目
《应用多元分析》(第二版)王学民 上海财经大学出版社
《应用多元统计分析》即《Appied Multivariate Satistics》5th EdRichard A. Johnson, Dean W. Wichern中国统计出版社
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集中对特 定的类做进一步的研究
有贡献的研究领域
数据挖掘
聚类可伸缩性、各种各种复杂形状类的识别,高维聚 类等
统计学
主要集中在基于距离的聚类分析,发现球状类
A K Q J
颜色相同的配对 Black and red suits
聚类分析原理介绍
分成两组 大小程度相近的牌分
到一组
A K Q J
大配对和小配对 Major and minor suits
聚类分析原理介绍
这个例子告诉我们,分 组的意义在于我们怎么
定义并度量“相似
性”Similar
A
机器学习
无指导学习(聚类不依赖预先定义的类,不等同于分 类)
空间数据技术 生物学 市场营销学
什么情况下需要聚类
以上分析,没有大量的数据去支持,Data Mining 就什么都挖不出来。
大量的数据不等于大量的垃圾,我们需要针对客 户市场细分所需要的资料。如需要知道白金持卡 人和金卡持卡人的流动率,各自平均消费水平有 多少,等;
只要临近区域的密度超过一定的阀值,就继续 聚类
特点:
可以过滤噪声和孤立点outlier,发现任意形状的 类
基于网格的方法 (grid-based method)
把样本空间量化为有源自文库数目的单元,形成 一个网络结构,聚类操作都在这个网格结 构(即量化空间)上进行
基于模型的方法 (model-based method)
聚类分析原理介绍
聚类方法的目的是寻找数据中:
潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship
聚类分析原理介绍
什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为
肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象
刻画猫和狗的特征一样)
什么情况下需要聚类
为什么这样分类? 因为每一个类别里面的人消费方式都不一样,
需要针对不同的人群,制定不同的关系管理方 式,以提高客户对公司商业活动的相应率。
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策 略:
首先要明确聚类的目的,就是要使各个类之间的距离 尽可能远,类中的距离尽可能近,聚类算法可以根据 研究目的确定类的数目,但分类的结果要有令人信服 的解释。
在实际操作中,更多的是凭经验来确定类的数目,测 试不同类数的聚类效果,直到选择较理想的分类。
不稳定的聚类方法
算法的选择没有绝对
当聚类结果被用作描述或探查工具时,可以 对同样的数据尝试多种算法,以发现数据可 能揭示的结果。
因此衍生出一系列度量 K 相似性的算法
Q
J
大配对和小配对 Major and minor suits
聚类分析原理介绍
相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论)
主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类):
明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考《应用多元分析》(第二版)王学民
不稳定的聚类方法
聚类分析中权重的确定
当各指标重要性不同的时候,需要根据需要调 整权重。如加权欧式距离,权重可以用专家法 确定。
案例演示
有一个电信公司的数据,变量为:
ID:用户电话号码 Mobile:移动电话通话时间 Fixed:固定电话通话时间 DDD: 长途直拨通话时间 IP: IP电话通话时间
为每个类假定一个模型,寻找数据对给定 模型的最佳拟合。
此不详述,有兴趣可以参考《DataMing Concepts and Techniques》即《数据挖掘概 念于技术》Jiawei Han Micheline Kamber机械 工业出版社
不稳定的聚类方法
受所选择变量的影响
如果去掉或者增加一些变量,结果会很不同.因 此,聚类之前一定要明确目标,选择有意义 的变量。
如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,
容易陷入局部极小值
基于距离的方法进行聚类只能发现球状类, 当类的形状是任意的时候怎么识别?(黑 板图示)
下面介绍其中一种常用的算法:
基于密度的方法
(density-based method)
主要有DBSCAN,OPTICS法 思想:
主要聚类算法的分类
层次的方法(也称系统聚类法)(hierarchical method)
划分方法(partitioning method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的方法(model-based method) …… 其中,前两种算法是利用统计学定义的距离进行度量
等级变量,不可加,但可比,如一等、二等、三等奖学金
名义(Nominal)尺度变量
类别变量,不可加也不可比,如性别、职业等
当对象是同时被各种类型的变量描述时, 怎样描述对象之间的相异度呢?
一种可取的办法是把所有变量一起处理, 将不同类型的变量组合在单个相异矩阵中, 把所有有意义的变量转换到【0,1】的区间 上,只进行一次聚类分析。详见参考书
一组一组的牌呢? A
K
Q
J
聚类分析原理介绍
分成四组 每组里花色相同 组与组之间花色相异
A K Q J
花色相同的牌为一副 Individual suits
聚类分析原理介绍
分成四组 符号相同的牌为一组
A K Q J
符号相同的的牌 Like face cards
聚类分析原理介绍
分成两组 颜色相同的牌为一组
层次的方法(也称系统聚类法) (hierarchical method)
特点:
类的个数不需事先定好 需确定距离矩阵 运算量要大,适用于处理小样本数据
什么是聚类
早在孩提时代,人就通过不断改进下意识 中的聚类模式来学会如何区分猫和狗,动 物和植物
聚类分析无处不在
谁经常光顾商店,谁买什么东西,买多少?
按忠诚卡记录的光临次数、光临时间、性别、年 龄、职业、购物种类、金额等变量分类
这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜
层次的方法(也称系统聚类法) (hierarchical method)
定义:对给定的数据进行层次的分解: 分类:
➢ 凝聚的(agglomerative)方法(自底向上)(案例介绍) 思想:一开始将每个对象作为单独的一组,然后根据同类 相近,异类相异的原则,合并对象,直到所有的组合并成 一个,或达到一个终止条件为止。
该法利用了所有样本的信息,被认为是较好的 系统聚类法
广泛采用的类间距离:
重心法(centroid hierarchical method)
类的重心之间的距离 对异常值不敏感,结果更稳定
广泛采用的类间距离
离差平方和法(ward method)
D2=WM-WK-WL
即
如,对经常购买酸奶的客户 对累计消费达到12个月的老客户
针对潜在客户派发广告,比在大街上乱发 传单命中率更高,成本更低!
聚类分析无处不在
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对 客户分类,找出“黄金客户”!
这样银行可以…… 制定更吸引的服务,留住客户!比如:
统研会学术交流篇之——
聚类方法(Clustering)
演讲人: 上海财经大学统计学系 吕江平
主讲内容
聚类方法原理介绍 案例分析(SAS/Enterprise Miner) 推荐参考书目
什么是聚类
聚类(Clustering)就是将数据分组成为多个 类(Cluster)。在同一个类内对象之间具有 较高的相似度,不同类之间的对象差别较 大。
DK2L
nL nk nM
XK XL XK XL
Cluster K
Cluster M
Cluster L
对异常值很敏感;对较大的类倾向产生较大的距离, 从而不易合并,较符合实际需要。
层次的方法缺陷:
一旦一个步骤(合并或分裂)完成,就不 能被撤销或修正,因此产生了改进的层次 聚类方法,如 BRICH,BURE,ROCK,Chameleon。详见参考 书
变量之间的相关性也会影响聚类结果,因此 可以先用主成分或因子分析法把众多变量压 缩为若干个相互独立的并包含大部分信息的 指标,然后再进行聚类。
不稳定的聚类方法
输入参数凭主观导致难以控制聚类的质量
很多聚类算法要求输入一定的参数,如希望产生的类 的数目,使得聚类的质量难以控制,尤其是对于高维 的,没有先验信息的庞大数据。
相似系数R型聚类
用距于离对变量分类,可以用变量之间的相似系数的变形如1-rij定义 这里不详细介绍这种聚类度量方法
聚类分析原理介绍
变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量
连续变量,如长度、重量、速度、温度等
有序(Ordinal)尺度变量
一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
聚类的应用领域
经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用购 买模式来刻画不同的客户群的特征。
谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……
划分方法(Partitioning method)
特点:
k事先定好 创建一个初始划分,再采用迭代的重定位技术 不必确定距离矩阵 比系统聚类法运算量要小,适用于处理庞大的
样本数据 适用于发现球状类
划分方法(Partitioning method)
缺陷:
不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,
广泛采用的类间距离:
最小距离法(single linkage method)
极小异常值在实际中不多出现,避免极大值的 影响
广泛采用的类间距离:
最大距离法(complete linkage method)
可能被极大值扭曲,删除这些值之后再聚类
广泛采用的类间距离:
类平均距离法(average linkage method)类 间所有样本点的平均距离
聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看 不懂结果,也可能造成企业管理层无法对结果善 加利用。
聚类分析原理介绍
聚类分析中“类”的特征:
聚类所说的类不是事先给定的,而是根据数据 的相似性和距离来划分
聚类的数目和结构都没有事先假定
划分方法(Partitioning method)
较流行的方法有:
动态聚类法(也称逐步聚类法),如k-均值算 法、k-中心点算法
思想:
随机选择k个对象,每个对象初始地代表一个类 的平均值或中心,对剩余每个对象,根据其到 类中心的距离,被划分到最近的类;然后重新 计算每个类的平均值。不断重复这个过程,直 到所有的样本都不能再分配为止。(图解)
研究目的:挖掘不同人群拨打电话的特征 下面用SAS/Enterprise Miner演示
Q&A
推荐参考书目
《应用多元分析》(第二版)王学民 上海财经大学出版社
《应用多元统计分析》即《Appied Multivariate Satistics》5th EdRichard A. Johnson, Dean W. Wichern中国统计出版社
生物学领域
推导植物和动物的分类; 对基因分类,获得对种群的认识
数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集中对特 定的类做进一步的研究
有贡献的研究领域
数据挖掘
聚类可伸缩性、各种各种复杂形状类的识别,高维聚 类等
统计学
主要集中在基于距离的聚类分析,发现球状类
A K Q J
颜色相同的配对 Black and red suits
聚类分析原理介绍
分成两组 大小程度相近的牌分
到一组
A K Q J
大配对和小配对 Major and minor suits
聚类分析原理介绍
这个例子告诉我们,分 组的意义在于我们怎么
定义并度量“相似
性”Similar
A
机器学习
无指导学习(聚类不依赖预先定义的类,不等同于分 类)
空间数据技术 生物学 市场营销学
什么情况下需要聚类
以上分析,没有大量的数据去支持,Data Mining 就什么都挖不出来。
大量的数据不等于大量的垃圾,我们需要针对客 户市场细分所需要的资料。如需要知道白金持卡 人和金卡持卡人的流动率,各自平均消费水平有 多少,等;
只要临近区域的密度超过一定的阀值,就继续 聚类
特点:
可以过滤噪声和孤立点outlier,发现任意形状的 类
基于网格的方法 (grid-based method)
把样本空间量化为有源自文库数目的单元,形成 一个网络结构,聚类操作都在这个网格结 构(即量化空间)上进行
基于模型的方法 (model-based method)
聚类分析原理介绍
聚类方法的目的是寻找数据中:
潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship
聚类分析原理介绍
什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为
肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象
刻画猫和狗的特征一样)
什么情况下需要聚类
为什么这样分类? 因为每一个类别里面的人消费方式都不一样,
需要针对不同的人群,制定不同的关系管理方 式,以提高客户对公司商业活动的相应率。
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策 略:
首先要明确聚类的目的,就是要使各个类之间的距离 尽可能远,类中的距离尽可能近,聚类算法可以根据 研究目的确定类的数目,但分类的结果要有令人信服 的解释。
在实际操作中,更多的是凭经验来确定类的数目,测 试不同类数的聚类效果,直到选择较理想的分类。
不稳定的聚类方法
算法的选择没有绝对
当聚类结果被用作描述或探查工具时,可以 对同样的数据尝试多种算法,以发现数据可 能揭示的结果。
因此衍生出一系列度量 K 相似性的算法
Q
J
大配对和小配对 Major and minor suits
聚类分析原理介绍
相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论)
主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类):
明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考《应用多元分析》(第二版)王学民
不稳定的聚类方法
聚类分析中权重的确定
当各指标重要性不同的时候,需要根据需要调 整权重。如加权欧式距离,权重可以用专家法 确定。
案例演示
有一个电信公司的数据,变量为:
ID:用户电话号码 Mobile:移动电话通话时间 Fixed:固定电话通话时间 DDD: 长途直拨通话时间 IP: IP电话通话时间
为每个类假定一个模型,寻找数据对给定 模型的最佳拟合。
此不详述,有兴趣可以参考《DataMing Concepts and Techniques》即《数据挖掘概 念于技术》Jiawei Han Micheline Kamber机械 工业出版社
不稳定的聚类方法
受所选择变量的影响
如果去掉或者增加一些变量,结果会很不同.因 此,聚类之前一定要明确目标,选择有意义 的变量。
如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,
容易陷入局部极小值
基于距离的方法进行聚类只能发现球状类, 当类的形状是任意的时候怎么识别?(黑 板图示)
下面介绍其中一种常用的算法:
基于密度的方法
(density-based method)
主要有DBSCAN,OPTICS法 思想:
主要聚类算法的分类
层次的方法(也称系统聚类法)(hierarchical method)
划分方法(partitioning method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的方法(model-based method) …… 其中,前两种算法是利用统计学定义的距离进行度量
等级变量,不可加,但可比,如一等、二等、三等奖学金
名义(Nominal)尺度变量
类别变量,不可加也不可比,如性别、职业等
当对象是同时被各种类型的变量描述时, 怎样描述对象之间的相异度呢?
一种可取的办法是把所有变量一起处理, 将不同类型的变量组合在单个相异矩阵中, 把所有有意义的变量转换到【0,1】的区间 上,只进行一次聚类分析。详见参考书
一组一组的牌呢? A
K
Q
J
聚类分析原理介绍
分成四组 每组里花色相同 组与组之间花色相异
A K Q J
花色相同的牌为一副 Individual suits
聚类分析原理介绍
分成四组 符号相同的牌为一组
A K Q J
符号相同的的牌 Like face cards
聚类分析原理介绍
分成两组 颜色相同的牌为一组