聚类分析与判别分析 (2)优秀课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
异。为此常需对数据预先进行标准化处 理后再进行聚类。 3.各变量间不应该有较强的线性相关关 系。
常 见 的 聚 类 方 法 有 层 次 聚 类 法 和 KMeans聚类法等。
8.1 聚类分析 8.1.3 层次聚类法
层次聚类法
(hierarchical cluster)
层次(分层)聚类法又称系统聚类法(hierarchical cluster), 是聚类分析诸方法中用得最多的一种,它的基本步骤是:
max
1k p
xik
wk.baidu.com
x jk
3.绝对距离(black距离):
p
dij
xik x jk
k 1
4.明考斯基距离(q可以任意指定)
p
q
dij q xik xjk
k1
怎样度量距离远近?
5.夹角余弦距离:
d ij
p
( x ik x jk ) 2
i1
p
p
x 2 x 2
ik
jk
k 1 k 1
怎样度量距离远近?
如果涉及的k个变量是计数型变量,常用的距离定义包括卡 方距离、Phi方距离等。
1.卡方距离:
dij
p (xikE(xik)2 )p (xjkE(xjk)2 )
i1 E(xik)
i1 E(xjk)
2. Phi方距离:(n是总频数)
p (xikE(xik)2 )p (xjkE(xjk)2 )
dij i1
E(xik)
i1
n
E(xjk)
怎样度量距离远近?
如果涉及的k个变量是二值变量,个体间的距离定义常用简 单匹配系数、Jaccard系数。
个体xjk
1
0
1.简单匹配系数:
1
a
b
个体xik
0
c
d
bc
dij
abcd
2. Jaccard系数
dij
bc abc
聚类分析需注意以下几点:
1.所选择的变量应符合聚类的要求。 2.各变量的变量值不应有数量级上的差
在自然科学和社会科学的各个领域,存在着大量的分类问 题。比如根据人均GDP、人均消费水平等多项指标把世界 各国划分成不同的经济发展程度;在地质勘探中,根据岩 石标本的多种特性来判别地层所属的地质年代等
怎样解决下面的问题?
这些分类问题中,有些是事先并不知道存在什么类别,完 全按照反映对象特征的数据所揭示的规律把对象进行分类; 有些则是在事先有了某些可信的分类标准之后,判定一个 新的研究对象应该归属到哪一类别
如果我们只考虑有关这些品牌的某一项指标,分类就很 简单了,只要把该指标取值相差不大的品牌归为一类即 可。但现实中摆在我们面前的往往是包含多个变量的复 杂信息,那么该如何同时根据例8.1中的四个变量来对 啤酒品牌聚类呢?
其实想法是一样的,就是把离得比较近的品牌归为一类 ,而离得比较远的品牌放在不同的类。在数学处理上就 是用“距离”来度量对象之间的相似性
8.1 聚类分析 8.1.1 按什么来聚类?
按什么来聚类?
【例8.1】下面的表8-1是20个不同品牌的啤酒的热量、纳含量、酒 精以及价格数据。
2008年5月
按什么来聚类?
在古老的分类学中,人们只能依靠经验和专业知识进行 定性的分类,但在我们有了上述数据之后,一个很自然 的想法就是能不能按照这些指标取值进行定量分类
✓ 如此重复,每次合并便减少一个类,直至最后把所有的样 品合并为一个大类
用SPSS实现分层聚类
✓ 开始将每一个样品各自单独作为一类,然后按照定义好的 样品之间的距离(此时的类间距离等同于点间距离)进行计 算,将距离最近的两个类合并成一个新类,这样类别相对 于开始的时候就减少了一个
✓ 再按照定义好的类间距离,计算这个新的类别与其他类之 间的距离,结合开始剩下的其他类之间的距离,再找出距 离最近的两个类合并成一个类
什么是聚类分析?
聚类分析是一种建立分类的多元统计方法,它能将 一批样本(变量)数据根据其诸多特征,按照在性 质上的亲疏程度在没有先验知识的情况下进行自动 分类,产生多个分类结果。类内部个体特征具有相 似性,类间个体特征的差异性较大。
所谓“没有先验知识”是指没有事先设定分类标准; 所谓“亲疏远近”是指在各变量(特征)取值上的 总体差异程度。聚类分析正是基于此实现数据的自 动分类。
度量点间距离的方法有很多种,如果涉及的p个变量是定距 型变量,常用的距离定义包括欧氏距离、平方欧氏距离、 切比雪夫距离、绝对值距离(black距离)、明考斯基距离 、夹角余弦距离、用户自定义距离等。
怎样度量距离远近?
1.欧氏距离:
dij
p
( xik x jk )2
k 1
2.切比雪夫距离:
dij
这两种研究分类的基本方法分别就是多元分析中的聚类分 析和判别分析,二者之间既有区别又有联系
第 8 聚类分析与判别分析
8.1 聚类分析 8.2 判别分析
第 8 章 聚类分析与判别分析
8.1 聚类分析
8.1.1 按什么来聚类? 8.1.2 怎样度量距离远近? 8.1.3 分层聚类法 8.1.4 K-均值聚类法
聚类分析与判别分 析
统计名言 让混沌涌来吧!让云彩形成一片沼 泽!我等待着成形。
——Robert Frost
怎样解决下面的问题?
日常生活中,人们总是喜欢用“不是一家人不进一家门” 这样通俗的话语来表示具有某些相似特征的人(或物)理 应“走到”一起。究其本质,人们是尝试用某一种标准把 所有的对象进行分门别类
8.1 聚类分析 8.1.2 怎样度量距离远近?
怎样度量距离远近?
对“亲疏远近”的测度一般有两个角度:一是个体间的相 似程度;二是个体间的差异程度。衡量相似程度通常可采 用简单相关系数或等级相关系数等;个体间的差异程度通 常用某种距离来测度。
为测度个体间距离首先将每个样本数据看p维空间中的一个 点。一般点与点之间的距离越小,意味着它们越“亲密” ,越可能聚为一类。
什么是聚类分析?
聚类分析的目的就是把分类对象按照一定的规则分 成合理的若干类别,这些类不是事先给定的,而是 直接根据数据的特征确定的
当面对一个数据时,人们既可以按照观测值对变量 进行分类,也可以按照观测值对样本进行分类,这 在聚类分析中被分别称为R型聚类和Q型聚类
但在数学上和实现过程中,这两种聚类并没有什么 本质区别,考虑到人们更感兴趣的往往是基于变量 信息对样品进行分类,因此在此重点以Q型聚类为 例来介绍该方法
常 见 的 聚 类 方 法 有 层 次 聚 类 法 和 KMeans聚类法等。
8.1 聚类分析 8.1.3 层次聚类法
层次聚类法
(hierarchical cluster)
层次(分层)聚类法又称系统聚类法(hierarchical cluster), 是聚类分析诸方法中用得最多的一种,它的基本步骤是:
max
1k p
xik
wk.baidu.com
x jk
3.绝对距离(black距离):
p
dij
xik x jk
k 1
4.明考斯基距离(q可以任意指定)
p
q
dij q xik xjk
k1
怎样度量距离远近?
5.夹角余弦距离:
d ij
p
( x ik x jk ) 2
i1
p
p
x 2 x 2
ik
jk
k 1 k 1
怎样度量距离远近?
如果涉及的k个变量是计数型变量,常用的距离定义包括卡 方距离、Phi方距离等。
1.卡方距离:
dij
p (xikE(xik)2 )p (xjkE(xjk)2 )
i1 E(xik)
i1 E(xjk)
2. Phi方距离:(n是总频数)
p (xikE(xik)2 )p (xjkE(xjk)2 )
dij i1
E(xik)
i1
n
E(xjk)
怎样度量距离远近?
如果涉及的k个变量是二值变量,个体间的距离定义常用简 单匹配系数、Jaccard系数。
个体xjk
1
0
1.简单匹配系数:
1
a
b
个体xik
0
c
d
bc
dij
abcd
2. Jaccard系数
dij
bc abc
聚类分析需注意以下几点:
1.所选择的变量应符合聚类的要求。 2.各变量的变量值不应有数量级上的差
在自然科学和社会科学的各个领域,存在着大量的分类问 题。比如根据人均GDP、人均消费水平等多项指标把世界 各国划分成不同的经济发展程度;在地质勘探中,根据岩 石标本的多种特性来判别地层所属的地质年代等
怎样解决下面的问题?
这些分类问题中,有些是事先并不知道存在什么类别,完 全按照反映对象特征的数据所揭示的规律把对象进行分类; 有些则是在事先有了某些可信的分类标准之后,判定一个 新的研究对象应该归属到哪一类别
如果我们只考虑有关这些品牌的某一项指标,分类就很 简单了,只要把该指标取值相差不大的品牌归为一类即 可。但现实中摆在我们面前的往往是包含多个变量的复 杂信息,那么该如何同时根据例8.1中的四个变量来对 啤酒品牌聚类呢?
其实想法是一样的,就是把离得比较近的品牌归为一类 ,而离得比较远的品牌放在不同的类。在数学处理上就 是用“距离”来度量对象之间的相似性
8.1 聚类分析 8.1.1 按什么来聚类?
按什么来聚类?
【例8.1】下面的表8-1是20个不同品牌的啤酒的热量、纳含量、酒 精以及价格数据。
2008年5月
按什么来聚类?
在古老的分类学中,人们只能依靠经验和专业知识进行 定性的分类,但在我们有了上述数据之后,一个很自然 的想法就是能不能按照这些指标取值进行定量分类
✓ 如此重复,每次合并便减少一个类,直至最后把所有的样 品合并为一个大类
用SPSS实现分层聚类
✓ 开始将每一个样品各自单独作为一类,然后按照定义好的 样品之间的距离(此时的类间距离等同于点间距离)进行计 算,将距离最近的两个类合并成一个新类,这样类别相对 于开始的时候就减少了一个
✓ 再按照定义好的类间距离,计算这个新的类别与其他类之 间的距离,结合开始剩下的其他类之间的距离,再找出距 离最近的两个类合并成一个类
什么是聚类分析?
聚类分析是一种建立分类的多元统计方法,它能将 一批样本(变量)数据根据其诸多特征,按照在性 质上的亲疏程度在没有先验知识的情况下进行自动 分类,产生多个分类结果。类内部个体特征具有相 似性,类间个体特征的差异性较大。
所谓“没有先验知识”是指没有事先设定分类标准; 所谓“亲疏远近”是指在各变量(特征)取值上的 总体差异程度。聚类分析正是基于此实现数据的自 动分类。
度量点间距离的方法有很多种,如果涉及的p个变量是定距 型变量,常用的距离定义包括欧氏距离、平方欧氏距离、 切比雪夫距离、绝对值距离(black距离)、明考斯基距离 、夹角余弦距离、用户自定义距离等。
怎样度量距离远近?
1.欧氏距离:
dij
p
( xik x jk )2
k 1
2.切比雪夫距离:
dij
这两种研究分类的基本方法分别就是多元分析中的聚类分 析和判别分析,二者之间既有区别又有联系
第 8 聚类分析与判别分析
8.1 聚类分析 8.2 判别分析
第 8 章 聚类分析与判别分析
8.1 聚类分析
8.1.1 按什么来聚类? 8.1.2 怎样度量距离远近? 8.1.3 分层聚类法 8.1.4 K-均值聚类法
聚类分析与判别分 析
统计名言 让混沌涌来吧!让云彩形成一片沼 泽!我等待着成形。
——Robert Frost
怎样解决下面的问题?
日常生活中,人们总是喜欢用“不是一家人不进一家门” 这样通俗的话语来表示具有某些相似特征的人(或物)理 应“走到”一起。究其本质,人们是尝试用某一种标准把 所有的对象进行分门别类
8.1 聚类分析 8.1.2 怎样度量距离远近?
怎样度量距离远近?
对“亲疏远近”的测度一般有两个角度:一是个体间的相 似程度;二是个体间的差异程度。衡量相似程度通常可采 用简单相关系数或等级相关系数等;个体间的差异程度通 常用某种距离来测度。
为测度个体间距离首先将每个样本数据看p维空间中的一个 点。一般点与点之间的距离越小,意味着它们越“亲密” ,越可能聚为一类。
什么是聚类分析?
聚类分析的目的就是把分类对象按照一定的规则分 成合理的若干类别,这些类不是事先给定的,而是 直接根据数据的特征确定的
当面对一个数据时,人们既可以按照观测值对变量 进行分类,也可以按照观测值对样本进行分类,这 在聚类分析中被分别称为R型聚类和Q型聚类
但在数学上和实现过程中,这两种聚类并没有什么 本质区别,考虑到人们更感兴趣的往往是基于变量 信息对样品进行分类,因此在此重点以Q型聚类为 例来介绍该方法