模式识别-第四章-对无标签样本进行聚类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
■
(
)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
19
■
min 最近距离 d min (S i ,S j ) = X ∈S X i X
X j∈S j
i i i i
一些"相似度"或"距离"的定义
j
■
max 最远距离 d max (S i , S j ) = X ∈S X i X
适用于各特征方差相近,类内紧聚,类间离开 可证,整体上满足类内离散最小,类间离散最大
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
13
最小误差平方和准则(续)
■
根据§2.2曾推导全部样本之间相互欧氏距离平均值
D2 j X l, X m∈ S j
通过优化 Je 评估聚类结果
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 14
2005/2
最小误差平方和准则的例外情况
各类的样本数差异很大时,或"野点"
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
n
样本之间的相似性测度(续)
■
马氏距离(Mahalanobis Distance)
2
∑ : 协方差矩阵 D 正态分布的指数项为 1 2 D 2 , 与正态分布时的概率密度对应 ■ 向量X与向量Y之间夹角(的余弦)
( X M )T ∑ 1 ( X M ) =
M : 均值向量
S ( X , Y ) = X TY X Y
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
坐标轴比例对聚类的影响(边书P247)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
8
坐标轴比例对聚类的影响(续1)
欧氏距离(Euclidean Distance) 样本X与样本Y之间距离(直线距离) n 1 D = X Y = ( X Y )T ( X Y ) 2 = ∑ x j y j j =1
[
]
(
)
2
D = ∑ x jy j
j =1
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 6
任取一个样本,例如X1,把X1作为类中心Z1=X1 ◆ 依次取样本Xi (i=2,…,N),计算Z1与Xi的距离D1i ◆ 如果D1i ≤T,则判定Xi 属于以Z1 为中心的类 ◆ 如果D1i >T,则把Xi 作为新的类中心Z2 ◆ 对剩下的样本Xi ,分别计算与Z1 ,Z2 的距离D1i ,D2i , 如果其中较小的那一个值 Di ≤T,则判定Xi 属于以相应的Z 为中心的那一个类.否则,把Xi 作为新的类中心Z3 ◆ 以此类推,顺次序处理完全部样本,即可聚成为若干个类
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 2
例:花瓣的"物以类聚"
X2
3类 ○○○○ 2类
△△△ △△△△△△△ △△△△△△△△ △△△△△△ △△△△△ △△△△ ○○○○○○○○ ○○○○○○○○○○ ○○○○○○○○○ ○○○○○○○ ○○○○○ ○○○ ○
16
分类树示例(8个样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
17
分层聚类示例(8个样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
18
对于有N个样本的集合 X s= {X 1,X 2,..., X N }
Nc
( X l, X m ) = 2 ∑ σ
k =1
n
2 jk
2 = Nj
X ∈S j
∑
X M
2 j
1 Nc J e=∑ ∑ X M j 2 = ∑ N j D 2 j 2 j =1 j =1 X ∈S j
等价于用样本之间的欧氏距离度量相似程度
■
更一般化,可定义两样本之间的相似度函数 D( X l, X m ) 则 D2 = 1 ∑ D( X l, X m ) j 2 ∑ N j X l∈S j X m∈S j
第四章 对无标签样本进行聚类分析 (Unsupervised Learning)
(边书P230~)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
1
§4.1 非监督学习的基本概念
不是任何时候都有教师,无师自通? 分类问题——"人以群分,物以类聚"? 聚类分析,集群分析,Clustering
15
§4.2 最短距离分层聚类法(边书P244)
实际上相似程度是分层次的
控制最严,每个样本都不同,每个样本自成一类 控制最松,所有样本总有共性,总共只有一类 → 分层聚类,树状结构(dendrogram) 例:生物分类,图书编目,学科分类,等
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
j
■
平均距离 d avg (S i ,S j )
X j∈S j
1 = N iN j
X i∈S i X j∈S j
∑ ∑
X i X
j
1 ■ 均值距离 d S i , S j = M i M j , 其中M i = ∑X mean N i X i∈S i 2 ■ 分层聚类中的相似度计算次数:最初 C N = N ( N 1) 2 2 2 组计算,其后每次减少一个类,依次需要C N 1 , C N 2 ,...... 组计算
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
24
课后练习
有可用高斯分布近似的两个样本集 ω1 = {(2,0 ), (2,2 ), (2,4 ), (3,3)} ω1 = {(0,3), ( 2,2 ), ( 1,1), (1,2), (3,1)} 且P(ω1 ) = P(ω 2 ) = 1 2 求:用最小错误概率分类时的识别界面 令 ω = ω1 ∪ ω 2
X j∈S j
i i
max 如距离取最远距离 d max (S i , S j ) = X ∈S X i X
j
试用分层聚类法聚类,并作图
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 25
§4.3 阈值分割简单聚类法
如果类的数目事前不知,但对相似度有个要求 ■ 设有N个样本的集合 X = {X X ..., X } s 1, 2, N 给定一个相似度(距离)阈值T ■ 算法
最小误差平方和准则(最小方差分割)
类内距离尽可能小,类间距离尽可能大
N c: 类的数目 S j : 属于第j类的样本集,j = 1,2,...N c N j : 属于S j 的样本数目
定义 J = e
∑∑
Nc
X M
2 j
j =1 X ∈S j
1 式中 M j= Nj
X ∈S j
∑X
J e 越小,聚类结果越好
任取一个样本,例如X1,把X1作为类中心Z1=X1 ◆ 从集合Xs 中取出到Z1 距离最大的样本作为新的类中心Z2 ◆ 对集合Xs 中的其余样本Xi ,分别计算到Z1 , Z2的距离, 取其较小者为Di ◆ 如果 max{Di } ≥ T ,那么取相应的Xi 作为新的类中心Z3 ; X
1类
X2
X1
× ×××× ××××× ×××××× ××××
0
X = (x1, x2
)T
X1
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
3
例:汉字的"物以类聚"
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
22
最近距离分层聚类示例(续)(高斯模型产生的样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
23
最远距离分层聚类示例(续)(高斯模型产生的样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
9
坐标轴比例对聚类的影响(续2) (白化变换对聚类的影响)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
10
相似度(距离)阈值对聚类的影响
◆
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
26
阈值分割简单聚类法示意图
R =T
■
讨论
事先不需要也不知道聚多少类 ◆结果与阈值T,取Xi 顺序有关
◆
◆优点:计算量小,顺次处理完第N个
样本就结束;类数事先不需指定
◆缺点:前提是同类样本紧聚,异类样本远离 ◆实际:需要反复变更阈值T
4
例:汉字的"物以类聚"(续)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
5
样本之间的相似性测度
首先要定义样本之间"相似程度"或"接近程度"D的度 量方法,然后把D值小的样本"聚"在一起形成"类"
■
1 2 ■ 城市距离(City Block Distance)(直角边之和)
X =( x1, x 2 ,..., x n )T 构成的空间 R n中 ■ 对于
同类样本"离得近",不同类样本"离得远"? "离得近"是同类, "离得远"是不同类? 非监督学习:对于没有类别标签的样本集 {Xi}N 根据该问题本身的目的和样本的特性,把全体 N个样本划分为若干个子集(类),同类样本 特性相差小,异类样本特性相差大
和取样本顺序, 以求得到较好聚类结果(评估函数)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
27
§4.4 最远距离聚类法
从相互离得最远的样本着手,逐次分割生成新的类 ■ 设有N个样本的集合 X = {X X ..., X } ,给定阈值T s 1, 2, N ■ 算法
x2
ω1
x2
ω1
x2
ω1
ω2
ω3
ω2
0 0 0
ω4
x1
ω5
x1
x1
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
11
相似度(距离)阈值对聚类的影响(续)
连线:点间距小于阈值d0 阈值越小,"类"的数目越多
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 12
相互最"相似"的两个聚成一个类,逐个减少类的数目
分层聚类算法
假定希望分成 K 个类 , ◆ 令 k = N , Si = {X i } (i = 1,2,..., N ) ◆ 如果 k=K,则终了 ◆ 找到类 Si 和 Sj ,为所有各类中相似度最大的一对 (或距离 d S i , S j 最小的一对) ◆ 把类 Si 和 Sj 合成一个新类 Si (如必要,求出新类中心) ◆ 去除 Sj ,k=k-1,转向第2步 ■ 说 ◆ 在第1步各类只有一个样本 明: ◆ 在第3步"相似度"或"距离"可有各种定义
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 20
(
)
最近距离分层聚类示例(边书P246)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
21
最远距离分层聚类示例(边书P246)
■
其他,例如 x i , y i ∈ {0,1} (第i个特征有无)
S ( X , Y ) = X TY n
公共特征个数的比例
旋转,伸缩不变(原点中心)
Tanimoto距离
S ( X , Y ) = X TY X TX +Y TY X TY
Baidu Nhomakorabea
(
)
7
公共特征个数与"X或Y"特征个数比例 信息检索,生物分类,病名判别等
(
)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
19
■
min 最近距离 d min (S i ,S j ) = X ∈S X i X
X j∈S j
i i i i
一些"相似度"或"距离"的定义
j
■
max 最远距离 d max (S i , S j ) = X ∈S X i X
适用于各特征方差相近,类内紧聚,类间离开 可证,整体上满足类内离散最小,类间离散最大
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
13
最小误差平方和准则(续)
■
根据§2.2曾推导全部样本之间相互欧氏距离平均值
D2 j X l, X m∈ S j
通过优化 Je 评估聚类结果
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 14
2005/2
最小误差平方和准则的例外情况
各类的样本数差异很大时,或"野点"
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
n
样本之间的相似性测度(续)
■
马氏距离(Mahalanobis Distance)
2
∑ : 协方差矩阵 D 正态分布的指数项为 1 2 D 2 , 与正态分布时的概率密度对应 ■ 向量X与向量Y之间夹角(的余弦)
( X M )T ∑ 1 ( X M ) =
M : 均值向量
S ( X , Y ) = X TY X Y
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
坐标轴比例对聚类的影响(边书P247)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
8
坐标轴比例对聚类的影响(续1)
欧氏距离(Euclidean Distance) 样本X与样本Y之间距离(直线距离) n 1 D = X Y = ( X Y )T ( X Y ) 2 = ∑ x j y j j =1
[
]
(
)
2
D = ∑ x jy j
j =1
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 6
任取一个样本,例如X1,把X1作为类中心Z1=X1 ◆ 依次取样本Xi (i=2,…,N),计算Z1与Xi的距离D1i ◆ 如果D1i ≤T,则判定Xi 属于以Z1 为中心的类 ◆ 如果D1i >T,则把Xi 作为新的类中心Z2 ◆ 对剩下的样本Xi ,分别计算与Z1 ,Z2 的距离D1i ,D2i , 如果其中较小的那一个值 Di ≤T,则判定Xi 属于以相应的Z 为中心的那一个类.否则,把Xi 作为新的类中心Z3 ◆ 以此类推,顺次序处理完全部样本,即可聚成为若干个类
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 2
例:花瓣的"物以类聚"
X2
3类 ○○○○ 2类
△△△ △△△△△△△ △△△△△△△△ △△△△△△ △△△△△ △△△△ ○○○○○○○○ ○○○○○○○○○○ ○○○○○○○○○ ○○○○○○○ ○○○○○ ○○○ ○
16
分类树示例(8个样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
17
分层聚类示例(8个样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
18
对于有N个样本的集合 X s= {X 1,X 2,..., X N }
Nc
( X l, X m ) = 2 ∑ σ
k =1
n
2 jk
2 = Nj
X ∈S j
∑
X M
2 j
1 Nc J e=∑ ∑ X M j 2 = ∑ N j D 2 j 2 j =1 j =1 X ∈S j
等价于用样本之间的欧氏距离度量相似程度
■
更一般化,可定义两样本之间的相似度函数 D( X l, X m ) 则 D2 = 1 ∑ D( X l, X m ) j 2 ∑ N j X l∈S j X m∈S j
第四章 对无标签样本进行聚类分析 (Unsupervised Learning)
(边书P230~)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
1
§4.1 非监督学习的基本概念
不是任何时候都有教师,无师自通? 分类问题——"人以群分,物以类聚"? 聚类分析,集群分析,Clustering
15
§4.2 最短距离分层聚类法(边书P244)
实际上相似程度是分层次的
控制最严,每个样本都不同,每个样本自成一类 控制最松,所有样本总有共性,总共只有一类 → 分层聚类,树状结构(dendrogram) 例:生物分类,图书编目,学科分类,等
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
j
■
平均距离 d avg (S i ,S j )
X j∈S j
1 = N iN j
X i∈S i X j∈S j
∑ ∑
X i X
j
1 ■ 均值距离 d S i , S j = M i M j , 其中M i = ∑X mean N i X i∈S i 2 ■ 分层聚类中的相似度计算次数:最初 C N = N ( N 1) 2 2 2 组计算,其后每次减少一个类,依次需要C N 1 , C N 2 ,...... 组计算
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
24
课后练习
有可用高斯分布近似的两个样本集 ω1 = {(2,0 ), (2,2 ), (2,4 ), (3,3)} ω1 = {(0,3), ( 2,2 ), ( 1,1), (1,2), (3,1)} 且P(ω1 ) = P(ω 2 ) = 1 2 求:用最小错误概率分类时的识别界面 令 ω = ω1 ∪ ω 2
X j∈S j
i i
max 如距离取最远距离 d max (S i , S j ) = X ∈S X i X
j
试用分层聚类法聚类,并作图
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 25
§4.3 阈值分割简单聚类法
如果类的数目事前不知,但对相似度有个要求 ■ 设有N个样本的集合 X = {X X ..., X } s 1, 2, N 给定一个相似度(距离)阈值T ■ 算法
最小误差平方和准则(最小方差分割)
类内距离尽可能小,类间距离尽可能大
N c: 类的数目 S j : 属于第j类的样本集,j = 1,2,...N c N j : 属于S j 的样本数目
定义 J = e
∑∑
Nc
X M
2 j
j =1 X ∈S j
1 式中 M j= Nj
X ∈S j
∑X
J e 越小,聚类结果越好
任取一个样本,例如X1,把X1作为类中心Z1=X1 ◆ 从集合Xs 中取出到Z1 距离最大的样本作为新的类中心Z2 ◆ 对集合Xs 中的其余样本Xi ,分别计算到Z1 , Z2的距离, 取其较小者为Di ◆ 如果 max{Di } ≥ T ,那么取相应的Xi 作为新的类中心Z3 ; X
1类
X2
X1
× ×××× ××××× ×××××× ××××
0
X = (x1, x2
)T
X1
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
3
例:汉字的"物以类聚"
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
22
最近距离分层聚类示例(续)(高斯模型产生的样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
23
最远距离分层聚类示例(续)(高斯模型产生的样本)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
9
坐标轴比例对聚类的影响(续2) (白化变换对聚类的影响)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
10
相似度(距离)阈值对聚类的影响
◆
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
26
阈值分割简单聚类法示意图
R =T
■
讨论
事先不需要也不知道聚多少类 ◆结果与阈值T,取Xi 顺序有关
◆
◆优点:计算量小,顺次处理完第N个
样本就结束;类数事先不需指定
◆缺点:前提是同类样本紧聚,异类样本远离 ◆实际:需要反复变更阈值T
4
例:汉字的"物以类聚"(续)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
5
样本之间的相似性测度
首先要定义样本之间"相似程度"或"接近程度"D的度 量方法,然后把D值小的样本"聚"在一起形成"类"
■
1 2 ■ 城市距离(City Block Distance)(直角边之和)
X =( x1, x 2 ,..., x n )T 构成的空间 R n中 ■ 对于
同类样本"离得近",不同类样本"离得远"? "离得近"是同类, "离得远"是不同类? 非监督学习:对于没有类别标签的样本集 {Xi}N 根据该问题本身的目的和样本的特性,把全体 N个样本划分为若干个子集(类),同类样本 特性相差小,异类样本特性相差大
和取样本顺序, 以求得到较好聚类结果(评估函数)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
27
§4.4 最远距离聚类法
从相互离得最远的样本着手,逐次分割生成新的类 ■ 设有N个样本的集合 X = {X X ..., X } ,给定阈值T s 1, 2, N ■ 算法
x2
ω1
x2
ω1
x2
ω1
ω2
ω3
ω2
0 0 0
ω4
x1
ω5
x1
x1
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
11
相似度(距离)阈值对聚类的影响(续)
连线:点间距小于阈值d0 阈值越小,"类"的数目越多
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 12
相互最"相似"的两个聚成一个类,逐个减少类的数目
分层聚类算法
假定希望分成 K 个类 , ◆ 令 k = N , Si = {X i } (i = 1,2,..., N ) ◆ 如果 k=K,则终了 ◆ 找到类 Si 和 Sj ,为所有各类中相似度最大的一对 (或距离 d S i , S j 最小的一对) ◆ 把类 Si 和 Sj 合成一个新类 Si (如必要,求出新类中心) ◆ 去除 Sj ,k=k-1,转向第2步 ■ 说 ◆ 在第1步各类只有一个样本 明: ◆ 在第3步"相似度"或"距离"可有各种定义
2005/2 Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析 20
(
)
最近距离分层聚类示例(边书P246)
2005/2
Xinggang Lin, Tsinghua University 第四章 对无标签样本进行聚类分析
21
最远距离分层聚类示例(边书P246)
■
其他,例如 x i , y i ∈ {0,1} (第i个特征有无)
S ( X , Y ) = X TY n
公共特征个数的比例
旋转,伸缩不变(原点中心)
Tanimoto距离
S ( X , Y ) = X TY X TX +Y TY X TY
Baidu Nhomakorabea
(
)
7
公共特征个数与"X或Y"特征个数比例 信息检索,生物分类,病名判别等