模式识别中的常见聚类算法优秀课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
离差平方和法:
p(B,C)
nC nC
nD nD
p(
mB , mC )
d (B,C) S (B C) S (B) S (C)
这里S (G)是数据集G的方差
聚类评价准则
• 类内样本间的接近度大,类间样本间的接 近度小
• …………
主要聚类算法(1)
• N个样本聚为m类的可能聚类数S(N,m):
样本间的接近度度量
• 差异性度量(Dissimilarity Measure,DM)
– 对称性 – 自己与自己的差异性最小 例子:距离差异性度量
• 相似性度量(Similarity Measure,SM)
– 对称性 – 自己与自己的相似性最大 例子:高斯径向基函数
常用的接近度度量
• 点与点之间 • 点与集合之间 • 集合与集合之间
xB, yC
The min proximity function : p(B,C) min p(x, y)
xB, yC
The average proximity function : p(B,C ) 1
p(x, y)
nC nD xB, yC
The mean proximity function : p(B,C ) p( mB , mC )
• 将数据对象按层次进行分解,形成一个分层的嵌 套聚类(聚类谱系图或聚类树状图),可分为
– 凝聚算法(Agglomerative Algorithms)
• 开始将每个对象作为一个类,然后相继地合并上轮中最相近的 两个类,直到所有的类合并为一个类或者达到某个终止条件。
– 分裂算法(Divisive Algorithms)
1il
点与点之间——SM
sinner(x, y) xTy (Theinner product measue,generally x, y arenormaized)
sT
xT y xTxyT yxT y
1
1(x
y)T (x xT y
y)
(Tanimoto measure)
sc(x,
y)
1 ||
d2(x, y) x|| || y
• 开始将所有对象置于一个类中;然后将上轮的每个类按某个准 则分裂为两类,在从中选择其中最好的一个分裂,作为该轮的 类分裂;直到每个对象都在单独的一个类中或达到某个终止条 件。
• 缺点在于一旦一个合并或分裂完成,就不能撤销, 导致分层聚类方法不能更正错误的决定。
分层(凝聚)聚类的一些结论
• 枚举聚类是行不通的!
主要聚类算法(2)
• 顺序聚类(Sequential Clutering Algorithms) • 分层聚类(Hierachical Clutering
Algorithms) • 模型聚类(based on cost function
optimization) • 其他
顺序聚类
• 最基本的顺序聚类算法
(1)第1个样本归为第1类; (2)计算下一个样本到己有类的最短距离,若其距离小
于给定的域值,则将该样本归为其对应的类,否则增 加一个新类,并将该样本归为新类。 (3)重复(2),直到所有样本都被归类。
• 特点
– 聚类结果与样本的顺序和给定的域值有关; – 聚类速度快
分层聚类
模式识别中的常见 聚类算法
聚类问题的描述(1)
聚类问题的描述(2)
聚类问题:根据给定的数据集,
T x i|x i,i 1 , ,N
要求寻找 T上的一个“好”的划分C1, ,Cm (划分 成m个类; m可以是已知的,也可以是未知的), 满足约束条件:
(1) T m i1Ci; (2) Ci i 1, ,m; (3) Ci Cj ,i j,i, j 1, ,m.
S(N,1)=1;S(N,N)=1;S(N,m)=0,for m>N
S(N,m)=mS(N-1,m)+S(N-1,m-1)
S(N,m) 1 m!
m
(1)miCmi iN
i0
• S(15,3)=2375101;S(20,4)=45232115901
• S(25,8)=690223721118368580;S(100,5) ≈1068
p(x, y)
nC yC
d(x, H) min d(x, y), where hyperplane H : aT x b 0
yH
d(x,Q) min d(x, y), where hypersphere Q: (x c)T (x c) r2
yQ
集合与集合之间
The max proximity function : p(B,C) max p(x, y)
这里uj : [0,1]表示 上的一个模糊集
• 模糊聚类问题可以看成是前面聚类问题(硬聚类)的一个 推广,当uj的值域限制为{0,1}时,模糊聚类就是硬聚类.
聚类问题的要点
• 样本间的接近度(Proximity Measures) • 聚类评价准则:“好”的聚类指什么? • 聚类算法 • 聚类有效性检验(统计假设检验) • 聚类结果解释(结合专家知识) • 聚类的泛化能力或一致性或抗扰动能力
聚类问题的描述(3)
模糊聚类问题:根据给定的数据集,
T x i|x i,i 1 , ,N
要求寻找 T上的一个“好”的模糊划分u1, ,um (划分成m个模糊集),满足约束条件 :
m
(1) uj(xi)1,i 1, ,N;(每个样本属于m个类的隶属度之和为1) j1 N
(2) 0 uj(xi)N, j 1, ,m( ; 每个类不为空集) i1
点与点之间——DM
l
1/ p
dp(x,
y)
i1
wi
|
xi
yi
|p
(0 p ,wi 0)
(DM)
l
1/ 2
d2(x,
y)
i1
wi
|
xi
yi
|2
,进一部推广为d2(xቤተ መጻሕፍቲ ባይዱ y) (x y)T B(x y)
l
d1(x, y) wi | xi yi |
i1
d(x, y) maxwi | xi yi |
||
sg
(x,
y)
exp{||
xy
2
||2}
点与集合之间
The max proximity function : p(x,C) max p(x, y)
yC
The min proximity function : p(x,C) min p(x, y)
yC
1
The average proximity function : p(x,C)