非监督学习方法之聚类分析模版(PPT55张)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 聚类准则函数法
聚类就是将样本进行组合分类以使类别可分性为
最大,因此聚类准则应是反映类别间相似性(或可
分性)的函数;同时,类别又由一个个样本组成,
因此类别的可分性与样本间的差异性直接相关。基
于此,聚类准则函数J,应是模式样本集{x}和模
式类别{Sj, j=1,2,…,c}的函数,即
c
J
2
xmj
❖若向量点的分布是一群一群的,同一群 样本密集(距离很近),不同群样本距离 很远,则很容易聚类;
❖若样本集的向量分布聚成一团,不同群 的样本混在一起,则很难分类;
❖对具体对象做聚类分析的关键是选取合 适的特征。特征选取得好,向量分布容易 区分,选取得不好,向量分布很难分开。
❖特征空间维数
❖特征信息的冗余性:在对象分析和特征提取 中,往往会提取一些多余的特征,以期增加 对象识别的信息量。
❖高维特征空间分析的复杂性:特征空间维数 越高,聚类分析的复杂性就越高
❖高维特征空间降维
❖降维方法:
❖相关分析:特征向量的相关矩阵R,分析相 关性
❖主成分分析:以正交变换为理论基础 ❖独立成分分析:以独立性为基础
❖特征的表示
❖数值表示:对于实际问题,为了便于计算机 分析和计算,特征必须进行量化。对不同的 分析对象,量化方法是不一样的。
❖分类依据:一个样本的特征向量相当于特征 空间中的一点,整个模式样本集合的特征向 量可以看成特征空间的一些点,点之间的距 离函数可以作为模式相似性的度量,并以此 作为模式的分类依据。
❖聚类分析是按不同对象之间的差异,根据距 离函数的规律进行模式分类的。 ❖距离函数的定义 ❖特征向量的特性
❖聚类分析的有效性:聚类分析方法是否有效, 与模式特征向量的分布形式有很大关系。
❖两类模式分类的实例 区分一摊黑白围棋子
❖选颜色作为特征进行分类,用“1”代表白, “0”代表黑,则很容易分类;
❖选大小作为特征进行分类,则白子和黑子的 特征相同,不能分类。
§1.2 相似性测度和聚类准则
一、相似性的测度
❖欧氏距离: 表征两个模式样本在特征空间中的 Euclid距离,
D xz
❖模式X和Z间的距离愈小,则愈相似 ❖注意:X和Z的量纲必须一致 ❖消除量纲不一致对聚类的影响:特征数据的正则化
(也称标准化、归一化),使特征变量与量纲无关。
❖马氏距离:表征模式向量X与其均值向量m之 间的距离平方,C是模式总体的协方差矩阵,
D 2xm tC 1xm
❖引 入 协 方 差 矩 阵 , 排 除 了 样 本 之 间 的 相 关 性 。 欧式距离中,如果特征向量中某一分量的值非常大, 那么就会掩盖值小的项所起到的作用,这是欧式距 离的不足;当采用马氏距离,就可以屏蔽这一点。 因为相关性强的一个分量,对应于协方差矩阵C中 对角线上的那一项的值就会大一些。再将这一项取 倒数,减小该影响。
j1,,cxsj
❖J代表了分属于c个聚类类别的全部模式样本 与其对应类别模式均值之间的误差平方和;
❖对于不同的聚类形式, J值是不同的,聚类 的目的是:使J值达到极小;
❖由此可见:聚类分析转化为寻找准则函数极 值的最优化问题;
❖此种聚类方法通常称为最小方差划分,适用 于各类样本密集且数目相差不多,而不同类 间的样本又明显分开的情况(图例解释)— 把握类内距离与类间距离的问题;
❖连续量的量化:用连续量来度量的特征,只需取 其量化值,如长度、重量等。
❖分级量的量化:度量分析对象等级的量,用有序 的离散数字进行量化,比如学生成绩的优,良, 中,差可用1,2,3,4等量化表示。
❖定性量的量化:定性指标,没有数量关系,也没 有次序要求。比如,性别特征:男和女,可用0和 1来进行表示。
❖相似性与距离聚类
❖相似性:模式之间具有一定的相似性,这既 表现在实物的显著特征上,也表现在经过抽 象以后特征空间内的特征向量的分布状态上。
❖聚类分析定义:对一批没有标出类别的模式 样本集,按照样本之间的相似程度分类,相 似的归为一类,不相似的归为另一类,这种 分类称为聚类分析,也称为无监督分类。
❖当协方差为对角矩阵时,各特征分量相互独立;当 协方差为单位矩阵时,马氏距离和欧氏距离相同。
❖一般化的明氏距离
1
Dm(xi,xj)k
(xik
xjk)m
m
xi,xj为 模 式 样 本 向 量
其中 xik , x jk分别是样本向量的第k个分量;当 m=2时,明氏距离就是欧氏距离;当m=1时,
就是街坊(city block)距离:
D 1(xi,xj) xikxjk k
❖角度相似性函数:表征了模式向量x和z之间夹角
的余弦,反映了几何上的相似性,
xt z S(x, z)
x•z
❖当坐标系旋转或者尺度变换,夹角余弦测度均 保持不变(对位移和线性变换不成立)
❖如果x和z的分量用二值来表示,0表示不具有
某种特征,1表示具有某种特征,则夹角余弦
❖聚类准则函数有许多其他形式。
§Fra Baidu bibliotek.3 基于试探的聚类搜索算法
一、按最邻近规则的简单试探法
给N个待分类的模式样本 x1,x2, ,xN,要 求按距离阈值T分类到聚类中心 z1,z2,
❖ 算法过程:
❖Step 1:取任意的样本xi作为一聚类中的初始 值,如令z1=x1,计算
D21 x2z1
若D21>T,确定一新的聚类中心z2=x2 否则x2∈以z1为中心的聚类;
第一章 非监督学习方法:聚 类分析
• 基本概念 • 相似性测度与聚类准则 • 基于试探的聚类搜索算法 • 系统聚类 • 分解聚类 • 动态聚类
§1.1 基本概念
❖分类与聚类的区别
❖分类:用已知类别的样本训练集来设计分类 器(监督学习)
❖聚类(集群):用事先不知样本的类别,而 利用样本的先验知识来构造分类器(无监督 学习)
测度表示x和z具有共有特征数目的相似性测度。
二、聚类准则的确定
❖ 试探法
凭直观和经验,针对实际问题选择相似性测度 并确定此相似性测度的阈值,然后选择一定的 训练样本来检验测度和阈值的可靠程度,最后 按最近邻规则指定某些模式样本属于某一个聚 类类别。
❖举例:对于欧氏距离,它反映了样本间的近 邻性,但将一个样本分到不同类别时,还必 须规定一距离测度的阈值准则作为聚类的判 别准则
❖Step 2:假如已有聚类中心z1和z2,计算