数据的分类—聚类分析和模型讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
D 12
(xkx)'(xi x) DpqD 12D 1D 2
xk Gp G q
(中间距离, 可变平均法,可变法等可参考各书). 在用欧氏距离时, 有统一的递推公式
最短距离(Nearest Neighbor)
x11• x12•
d 13
x21•
x22•
最长距离(Furthest Neighbor )
•
d
x11•
12
•
•
x21•
• •
•Baidu Nhomakorabea
组间平均连接(Between-group Linkage)
•
•
• •
•
•
d1 d9 9
组内平均连接法(Within-group Linkage)
d1 d2 d3 d4 d5 d6 6
x11• x12•
x21• x22•
重心法(Centroid clustering):均值点的 距离
• 在计算时,各种点间距离和类间距离的选择是 通过统计软件的选项实现的。不同的选择的结 果会不同,但一般不会差太多。
向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数:
欧氏距离: Euclidean
(xi yi )2
i
夹角余弦(相似系数1) :
平方欧氏距离:
Squared Euclidean
k-means算法
k-means算法,也被称为k-均值或k-平均。 该算法首先随机地选择k个对象作为初始的k个簇的质心; 然后对剩余的每个对象,根据其与各个质心的距离,将它赋 给最近的簇,然后重新计算每个簇的质心;这个过程不断重 复,直到准则函数收敛。通常采用的准则函数为平方误差和 准则函数,即 SSE(sum of the squared error),其定义如 下:
(xi yi )2
i
cosine
xiyi Block(绝对距离): Si|xi-yi|
Cxy(1)cosxy
i
xi2 yi2
i
i
Pearson
correlation
Chebychev: Maxi|xi-yi| 1
Minkowski:
( xi
yi )q
q
i
(相似系数2):
(xi x)(yi y)
如何度量距离远近?
• 如果想要对100个学生进行分类,而仅知道他 们的数学成绩,则只好按照数学成绩分类;这 些成绩在直线上形成100个点。这样就可以把 接近的点放到一类。
• 如果还知道他们的物理成绩,这样数学和物理 成绩就形成二维平面上的100个点,也可以按 照距离远近来分类。
• 三维或者更高维的情况也是类似;只不过三维 以上的图形无法直观地画出来而已。
最短距离法:
最长距离法:
Dpqmind(xi,xj)
Dpqmaxd(xi,xj)
重心法:
类平均法:
Dpqmind(xp,xq)
Dpq
1
n1n2
xiGp
xjGq
d(xi,xj)
离差平方和:
(Wald)
D 1 (xixp)'(xixp),D 2 (xjxq)'(xjxq),
xi Gp
xj G q
• 在饮料数据中,每种饮料都有四个变量值。这 就是四维空间点的问题了。
两个距离概念
• 按照远近程度来聚类需要明确两个概念: 一个是点和点之间的距离,一个是类和类 之间的距离。
• 点间距离有很多定义方式。最简单的是歐 氏距离。
• 当然还有一些和距离相反但起同样作用的 概念,比如相似性等,两点越相似度越大, 就相当于距离越短。
x1, y1
x2, y2
•
•
离差平方和法连接
(23 )2(43 )22
2,4
(6 5 .5 )2 (5 5 .5 )2 0 .5
6,5
1,5
(13)2(53)28
红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25
黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接和黄红首先连接。
两个距离概念
• 由一个点组成的类是最基本的类;如果每一类 都由一个点组成,那么点间的距离就是类间距 离。但是如果某一类包含不止一个点,那么就 要确定类间距离,
• 类间距离是基于点间距离定义的:比如两类之 间最近点之间的距离可以作为这两类之间的距 离,也可以用两类中最远点之间的距离或各类 的中心之间的距离来作为类间距离。
聚类分析的算法可以分为划分法、层次法、基于密度的方 法、基于网格的方法、基于模型的方法。其中,最广泛使
用的聚类算法k-means算法属于划分法。
划分法
给定一个有N个元组或者纪录的数据集,划分法将构造K 个分组,每一个分组就代表一个聚类,K<N。而且这K个分组 满足下列条件:
(1) 每一个分组至少包含一个数据纪录; (2)每一个数据纪录属于且仅属于一个分组(某些模糊 聚类算法中该条件可以放宽); 对于给定的K,算法首先给出一个初始的分组方法,以后 通过反复迭代的方法改变分组,使得每一次改进之后的分组 方案都较前一次好,而所谓好的标准就是:同一分组中的记 录越近越好,而不同分组中的纪录越远越好。
数据的分类—聚类分析和模型 讲解
聚类算法
• 在商业上,聚类可以帮助市场分析人员从消费 者数据库中区分出不同的消费群体来,并且概 括出每一类消费者的消费习惯。它作为数据挖 掘中的一个模块,可以作为一个单独的工具来 发现数据库中分布的一些深层的信息,并且概 括出每一类的特点,或者把注意力放在某一个 特定的类上做进一步的分析。
Cxy(2)rxy
i
(xi x)2 (yi y)2
i
i
当变量的测量值相差悬殊时,要先进行标准化. 如R为极差,
s 为标准差, 则标准化的数据为每个观测值减去均值后再
除以R或s. 当观测值大于0时, 有人采用Lance和Williams的
距离
1 | xi yi |
p i xi yi
类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
SSE是数据库中所有对象的平方误差总和,p为数据对象, mi是簇Ci的平均值。这个准则函数使生成的结果尽可能的紧 凑和独立。
饮料数据(drink.txt )
• 16种饮料的热量、咖啡因、钠及价格四种变量
• 如何根据以上数据对16种饮料进行分类呢?
• 对数据进行分类就需要知道距离?你知道 那些距离?
• 有了上面的点间距离和类间距离的概念, 就可以介绍聚类的方法了。这里介绍两个 简单的方法。