聚类分析原理介绍和预测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大配对和小配对 Major and minor suits
聚类分析原理介绍
❖ 这个例子告诉我们,分 组的意义在于我们怎么
定义并度量“相似
性”Similar
A
❖因此衍生出一系列度量 K 相似性的算法
Q
J
大配对和小配对 Major and minor suits
主要内容
第一节 引言 第二节 聚类统计量 第三节 系统聚类法 第四节 动态聚类法
YOUR SITE HERE
聚类分析的分类
聚合法: 分类开始时每个样品自成一类。 最常用,分类结果常用分类谱系图表达。
按聚合 方式分
分裂法: 分类开始将全部样品看成一类。 通常只能是求局部最优解的方法。
调优法: 首先对样品进行粗糙的分个类。 动态聚类法就是其中最典型的方法。
加入法: 业已存在一个分类结果,确定每 个新加入样品在分类结构中最合适的位置 。 等
聚类分析的出发点是研究对象之间可能存在 的相似性和亲疏关系。
所以,根据研究对象之间各种特征标志的相
似程度或相关程度的大小,可将它们进行分
类归组。
YOUR SITE HERE
聚类分析的目的是把分类对象按一定规则 分成若干类,这些类不是事先给定的,而 是根据数据的特征而确定。
聚类分析的分类原则是
①同一类中的分类对象在某种意义上趋于 彼此相似(有较大的相似性);
是一种降维的 方法
样品3
从几何意义上说,是以N个样品 为坐标轴,每个变量视为坐标空 变量1 间的一点或一个向量,研究样本 空间变量点之间的关系。
变量3 变量2
如研究控矿地质因素及矿化标志间
的相关关系,多用于矿物,化学元
素等方面的分组,以助于矿床成因
问题的研究。
样品1
样品2
YOUR SITE HERE
YOUR SITE HERE
类间距离是基于点间距离定义的:比如两类之 间最近点之间的距离可以作为这两类之间的距 离,也可以用两类中最远点之间的距离作为这 两类之间的距离;当然也可以用各类的中心之 间的距离来作为类间距离。
在计算时,各种点间距离和类间距离的不同选 择,其结果会有所不同,但一般不会差太多。
YOUR SITE HERE
聚类分析的分类
按聚类 对象
Q型聚类:对样品的聚类 (cases) R型聚类:对变量的聚类 (variables)
R型聚类和Q型聚类这两种聚类在数学处理上是对称 的,没有什么不同。
百度文库
YOUR SITE HERE
R型聚类分析和Q型聚类分析
1. R型聚类分析(对变量的聚类)
研究变量之间的相似程度,对变 量进行分组。
YOUR SITE HERE
第一节 引言
YOUR SITE HERE
人类认识事物、认识世界,往往从分类开始。 聚类分析和判别分析是研究事物分类的基本方法。
在数学分类和模式识别中,有两类问题:
第一类问题:研究对象存在一个事前分类,将未知 个体归属于其中的一类——判别分析(有监督或称 有导师的Supervised,样品的类别属性是“被标记 了”的labeled) 另一类问题:不存在一个事前分类,对数据结构进 行分类(分组) ——聚类分析(无监督或称无导 师的Unsupervised)
YOUR SITE HERE
聚类分析的分类
按聚类 方法分
系统聚类法,也叫分层聚类法,
hierarchical cluster 动态聚类法,也叫快速聚类法quick cluster
逐步聚类、迭代聚类 k-均值聚类 k-means cluster 最优分割法(有序样品聚类法) 模糊聚类法 图论聚类法 聚类预报法 等
②不同类中的分类对象趋于不相似(有很 大的差异)。
YOUR SITE HERE
聚类分析基本思想
根据已知数据,计算各观察个体或变量 之间亲疏关系的统计量(距离、相关系 数等),根据某种准则(最短距离法、 最长距离法、中间距离法、重心法等) ,使同一类内的差别较小,而类与类之 间的差别较大,最终将观察个体或变量 分为若干类。
聚类分析原理介绍
❖ 分成四组 ❖ 符号相同的牌为一组
A K Q J
符号相同的的牌 Like face cards
聚类分析原理介绍
❖ 分成两组 ❖ 颜色相同的牌为一组
A K Q J
颜色相同的配对 Black and red suits
聚类分析原理介绍
❖ 分成两组 ❖ 大小程度相近的牌分
到一组
A K Q J
地学研究中的分类问题较多,如岩石分类、矿物 分类、构造期次研究、古气候古环境划分等,这 些都有可能需要利用聚类分析来研究。
YOUR SITE HERE
物以类聚,人以群分
聚类分析是一种研究分类问题的多元统计 方法。
聚类分析的职能是建立一种分类方法,它 将一批样品或变量,按照它们在性质上的 亲疏、相似程度进行分类。
聚类分析原理介绍 和预测
❖什么是自然分组结构Natural grouping ? ❖ 我们看看以下的例子: ❖ 有16 ❖ 如何将他们分为
一组一组的牌呢? A
K
Q
J
聚类分析原理介绍
❖ 分成四组 ❖ 每组里花色相同 ❖ 组与组之间花色相异
A K Q J
花色相同的牌为一副 Individual suits
YOUR SITE HERE
判别分析数据格式
YOUR SITE HERE
聚类分析数据格式
YOUR SITE HERE
在地学领域中,经常面临着大量的分类问题,即对 一定量的事物(如地质体、样品或变量)按其属性进 行归类。
由于地质对象的复杂性,单靠定性标志或少数定量 标志进行分类,常常不能揭示客观事物内在本质的 差别和联系,难以确定地质体本质属性的归属。同 时也造成很多分类计算具有很大的主观性和任意性 ,而且所得的结果因人而异,常不能反映客观实际 情况。
R型聚类分析和Q型聚类分析
2. Q型聚类分析(对样品的聚类)
YOUR SITE HERE
两个“距离”概念
按照远近程度来聚类需要明确两个概念: 一个是点和点之间的距离,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是欧氏距离,还有 其他的距离。
当然还有一些和距离相反但起同样作用的概念,比如相 似性等,两点越相似度越大,就相当于距离越短。
由一个点组成的类是最基本的类;如果每一类都由一个 点组成,那么点间的距离就是类间距离。但是如果某一 类包含不止一个点,那么就要确定类间距离,
相关文档
最新文档