聚类分析 PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

相似性度量

样本的相似性度量

变量的相似性度量
聚类分析

聚类分析中,个体之间的“亲疏程度”是极为重 要的,它将直接影响最终的聚类结果。对“亲疏” 程度的测度一般有两个角度:第一,个体间的相 似程度;第二,个体间的差异程度。衡量个体间 的相似程度通常可采用简单相关系数等,个体间
的差异程度通常通过某种距离来测度。
样本或变量间亲疏程度的测度

研究样本或变量的亲疏程度的数量指标有两种:
一种叫 相似系数 ,性质越接近的变量或样本,它 们的相似系数越接近于 1 或一 l ,而彼此无关的变量 或样本它们的相似系数则越接近于 0,相似wenku.baidu.com为一类, 不相似的为不同类。

另一种叫 距离 ,它是将每一个样本看作 p 维空间的 一个点,并用某种度量测量点与点之间的距离,距 离较近的归为一类,距离较远的点应属于不同的类。
10
聚类分析无处不在

谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,
找出“黄金客户”!
这样银行可以…… 制定更具吸引力的服务,留住客户!比如:
一定额度和期限的免息透支服务!
赠送百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
11
聚类的应用领域
21
相似性度量

如果想要对 100 个学生进行分类,如果仅仅知道他们 的数学成绩,则只好按照数学成绩来分类;这些成绩 在直线上形成 100 个点。这样就可以把接近的点放到 一类。 如果还知道他们的物理成绩,这样数学和物理成绩就 形成二维平面上的 100 个点,也可以按照距离远近来
13
14
15
聚类分析

对于一批数据,人们既可以对变量(指标)进行 分类(相当于对数据中的列分类),也可以对观测 值(事件,样品)来分类(相当于对数据中的行 分类)。
表1 姓 名
学生的四门课程的成绩 数 学 物 理 语 文 政 治
hxh
yaju yu
99.00
88.00 79.00
98.00
89.00 80.00
聚类分析无处不在
如想把中国的县分成若干类,
可以按照自然条件来分:考虑降水、土地、日照、 湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施 等指标。 为了研究不同地区城镇居民生活中的收入和消费情 况,往往需要划分不同的类型去研究。
聚类分析无处不在
学校里有些同学经常在一起,关系比较密切,而他们
他们的数学成绩,则只好按照数学成绩来分类
如果还知道他们的物理成绩,那么怎么对他们分 类? 如果还知道他们的语文成绩、外语成绩等,我们 怎么来对他们分类?
分类

由于不同的指标项对重要程度或依赖关系是相 互不同的,所以也不能用平均的方法,因为这 样会忽视相对重要程度的问题。

所以需要进行多元分类,即聚类分析。
聚类分析

聚类分析是一种 建立分类 的多元统计分析方法,它能够
将一批样本(或变量)数据根据其诸多特征, 按照在性
质上的亲疏程度 (各变量取值上的总体差异程度) 在没 有先验知识(没有事先指定的分类标准)的情况下 进行 自动分类,产生多个分类结果。

类内部的个体在特征上具有相似性,不同类间个体特征 的差异性较大。
与另一些同学却很少来往,关系比较疏远。
为了研究 课余爱好、性格、家庭情况、学习成绩 等是
否会成为划分学生小群体的主要决定因素 ,可以从有关 这些方面的数据入手,进行客观分组,然后比较所得的
分组是否与实际相吻合。对学生的客观分组就可采用聚
类分析方法。
聚类分析无处不在

谁经常光顾商店,谁买什么东西,买多少? 按会员卡记录的光临次数、光临时间、性别、年龄、职业、 购物种类、金额等变量分类
聚类分析
分类

物以类聚,人以群分。 日常生活中,我们 不自觉地用定性方法将人分为“好人”、 “坏人”;按熟悉程度分为 “朋友”、 “熟人”、“陌生人” 等等。

我们究竟是如何分类的呢?
分类
当有一个分类指标时,分类比较容易。 但是当有多个指标,要进行分类就不是很容易了。 如果想要对100个学生进行分类,如果仅仅知道
对基因分类,获得对种群的认识

数据挖掘领域
作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定
的类做进一步的研究
12
例 对10位应聘者做智能检验。3项指标X,Y
和Z分别表示数学推理能力、空间想象能力和语
言理解能力。得分如下,选择合适的统计方法 对应聘者进行分类。
应聘者 X Y Z 1 28 29 28 2 18 23 18 3 11 22 16 4 21 23 22 5 26 29 26 6 20 23 22 7 16 22 22 8 14 23 24 9 24 29 24 10 22 27 24
50.00
88.00 89.00
51.00
89.00 90.00
Iiakii
100.00
100.00
85.00
84.00
聚类分析

Q型和R型(根据分类对象的不同)

Q型是对样本进行分类处理,使具有相似特征的样
本聚集在一起,差异性大的样本分离开来。

R型是对变量进行分类处理,使具有相似性的变量 聚集在一起,差异性大的变量分离开来,可在相 似变量中选择少数具有代表性的变量参与其他分 析,实现减少变量个数,达到变量降维的目的。

经济领域:
帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买
模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 ……

生物学领域
推导植物和动物的分类;
78.00
89.00 95.00
80.00
90.00 97.00
shizg
hah john
89.00
75.00 60.00
78.00
78.00 65.00
81.00
95.00 85.00
82.00
96.00 88.00
watet
jess wish
79.00
75.00 60.00
87.00
76.00 56.00


这样商店可以……
识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯
周末时一次性大采购)

刻画不同的客户群的特征
9
聚类分析无处不在

挖掘有价值的客户,并制定相应的促销策略:
如,对经常购买酸奶的客户 对累计消费达到12个月的老客户

针对潜在客户派发广告,比在大街上乱发传单命中 率更高,成本更低!
相关文档
最新文档