第六讲——聚类分析PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析就是按照对象之间的“相似”程度 把对象进行分类
什么是聚类分析?
(两种分类方式)
聚类分析的“对象”可以是所观察的多个样本, 也可以是针对每个样本测得的多个变量
按照变量对所观察的样本进行分类称为Q型聚类
按照多项经济指标(变量)对不同的地区(样本)进行分 类
按照样本对多个变量进行分类,则称为R型聚类
统计名言 现实是复杂的,是绝对不可能由一 个有组织的科学模型完全描述出来 的。
——Thomas Kuhn
聚类分析
1 聚类分析的基本原理 2 层次聚类 3 K-均值聚类
怎样把消费者分类?
南京雅兴市场研究有限公司在A城市的14个城区抽取3000个 15岁以上具有独立购买能力的消费者样本, 研究消费者的生 活方式。调查中采用一系列关于对社会活动、价值观念等内容 的陈述,请消费者根据自己的情况做出评价。评价结果采用7 分评价法,1分表示“非常同意”,7分表示“非常不同意”
本章主要介绍聚类分析方法
聚类分析
1. 聚类分析的基本原理
1.1 什么是聚类分析? 1.2 相似性的度量
1 聚类分析的基本原理 1.1 什么是聚类分析?
什么是聚类分析?
(cluster analysis)
把“对象”分成不同的类别
这些类不是事先给定的,而是直接根据数据的特 征确定的
把相似的东西放在一起,从而使得类别内部 的“差异”尽可能小,而类别之间的“差异 ”尽可能大
怎样把消费者分类?
上进型:占消费者总人数的不到13%。他们对生活的态度积极,多 为未婚青年,平均年龄在28岁左右,25岁以下的占40%,单身未婚 的比例占1/2以上。职业上的显著特征是:1/3为学生,三资企业员工 的比例达1/10。男性的比例高于女性。这类消费者是受教育程度最 高的,他们的平均家庭收入却是最高的,月平均收入在2300元左右
(样本点间距离的计算方法)
聚类分析
(cluster analysis)
在现实生活中,分类问题是十分常见的
根据经济发展水平把各个国家分成发达国家、中等发达 国家、发展中国家
按照消费者的特征对消费者分类,按照产品特征对产品 分类
这些分类中,有的事先并不知道存在什么类别,完 全按照反映对象特征的数据把对象进行分类,这在 统计上称为聚类分析;有的则是在事先有了某种分 类标准之后,判定一个新的研究对象应该归属到哪 一 类 别 , 这 在 统 计 上 则 称 为 判 别 分 析 (discriminant analysis)
变量间的相似系数越大,说明它们越相近
根据变量来测度样本之间的相似程度则使用 “距离”
把离得比较近的归为一类,而离得比较远的放在 不同的类
1.2 相似性的度量
相似性的度量
聚类分析中是用“距离”或“相似系数”来度量对象 之间的相似性
在31个地区的人均GDP数据就是直线上的31个点, 每一个点对应一个地区
自保型:这类消费者占16%,他们更多的是为自己的生计考虑,考虑 自己能否有稳定的经济来源,维持家庭的经济保障是他们最关心的问 题。这些人的平均受教育程度较低,中年人的比例较高,平均年龄在 44岁左右,家庭月收入较低,平均在1600元左右,国营企业员工以及 离退休人员的比例较高。女性的比例高于男性
领袖型:这类消费者占13%。教育程度处于社会平均水平,主要为中 年人,有较多的生活阅历,年龄多在45-54岁之间。家庭月平均收入 一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者 中最高的,这似乎表明有稳定的家庭也是成为领袖的一个条件。男性 比例占55%,高于女性
根据每一类消费者的因子的特征,最终将消费者的生活方式分 为6个类别,即:时尚型、自保型、领袖型、上进型、迷茫型 (缺乏生活目标型)和平庸型
怎样把消费者分类?
时尚型:这类消费者约占样本量的约21%,主要特征为:年龄相对较 轻,平均年龄在35岁左右,教育程度相对较高,一般具有高中以上文 化程度,虽然平均家庭月收入较好,平均在2200元左右,同时也是分 散程度最高的,表明喜爱时尚并不是高收入者的专利。这一类型中的 三资企业员工的比例最大,未婚的比例较大,约占1/4,女性的比例为 55%,高于男性
如果按照人均GDP对它们进行分类,就可以把在直线 上离得比较近的那些点归为一类。如果再考虑财政收 入,那么人均GDP和财政收入就是二维平面上的一个 点,31个地区就是平面中的31个点
多个变量就是高维空间中的一个点,31个地区就是高 维空间中的31个点
各个点之间距离的远近就是分类的依据
相似性的度量
平庸型:这类消费者约占23%,最大的特点是生活没有计划,日常 生活没有规律,而其他指标则均处于中间状态。这类消费者在年龄 上比较分散,从15岁到54岁之间的各年龄段均有相当比例,平均教 育程度一般,家庭月平均收入在1900元左右。在职业上没有显著特 征,但待岗人员的比例稍高于其他各类型。在性别上,男性稍高于 女性
对调查结果先通过因子分析将一系列的测试语句进行综合,根 据消费者的回答情况,将这些语句分为几大类,最后得到5个 主要因子,它们的含义分别是:对时尚的观点、个人的事业性 与进取性、对经济利益的看法、社交能力与影响力、生活的计 划性。根据因子分析的结果对样本的回答按照新的类型进行重 新评估打分,然后根据这些评价进行聚类分析
迷茫(缺乏生活目标)型:约占15%,他们既不注重经济保障,也不参 加培训,生活节奏较缓慢。这类消费者主要为退休人员,约占该类 型人员的2/3,剩下的主要为国营企业员工。平均年龄在50岁以上, 他们的教育程度是最低的,家庭收入也是最低的,平均不到1600元。 在性别分布上,女性的比例远远高于男性,占62%
按照不同地区的样本数据对多个经济变量进行分类
两种聚类没有什么本质区别,实际中人们更感兴 趣的通常是根据变量对样本进行分类(Q型聚类)
什么是聚类分析?
(按什么分类)
按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性
程 度 可 以 使 用 夹 角 余 弦 、 Pearson 相 关 系 数 等工具,也称为相似系数
什么是聚类分析?
(两种分类方式)
聚类分析的“对象”可以是所观察的多个样本, 也可以是针对每个样本测得的多个变量
按照变量对所观察的样本进行分类称为Q型聚类
按照多项经济指标(变量)对不同的地区(样本)进行分 类
按照样本对多个变量进行分类,则称为R型聚类
统计名言 现实是复杂的,是绝对不可能由一 个有组织的科学模型完全描述出来 的。
——Thomas Kuhn
聚类分析
1 聚类分析的基本原理 2 层次聚类 3 K-均值聚类
怎样把消费者分类?
南京雅兴市场研究有限公司在A城市的14个城区抽取3000个 15岁以上具有独立购买能力的消费者样本, 研究消费者的生 活方式。调查中采用一系列关于对社会活动、价值观念等内容 的陈述,请消费者根据自己的情况做出评价。评价结果采用7 分评价法,1分表示“非常同意”,7分表示“非常不同意”
本章主要介绍聚类分析方法
聚类分析
1. 聚类分析的基本原理
1.1 什么是聚类分析? 1.2 相似性的度量
1 聚类分析的基本原理 1.1 什么是聚类分析?
什么是聚类分析?
(cluster analysis)
把“对象”分成不同的类别
这些类不是事先给定的,而是直接根据数据的特 征确定的
把相似的东西放在一起,从而使得类别内部 的“差异”尽可能小,而类别之间的“差异 ”尽可能大
怎样把消费者分类?
上进型:占消费者总人数的不到13%。他们对生活的态度积极,多 为未婚青年,平均年龄在28岁左右,25岁以下的占40%,单身未婚 的比例占1/2以上。职业上的显著特征是:1/3为学生,三资企业员工 的比例达1/10。男性的比例高于女性。这类消费者是受教育程度最 高的,他们的平均家庭收入却是最高的,月平均收入在2300元左右
(样本点间距离的计算方法)
聚类分析
(cluster analysis)
在现实生活中,分类问题是十分常见的
根据经济发展水平把各个国家分成发达国家、中等发达 国家、发展中国家
按照消费者的特征对消费者分类,按照产品特征对产品 分类
这些分类中,有的事先并不知道存在什么类别,完 全按照反映对象特征的数据把对象进行分类,这在 统计上称为聚类分析;有的则是在事先有了某种分 类标准之后,判定一个新的研究对象应该归属到哪 一 类 别 , 这 在 统 计 上 则 称 为 判 别 分 析 (discriminant analysis)
变量间的相似系数越大,说明它们越相近
根据变量来测度样本之间的相似程度则使用 “距离”
把离得比较近的归为一类,而离得比较远的放在 不同的类
1.2 相似性的度量
相似性的度量
聚类分析中是用“距离”或“相似系数”来度量对象 之间的相似性
在31个地区的人均GDP数据就是直线上的31个点, 每一个点对应一个地区
自保型:这类消费者占16%,他们更多的是为自己的生计考虑,考虑 自己能否有稳定的经济来源,维持家庭的经济保障是他们最关心的问 题。这些人的平均受教育程度较低,中年人的比例较高,平均年龄在 44岁左右,家庭月收入较低,平均在1600元左右,国营企业员工以及 离退休人员的比例较高。女性的比例高于男性
领袖型:这类消费者占13%。教育程度处于社会平均水平,主要为中 年人,有较多的生活阅历,年龄多在45-54岁之间。家庭月平均收入 一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者 中最高的,这似乎表明有稳定的家庭也是成为领袖的一个条件。男性 比例占55%,高于女性
根据每一类消费者的因子的特征,最终将消费者的生活方式分 为6个类别,即:时尚型、自保型、领袖型、上进型、迷茫型 (缺乏生活目标型)和平庸型
怎样把消费者分类?
时尚型:这类消费者约占样本量的约21%,主要特征为:年龄相对较 轻,平均年龄在35岁左右,教育程度相对较高,一般具有高中以上文 化程度,虽然平均家庭月收入较好,平均在2200元左右,同时也是分 散程度最高的,表明喜爱时尚并不是高收入者的专利。这一类型中的 三资企业员工的比例最大,未婚的比例较大,约占1/4,女性的比例为 55%,高于男性
如果按照人均GDP对它们进行分类,就可以把在直线 上离得比较近的那些点归为一类。如果再考虑财政收 入,那么人均GDP和财政收入就是二维平面上的一个 点,31个地区就是平面中的31个点
多个变量就是高维空间中的一个点,31个地区就是高 维空间中的31个点
各个点之间距离的远近就是分类的依据
相似性的度量
平庸型:这类消费者约占23%,最大的特点是生活没有计划,日常 生活没有规律,而其他指标则均处于中间状态。这类消费者在年龄 上比较分散,从15岁到54岁之间的各年龄段均有相当比例,平均教 育程度一般,家庭月平均收入在1900元左右。在职业上没有显著特 征,但待岗人员的比例稍高于其他各类型。在性别上,男性稍高于 女性
对调查结果先通过因子分析将一系列的测试语句进行综合,根 据消费者的回答情况,将这些语句分为几大类,最后得到5个 主要因子,它们的含义分别是:对时尚的观点、个人的事业性 与进取性、对经济利益的看法、社交能力与影响力、生活的计 划性。根据因子分析的结果对样本的回答按照新的类型进行重 新评估打分,然后根据这些评价进行聚类分析
迷茫(缺乏生活目标)型:约占15%,他们既不注重经济保障,也不参 加培训,生活节奏较缓慢。这类消费者主要为退休人员,约占该类 型人员的2/3,剩下的主要为国营企业员工。平均年龄在50岁以上, 他们的教育程度是最低的,家庭收入也是最低的,平均不到1600元。 在性别分布上,女性的比例远远高于男性,占62%
按照不同地区的样本数据对多个经济变量进行分类
两种聚类没有什么本质区别,实际中人们更感兴 趣的通常是根据变量对样本进行分类(Q型聚类)
什么是聚类分析?
(按什么分类)
按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性
程 度 可 以 使 用 夹 角 余 弦 、 Pearson 相 关 系 数 等工具,也称为相似系数