《调查数据分析》实践环节考核作业(B)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《调查数据分析》实践环节考核作业
作业一试说明聚类分析与辨别分析的异同。
作业二消费者与供应厂商间经常出现纠纷。
纠纷发生后,消费者经常会向消费者协会投诉。
消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,结果如下表:零售业旅游业航空业家电制造业
57 68 31 44
66 39 49 51
49 29 21 65
40 45 34 77
34 56 40 58
53 51
44
问题:请利用excel分析这几个行业的服务质量是否有显著的差异。
作业三某酒业公司想研究男女性别的不同是否会饮酒偏好产生影响。
选择了220名饮酒者组成的随机样本,对他们进行酒类型偏好的调查。
结果如下表所示
性别与饮酒偏好调查表
性别
饮酒偏好
合计白酒啤酒
男性60 50 110
女性4070 110
合计100120 220
问题:请利用所学知识帮助企业分析性别是否对饮酒偏好产生不同的影响?
答案:
聚类分析与判别分析的区别与联系
都是研究分类的,在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。
判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本基础上,对当前新样本判断它们属于哪个总体。
如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析问题。
一、聚类分析与判别分析的基本概念
1、聚类分析
又称群分析、点群分析。
根据研究对象特征对研究对象进行分类的一种多元分析技术, 把性质相近的个体归为一类, 使得同一类中的个体都具有高度的同质性, 不同类之间的个体具有高度的异质性。
根据分类对象的不同分为样品聚类和变量聚类。
2、判别分析
是一种进行统计判别和分组的技术手段。
根据一定量案例的一个分组变量和相应的其他多元变量的已知信息, 确定分组与其他多元变量之间的数量关系, 建立判别函数, 然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组。
判别分析中的因变量或判别准则是定类变量, 而自变量或预测变量基本上是定距变量。
依据判别类型的多少与方法不同, 分为多类判别和逐级判别。
判别分析的过程是通过建立自变量的线性组合(或其他非线性函数), 使之能最佳地区分因变量的各个类别。
二、聚类分析与判别分析的区别
1、基本思想不同
( 1) 聚类分析的基本思想
我们所研究的样品或指标( 变量) 之间存在程度不同的相似性( 亲疏关系) , 于是根据一批样品的多个观测指标, 具体找出一些能够度量样品或指标之间相似程度的统计量, 以这些统计量作为划分类型的依据。
把一些相似程度较大的样品( 或指标) 聚合为一类, 把另外一些相似程度较大的样品( 或指标) 又聚合为另一类; 关系密切的聚合到一个小的分类单位, 关系疏远的聚合到一个大的分类单位, 直到把所有的样品(或指标)聚合完毕。
( 2)判别分析的基本思想
对已知分类的数据建立由数值指标构成的分类规则即判别函数, 然后把这样的规则应用到未知分类的样本去分类。
由基本思想可知, 在聚类分析中, 所有样品或个体所属类别是未知的, 类别的个数一般也是未知的, 分析的依据就是原始数据, 没有任何事先的
有关类别的信息可参考。