任务6数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
任务6 市场调查数据分析
6.1 常用的统计方法
1、变量类型
在编码时我们已经提到过,问卷的每一个题目都可以看做是一个变量,由于所提问题的性质不同,对应的变量类别就不一样,变量的类别由低到高依次为:定类变量、定序变量、定距变量(定比变量)。
(1)定类变量:变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是定类变量。对于定类变量,加减乘除等运算是没有实际意义的。
(2)定序变量:变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度”,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。
(3)定距变量:变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。
定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比变量取值为“0”时,则表示“没有”。上面举的“年龄”、“每月平均收入”也是定比变量,因为它们的“0”值都表示“没有”。而像“温度”这样的变量中的“0”值并不表示“没有”,而是表示“0℃”这一特定温度,这样的变量是定距变量,但不是定比变量。
在统计分析时,对不同类型的变量要选用不同的方法。一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量,反之则不行。比如适用于定类变量的分析方法,同时也可用于其他类别的变量,反过来适于定距变量的分析方法,一般不能用于其他类别的变量。
由于市场调查中的定类、定序变量较多,为了能够使用更多的统计方法,常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量,这样只适用于定距变量的统计方法,就可以用于这些定类和定序变量了。
对于缺失值的处理
在数据整理中,经常会碰到缺失值的问题,缺失值的数量过多的话,说明数据收集过程中存在着严重的问题。可以接受的标准是,缺失值的数量在10%以下。处理缺失值的方法有下面4种:
(1)用一个样本统计量的值代替缺失值
缺失值可以使用一个样本的统计量去代替,最典型的做法就是使用该变量的样本平均值。由于该变量的平均值保持不变,其他的统计量如标准差、相关系数等都不会受到影响。如在收入或者年龄问题中出现缺失值,可以使用收入、年龄
的平均值代替缺失值。
(2)用从一个统计模型计算出来的值去代替缺失值
另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替,常使用的模型有回归模型、判别模型等等。如“个人收入”、“ 年龄”与“品牌的选择”可能存在关系,利用这三个问题的被访者问答数据,可能构造出一个回归方程。根据这个回归方程,对于没有回答“品牌选择”的被访者,可以根据“个人收入”和“年龄”的选项,利用回归方程式,计算出品牌选择的值。
(3)将有缺失值的个案删除
将有缺失值的个鞍删除的方法,结果可能会导致样本量的减少,如果调查在收集过程中控制得不是很好,被访对象多多少少都会出现一些问题没有回答的情况,删除个案的方法,会导致大量的样本减少。
(4)将有缺失值的个案保留,仅在相应的分析中做必要的删除
将有缺失值的个案保留,仅在相应的分析中做必要的排除的方法,会使分析中不同计算的样本量不同,也有可能导致不适宜的结果。调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度的相关的情况下,市场研究者经常采用这种方式处理缺失值。
2、统计方法
根据研究的目的与要求,要选择不同的统计方法。如果是对一个变量取值的归纳整理及对其分布形态的研究,用频数分析(计算百分比等)、众数、中位数、均值和标准差等方法或统计量来描述;对两个变量的相关性分析,可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法;对多个变量间的相关性分析,可以用多元线性回归、判别分析、聚类分析、因子分析等方法。
在学习掌握这些统计方法的同时,还应该会熟练使用相关的统计软件,因为很多统计方法靠手工计算是难以完成的。现在普遍使用的统计软件是SPSS、SAS。
下面我们分单变量的分析、两个变量的相关分析、多个变量的相关分析三部分,介绍一些常用的统计方法,主要介绍如何应用这些方法,并列举模拟的例子,给出相应的用SPSS统计软件分析的结果,使读者能够较快地学会使用这些方法。
6.2 单变量分析
1、频数和百分比
所谓频数(Frequencies),时变量某一个去值的个案数;所谓百分比(Percentage),是表示该取值的个案数占总样本的比例,即频数/样本量×100%。将变量所有取值的频数和百分比列在一个表中,这种表叫频数表,从中可以看出变量各个取值的分布情况。
频数表分析方式一般适用于定序变量和定类变量,对定距变量,必须先将变量的取值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计算。
【例如】
表中第一列是“变量标签”,是对变量取值的说明(现在使用的SPSS软件虽然是英文版,但是已经可以兼容中文,变量标签可以使用中文表示)。
第二列是“变量取值”,即:“1”至“5”分别代表了“非常不好”到“非常好”,其中“.”代表缺失值,即有些人没有回答此题;
第三列是“频数”,对应的数值表示各个取值的个案数,这里认为“非常好”有16样本、认为“好”的有216个样本、认为“一般”的有193人、认为“不好”的有10个样本、认为“非常不好”的有1个人,而没回答此题约有65人。
第四列是“百分比”,是频数对样本量(501人)的比率。
第五列是“有效百分比”,是频数对有效个案数(所谓有效个案数,即样本量减去缺失个案数)的比例,这里有效个案数是436人。
第六列是“累计百分比”,是对有效百分比的逐行累加的结果。
从对该题的频数分析的结果来看,对A品牌广告的评价总的来说还是倾向于比较好的,所有的样本中,认为“不好”或者“非常不好”的比例合计只有2.5%,
即占样本2.5%的人不喜欢A品牌的广告。
频数和百分比计算中,百分比大小比较是一个相对的概念,频数大小则是绝对的数值,在市场分析报告中,经常利用百分比来说明结果,但是有时也需要频数进一步的说明之间的差异。在比较两个公司的营业额的增长幅度时,A公司和B公司的经营规模差异巨大的情况下,虽然A公司的增长幅度没有B公司快,这是因为A公司的实际规模可能是B公司的几十倍,在这种情况下,也需要比较增长的实际数额,才能全面的说明问题。
2、指数
指数(Index)的计算方法很多,最常用的一种方法是,将一些待比较的数字中的一个特定的数字定为基数100,计算其他数字相对于基数的百分数。用各种指数来描述和比较一些特定的市场的问题,既方便又直观。定义适当的指数不但可以进行横向(不同空间)的比较,还可以进行纵向(不同时间)的比较。为了说明20多年来广告的发展情况,可以1978广告营业额作为基数,计算以后每