市场调查资料整理与分析讲义

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第六单元市场调查资料整理与分析
【学习目标】
知识目标：
1。

了解调查资料整理的含义;
2.掌握调查资料整理的程序和方法；
3。

掌握数据描述性分析方法和相关分析法。

能力目标：
1.能够按程序和相关要求对市场调查资料进行整理;
2。

能够用EXCEL绘制各种图表进行相关数据信息的展示；
3。

能够用EXCEL对数据展开描述性统计分析、相关分析等。

【案例导入】
Sunrise购物中心数据处理
Sunrise购物中心是一家拥有百余家分店的购物中心。

最近，管理人员发现需要更多地了解顾客的满意程度。

艾米是Sunrise购物中心的市场调查负责人,现在她车子的后备箱中堆满了1000多份调查问卷。

她仔细看了许多问卷，很多问题的回答五花八门。

艾米起初试图凭直觉了解对每个问题的一般答案，但后来她想比较顾客的年龄、收入和来Sunrise购物中心的次数，以便更好地找出这些不同人群的特征.虽然她急着想将这些调查问卷分类和进行手工计算，但她知道自己没有时间做。

一个人整理这些表格并记录下正确数据得花上一两周的时间.
她应该怎样才能把这些信息变为一张分析所必需的详细摘要表呢？最笨的办法是调查人员阅读所有的问卷，记下笔记，并从中得出结论，这显然是愚蠢的行为。

专业调查人员不用这种不正规并效率低的方法，而是遵循一个程序进行资料的处理与分析。

6。

1调查资料的整理
6.1。

1 调查资料整理的基本概念
1。

含义
根据分析研究的需要,运用科学的方法对市场调查所获得的各种原始资料进行审核、分组、汇总、展示，或对二手资料进行再加工,使其集中化、条理化、系统化的活动或过程.
这里主要讲对调查到的原始资料的整理。

2.意义
资料整理对于整个市场调查工作具有非常重要的作用：
（1）是进行资料分析的前提。

通过查缺补漏,去假存真，去粗取精，保证资料的真实。

对资料的分析必须借助完备的系统的资料,因此它是研究阶段的第一步。

(2）可以大大提高调查资料的使用价值.
（3）是保存调查资料的客观要求。

只有进行整理之后，才能使原始资料具有长期保存的价值。

3。

调查资料整理的程序及方法
依次是审核、编码和录入、分组、汇总和展示.
6。

1.2调查资料的审核
1。

审核的内容
对问卷资料的审核在两个层次上进行,第一个层次审核问卷的真实性,第二个层次审核问卷的准确性和完整性。

从而使问卷的审核分为两个阶段，实地审核和集中审核。

实地审核主要审核问卷的真实性,集中审核主要审核问卷的准确性。

(1)实地审核-审核问卷的真实性,包括调查者自己审核和复核员审核。

实地审核包括两个方面，一是调查者自己对问卷真实性、准确性和完整性的审核,这一工作在调查者尚未离开调查点之前进行，另一方面的实地审核指调查者离开以后有复核员进行的审核，该项工作最后归到复查和追访工作。

其目的是核实调查是否按要求正确无误地进行，尽可能确保每份调查问卷都是有效问卷。

核实的内容有：
①此人是否真正接受了调查？
②被调查者是否符合条件？
③调查是否按要求的方式进行？
④调查是否完整？
⑤其他问题。

如调查员是否彬彬有礼？被调查者对访问员或调查过程有什么意见?
（2）集中审核—审核问卷的准确性和完整性
集中审核的第一步是检查问卷填写的完整性和资料质量，目的是确定哪些问卷可以接受，哪些问卷要作废。

在问卷检查之前，应按规定若干规则，使检查人员明确问卷完整到什么程度才可以接受.
2.审核的方法
逻辑审核.逻辑审核就是分析标志、数据之间是否符合逻辑，各个项目之间有无相互矛盾的地方.
计算审核。

计算审核就是检查调查表中各项数字在计算方法和计算结果上是否有误，数字的计量单位有无与规定不符的地方等等。

抽样审核。

抽样审核就是从全部调查资料中抽取一部分资料进行抽样检验，用以推断全
部调查资料的准确程度，并修正调查结果的方法。

3.不满意问卷的处理方法
首先区分一下无效问卷和不满意的问卷。

无效问卷包括:
①所回收的问卷是不完整的，如缺页或多页；大面积无回答、相当多问题无回答、几个部分无回答、只有开头部分回答等应视为无效问卷；但个别问题无回答或同一个问题相当多问卷无回答则可以作为有效问卷；
②调查对象不符合要求的;
③明显错误的回答：前后不一致的回答、答非所问、不必回答的问题回答了;
④答案选择高度一致。

调查对象回答的差异性不大，例全部答案选一个数，3或7；
⑤问卷是在事先规定的截止日期以后回收的.
无效问卷去除.
不满意的问卷包括:模糊不清的；前后不一致或有明显错误的；模棱两可的；不符合作答要求的。

关于缺失数据的处理:
数据小量的缺失回答是可以容忍的，但如果缺失值的比例超过了10％，就可能出现严重的问题，因此对缺失值要做适当处理。

缺失值的处理方法主要有四种：
①用一个样本统计量的值去代替缺失值。

最典型的做法是使用变量的平均值。

例如对一个没有回答其收入的被访者，用该被访者所在的子样本的平均收入去替代。

②用从一个统计模型计算出来的值去代替缺失值。

根据某些数据我们可以建立一种统计模型，如,“产品使用程度”可能与“家庭规模”、“家庭收入”相关，利用回答了这三个问题的被访者数据可以构造一个回归方程，而对于某个没有回答“产品使用程度"的被访者，只要其“家庭规模”、“家庭收入”已知，就可以通过该方程计算出其值.
③将有缺失值的个案整个删除.
④将有缺失值的个案保留，仅在相应的分析中作必要的排除。

—-常用方法。

6。

1。

3数据的编码和录入
1。

编码方式
编码就是用阿拉伯数字代替问题的的每一个答案，或者说是将问卷中的答案转换成数字的过程，便于录入和整理分析.
编码可以在设计问卷时进行，叫前编码，也可以在资料收集结束以后进行,叫后编码。

前编码一般针对答案类别事先已知的问题，在问卷设计的同时设计编码表（可归入问卷设计中），主要应用于封闭题和数字型开放题。

后编码一般针对答案类别事先无法确定的问题,在数据收集完成后，根据被调查者的回答设计编码表，主要应用于对开放式问题和封闭式问题的“其他”。

2。

编码的具体方法
一般说来编码的具体方法是:以答案的顺序编码或者以答案本身的数字编码，对于无回答的要编特别号码。

前编码举例：
对于这类问题，首先要编制编码明细表。

以例说明如何编制编码明细表。

（1）单选题
对单选题只需用一个变量,变量的值为选项号.
例：请问您乘坐的舱位是:
1．头等舱2．公务舱3．经济舱
对该题可编码为:其中1-头等舱，2—公务舱，3-经济舱,9—无回答。

（2）多选题
0-1指示变量，如被调查者选择了该答案,此变量的值为1，否则为0。

您选择本次航班的原因？（可以选择多项）
1．安全有保障2．航班时刻适当3．服务好………………
10．其他□请详细说明
对该题可编码为:1-是原因，0-不是原因
后编码举例:
后编码一般是对开放式问题和封闭式问题的“其他"。

其步骤为：
①列出答案：读取每个开放式问题的回答
问题：为什么你喜欢喝A品牌的啤酒?
回答实例:
1、因为它口味好.
2、它具有最好的味道. 口感因素
3、我喜欢它的口味。

4、我不喜欢其他啤酒太重的口味。

5、它最便宜。

价格因素
6、我买任何打折的啤酒，它大部分时间都打折。

7、它不像其他牌子的啤酒那样使我的胃不舒服。

8、其他牌子的啤酒使我头痛，但这种不会。

没有不适感
9、我总是选择这个品牌.
10、我已经喝了20多年了。

习惯
11、它是大多数同事喝的品牌。

12、我的所有朋友都喝它. 朋友的影响
13、这是我妻子在食品店中买的牌子。

14、这是我妻子/丈夫最喜欢喝的牌子. 喜欢
15、我没有想过。

16、不知道。

不知道或没有原因
17、没有特殊原因。

②合并答案：找出与该回答相符的答案合并类别
③设置编码：确定该类别的数字编码
回答类别描述上表的回答分配的数字编码
口味好/喜欢味道1,2,3，4 1
/比其他味道好
低/较低价格5，6 2
不会引起头疼、胃不适7，8 3
长时间喝，习惯9，10 4
朋友喝/受朋友影响11，12 5
妻子/丈夫喝/买13，14 6
不知道15，16，17 7
其他8
对含义相距甚远或频数较少的答案并入“其他”项，给予编码如“8”
④选定编码：在调查表的适当地方,注明每个回答的数字编码。

例：
为什么你喜欢喝A牌啤酒？
因为它更便宜. 2
3。

编码手册的制作
编码手册：编码结束后，形成编码手册,便于查询
包括编码手册的结构代码所在的位置、变量的名称及变量说明和编码说明。

4。

数据录入一般是由数据录入员根据编码的规则（编码明细单)将数据从调查问卷上直接录入到计算机数据录入软件系统中，系统会自动进行记录和存储。

5.查错与核对
双机分别录入
部分复查
一致性查错与逻辑查错,运用事先设计的计算机逻辑错误检查程序进行检查，以防止录入的逻辑错误的产生.
可以通过录入软件对编码范围、变量之间的逻辑关系加以控制，减少输入差错
手工汇总技术
(1)问卷分类法。

将全部问卷按照问项设计的顺序和分组处理的要求，依次对问项答案进行问卷分类，分别清点有关问卷的份数，就可得到各个问题答案的选答次数。

(2)折叠法。

将全部调查问卷中的同一问项及答案折叠起来,并一张一张地叠在一起，用别针或回形针别好，然后计点各个答案选择的次数，填入事先设计的分组表内。

（3）划记法。

事先设计好空白的分组统计表，然后对所有问卷中的相同问项的不同答案一份一份地进行查看，并用划记法划记（常用“正"),全部问卷查看与划记完毕，即可统计出相同问项下的不同答案的次数，最后过录到正式的分组统计表上。

（4)卡片法.利用摘录卡做为记录工具,对开放式问题的回答或深层访谈的回答进行过录或记录，然后再依据这些卡片进行“意见归纳处理”。

6.1。

4 数据的分组
1。

分组的含义和目的
分组的含义是指根据市场调查的目的、要求,按照一定的标志，把调查数据分成不同的组成部分。

分组的目的在于反映各组事物的数量特征，考察总体内部各组事物的构成状况,研究各个组成部分的相互关系等。

(1）可以找出总体内部各个部分之间的差异。

如产业结构划分为第一产业、第二产业、第三产业，不同产业包括的部门是各不相同的。

（2）可以深入了解现象总体的内部结构.如
我国三次产业分类的从业人员构成情况单位(％）
说明了随着经济的发展,第一产业就业的人越来越少。

（3)可以显示社会现象之间的依存关系。

某地区粮食单位面积产量和施肥量的关系
说明了粮食单位面积产量和施肥量的关系。

2。

分组标志
分组标志的选择标志指反映事物属性或特征的名称。

要根据调研目的、事物本质、事物所处的具体历史条件和现实条件来分组。

3。

分组类型
根据分组标志的数量有：简单分组和复合分组两类.
根据所使用分组标志的性质有：品质标志分组和数量标志分组.
质量标志：反映事物属性的标志.（性别、职业）品质属性分布数列是以被调查者的职业、所属行业、性别、文化程度、职业等品质属性和定性测评调查项目作为分组标志，对其本身的不同选项进行分组处理而形成的简单的品质数列。

数量标志：揭示总体内部的数量差异。

（收入、年龄等）数量属性分布数列是以被调查者的年龄、收入、消费支出、家庭人口、就业人口等数量属性，以及调查主体项目中的具有数量属性的调查项目作为分组标志（数量标志或变量)，对这些变量的不同取值进行分组而形成的变量数列。

4.分组的步骤
选择分组标志,将数据以此标志排序（从小到大）；
确定组数、组距、组限等；
注意:各组间要体现某种质的不同,例如学生按成绩分组，那么60分以下和60分以上不要分在一组；再如人口按年龄分组，要考虑婴儿、儿童、少年、青年等对应年龄等5。

分组举例
（1）按质量标志分组
表某市居民家庭空调拥有量品牌分布
（2）按数量属性分组。

是以被调查者的年龄、收入、消费支出、家庭人口、就业人口等数量属性作为分组标志形成的变量数列。

有如下两种形式:
①单项式变量数列。

适应于离散型变量(如家庭人口、就业人口、耐用品拥有量、需求
量等）的分组处理，即直接以变量的不同取值作组别而编制的变量数列。

如表。

表某市居民家庭空调拥有台数分布
②组距式变量数列.适应于连续变量（如年龄、收入、消费支出等）的分组处理，即以变量的不同取值区间作为分组的组别而编制的变量数列，如表
表某市居民家庭人均年收入分布
（3)简单分组处理
是指对总体各单位或样本各单位只按一个标志或标准进行分组处理。

(4）复合分组
交叉分组就是典型的复合分。

交叉分组处理是对总体各单位或样本各单位采用两个或两个以上的标志或调查项目进行交叉分组，所编制的数列一般表现为相关分组数列或复合分组数列。

在使用交叉列表时，其中的变量(标志或调查项目)选择和确定是一个关键问题，它关系到分析结果是否正确。

选择交叉列表中的变量，包括其内容和数量，应根据调查项目的特点来考虑.
例：某保险公司对影响保险户开车事故率的因素进行调查，并对各种因素进行了分析，从表—1可以看出有61%的保险户在开车过程中从未出现过事故。

表—1驾车者的事故率
然后，在性别分析基础上分解这个信息，判断男女之间是否有差别。

这就出现了表—2
表—2男女驾车者的事故率
这个表的结果令男士懊恼，因为他们的事故率高。

但人们会提出疑问而否定上述判断的正确性，即男士的事故多，是否因为他们驾驶的路程较长.这样就引入第三个因素“驾驶距离”，见表—3
表-3不同驾驶距离下的事故率
此表表明，男驾驶者的高事故率是由于他们的驾驶距离比女驾驶者的长，结果证明事故率只跟驾驶的距离成正比而与驾驶者的性别无关。

6。

1.5 数据的汇总
汇总含义：
即分组之后，将分组的各项数值加以计算，计算各组的数据个数、和总体的数据个数，以及有关的加总求和、平均数以及各类比值等。

实际就是一统计表。

次数或频数：指变量为某一取值的个数。

频率即某一取值的数据个数与总体数据之比.常用比例或百分数来表示。

次数分布：是将总体中的所有单位按某个标志分组后，所形成的总体单位数在组之间的分布。

分布在各组的总体单位数叫次数或频数。

各组次数与总次数之比叫做比重、比率或频
率。

次数分布实质：是反映统计总体中所有单位在各组的分布状态和分布特征的一个数列,也可以称做次数分配数列，简称分布数列。

6。

1.6 数据的展示
1。

统计表
统计表是以纵横交叉的线条所绘制表格来陈示数据的一种形式。

用统计表陈示数据资料有两大优点：一是能有条理地、系统地排列数据,使人们阅读时一目了然,印象深刻，二是能合理地、科学地组织数据，便于人们阅读时对照比较。

统计表从形式上看，是由总标题、横行标题、纵栏标题、指标数值四个部分构成。

如表所示。

统计表从形式上看，由总标题、横行标题、纵栏标题和指标数值几部分构成：
总标题：统计表的名称，概括统计表的内容,写在表的上端中部。

横行标题：横行的名称，即各组的名称，写在表的左方。

纵栏标题：纵栏的名称，即指标或变量的名称，写在表的上方.
指标数值:列在横行标题和纵栏标题交叉对应处。

统计表从内容上看，由主词或宾词两大部分构成。

主词是统计表所要说明的总体的各个构成部分或组别的名称，列在横行标题的位置。

宾词是统计表所要说明的统计指标或变量的名称和数值，宾词中的指标名称列在纵栏标题的位置.有时为了编排的合理和使用的方便，主词和宾词的位置可以互换。

注意事项:
规范的统计表的绘制要求
总标题包含时间、空间、内容，简洁明了;
左右开口，上下横线加粗；
数字单位一致，单位放行标题；列数字单位一致,单位放列标题，不一致时添加单位列;全部一致，放表上或总标题后；
设置合计行或列;
数字区域不应有空,不该有内容的单元格用“—”填列等
2.统计图
统计图是以圆点的多少、直线长短、曲线起伏、条形长短、柱状高低、圆饼面积、体积大小、实物形象大小或多少、地图分布等图形来陈示调研数据。

用统计图陈示调研数据具有“一图抵千字”的表达效果，因为图形能给人以深刻而明确的印象，能揭示现象发展变化的结构、趋势、相互关系和变化规律、便利表达、宣传、讲演、广告和辅助统计分析。

但统计图能包含的统计项目较少，且只能显示出调查数据的概数，故统计图常配合统计表、市场调研报告使用。

统计图由图号、图题、图形、图目、图尺和图注等部分组成.
注意事项：
一、每张图都要有号码和标题,标题要简明扼要
二、图标说明要简洁
三、图形清楚简明
四、是作图时最好既使用颜色,又使用文字说明，颜色的选择要有逻辑性,突出重要的部分
五、一般应说明数据的来源
常用的统计图有下列几种：
①条形图、直方图。

条形图和直方图大都是用来表现频数分布的。

但两者适用的数据类型不同.条形图是使用等宽条形的长短或高度来表示数据的多少的图形。

直方图是用一定宽度与长度所围成的矩形面积来表示数据大小的图形.矩形的宽度与高度均有意义。

此外，还可根据累积频数或累积频率，绘制累积频数及累积频率分布图。

②饼型图、环形图。

饼型图及环型图是来描述各种比例的图形。

饼型图是用圆内扇形的面积表示数值大小的图形.以圆为整体，形象的说明各部分在总体中所占的份额.环形图是用圆内各环中每一段的面积来表示数值的大小的图形。

能够同时显示多个总体的内部结构.
③线图。

线图，是反映时间序列数据的图形，即在平面坐标上标注各数据点并连接成折线，表现数量变化规律及特点的统计图。

其横轴上列示时间的先后次序，纵轴上列示变量值。

6.1。

7 用EXCEL 对资料进行整理
一般有以下步骤：
步骤1 在Excel 中录入原始数据降
毫米）
图8
步骤2 构建样本的频数分布
步骤3 构建样本的频率分布
步骤4 图形列示
6.2调查资料的分析
6。

2。

1数据的描述统计分析
1、集中趋势指标
集中趋势就是人们常说的“平均值”。

通过计算一个典型值来集中反映一系列变量的一般水平，这个典型值就叫集中趋势统计量。

表示一组数据的中心位置的数据点在什么地方数据分布趋向集中于一个分布中心。

其表现是中心附近变量值次数较多，而距中心较远的变量值次数较少。

集中趋势统计量按处理方法不同可分为几类,主要包括众数、中位数、平均数。

（1)平均数：一组数据值的总和除以个数所得的数值。

平均值=总体标志总量/总体单位总数
1
4
这里的平均值为9.2万元。

（2）中位数：位置居中的数值。

按大小顺序排列，处在一组数据中央位置的数值。

用于定序层次。

由于其位置居中,不受极端数值大小的影响，因而有时用它来代表现象的一般水平
例：有9个人，他们的月工资水平分别如下:470,420，500，510，920，1120，710,830，1080,以上数据中哪一个数据最能代表一般水平呢?
A、作排列处理，从小到大排列：
420，470，500，510，710，830，920，1080，1120
B、求中央位置:
C、求中位值：第五位数对应值为710。

（3）众数：出现次数最多的数值。

在众多数值中，出现次数最多的一个标志值或变量值。

用于定类层次。

由于这种变量值出现的次数最多,在总体中占有重要地位，因此有时用它来表明现象的一般水平。

例要掌握某商品的价格水平，不一定进行普查，只利用市场上最普遍的成交价格作为一般价格水平即可。

例：2，3,5，5,5，6，6，7，9
出现次数最多的是5，即在该列数据中，5是最能代表一般水平的，因此众数=5
以上两种平均水平不是数值平均数，而是位置平均数。

它们不是根据总体的全部变量值计算的,而是根据其在总体中的位置或地位来确定的。

2、离中趋势指标
集中趋势是资料中各个变量值与集中趋势值的偏差程度的数值，用来反映数据之间的差异程度。

离散量越大，表示变量值与集中统计量的偏差越大，这组变量越分散，这时用集中统计量作估计或预测，所出现的误差也越大，反之亦然。

离散量数分析是集中趋势分析的补充说明.
离中趋势通常由全距、平均差、平均差系数、标准差、标准差系数等来表示.
（1)全距：是所有标志值中最大值与最小值之差。

全距是表明总体变量值变动范围的指标。

全距越大，说明变动幅度越大，集中趋势的代表性越差
例：例：假定某车间两组工人的月工资水平如下：
甲组：800，900,1000，1100，1200
乙组：900，950,1000，1050，1100
如果集中趋势用算术平均数来表示，两者均为1000，但甲组中全距为400，而乙组中全距为300，因此乙组对总体的代表性更强。

（2)平均差：即平均离差，是将离差数值的总和除以离差的项数。

用表示
= 或：＝
平均离差越大，反映各单位标志值的离散程度越大，集中趋势的统计量代表性越小；平均差越小，反映离散程度越小，集中趋势的统计量代表性越大。

仍以上题的数据为例，
甲组：平均差=600/5=120
乙组:平均差=300/5=60
结论：乙组代表性强于甲组。

（3)标准差：即均方差或均方根，是各个离差平方的算术平均数的平方根。

标准差是测定标志变异程度最常用的综合指标。

它的涵义和平均差基本相同,也是各个标志值对其算术平均数的平均离差，但在数学处理上有所不同。

平均差利用绝对值来消除离差的正负号，标准差利用平方来消除离差的正负号.比较起来,标准差在数学处理上比平均差优越。

故测定总体各单位数量标志值的平均离差，通常以它为标准。

公式:
6.2.2数据的相关分析
1、变量之间的关系
相关：变量之间的相互关系.但单讲相互关系还不能刻画相关的本质含义，因为变量之间、现象之间的关系有两种不同的类型
(1）函数关系，即确定性关系。

当一种现象（一个数值）的数量确定之后，另一种现象(另一个数值）也随之完全确定。

例如圆的面积和它的半径之间的关系。

其基本公式为：（2)相关关系，即变量之间的关系并不确定。

一个现象的数量确定了，而另一个现象的变量还可能在一定范围内存在变化，并不随之完全确定.例如广告投入和销售额之间的关系，其基本公式为
2、统计相关分析的具体任务
（1)确定现象的变量之间是否存在相关关系，并且找出适合的数学表达式。

例如计算中的值，建立数学模型
（2）测定现象之间相关的密切程度
为此需计算相关系数进行相关检验，检验(显著性检验）（模型与变量之间相关关系的检验）等
(3)研究相关关系中哪些是主要因素,哪些是次要因素，这些因素之间的关系如何
为此需进行显著水平检验，例如检验主要是对参数进行检验，检验在某一显著水平上是否为0。

其实质是检验是否对有显著的相关关系影响。

【课程小结】
调查资料整理就是根据分析研究的需要,运用科学的方法对市场调查所获得的各种原始资料进行审核、分组、汇总、展示，或对二手资料进行再加工,使其集中化、条理化、系统化的活动或过程.它是进行资料分析的前提,可以大大提高调查资料的使用价值,是保存调查资料的客观要求。

调查资料整理的程序依次是审核、编码和录入、分组、汇总和展示。

对问卷资料的审核在两个层次上进行，第一个层次审核问卷的真实性，第二个层次审核问卷的准确性和完整性。

从而使问卷的审核分为两个阶段,实地审核和集中审核。

实地审核。