第六讲 调查资料的整理与分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复查审核的目的:确保每份要送去进行数据录入分析的调查资 料都是有效的(完整性和准确性),其标准是看调查是否按规 定的方式进行。 复查一般按一定的比例抽选、通过电话进行。
审核内容主要包括:
查实此人是否真正接受了调查 查实受访者是否符合过滤条件
查实调查是否按规定的方式进行
查实问卷回答内容是否完整 核查其他方面的问题
正是由于他们重视对调查资料的整理、分析和利用, 才使得杜邦公司200年兴盛不衰。
3
调查资料的整理
调查资料的整理(数据的预处理)是调查 结果分析的基础。 主要工作任务:
预编码 审核与编辑 分类和汇总 表格化和图示化
4
资料整理的步骤和内容
①设计和编制资料整理方案。这是保证统计资料的整理有计 划、有组织地进行的重要一步。资料的整理往往不是整理一 个或两个指标,而是整理多个有联系的指标所组成的指标体 系。 ②对原始资料进行审核。资料的审核是第一步,为了保证质 量必须进行严格的审核。 ③综合汇总表的项目,对原始资料进行分组、汇总和计算是 关键。 ④对整理好的资料在进行一次审核,然后编制成一个统计表, 以表示社会经济现象在数量上的联系。
合计
100
26
集中趋势分析
所谓集中趋势分析,指的是用一个典型值或 代表值来反映一组数据的一般水平,或向这 个典型值集中的情况。 平均数 最常见的集中趋势统计量 众数 中位数
27
平均数(算术平均数)用总体各单位数值 之和除以总体单位总数的商。平均数又称为均 值或均数。
计算公式及应用举例
由原始数据计算平 均数。设总体单位总 数为n,总体各单位 的数值为xi(i=1, 2, … , n),则计算公 式为:
5
审查内容 :
(1)资料的审核必须 遵守资料整理的一 般要求,着重资料 的真实性、准确性、 完整性。
1)资料的真实性 调查资料来源的客观性问题,来源必须 是客观的。调查资料本身的真实性问题,要 辨别出资料的真伪,把那些违背常理的、前 后矛盾的资料舍去。 2)资料的准确性。 准确的审核要着重检查那些含糊不清的、 笼笼统统的以及互相矛盾的资料。 3)资料的完整性。
这10名工人的工龄与工资是否相关?可通过 n XY ( X ).( Y ) 定量计算说明,称为相关系数。计算公式为: r (n X 2 ( X ) 2 ).(n Y 2 ( Y ) 2 )
34
即相关系数r是表明两个定距或定比变量间关系程度 的量数,其取值范围在-1到+1之间。 当 r为负值时,说明变量 X与变量Y的变化方向相反。 即当X增大时,Y减少;X减少时,Y增大。 当 r为正值时,说明两变量的变化方向相同。 |r|=1时,称 X与 Y完全相关; r= 0时,则称二者 完全不相关。 越接近|r|= 1,说明关系强度越大,越接近0,则说 明关系强度越小。 上一例子中, r =0.986,有较强的正相关关系。
29
某校三个系各选5名同学,参加智力竞赛,他 们的成绩分别如下: 中文系: 78 79 80 81 82 X=80 数学系: 65 72 80 88 95 X=80 政治系: 35 78 89 98 100 X=80 如果仅以集中趋势统计量(平均数)来衡量, 那么,三个系代表队的水平一样高,不存在什么 差别。但从直观上我们不难发现,三个代表队中 五名队员的成绩相互之间的差跟程度(离散程度) 很不一样。中文系成绩十分接近;数学系成绩比 较分散;而政治系队成绩则相差十分悬殊。不难 理解,这个80分对中文系队同学的代表性最高, 而对政治系队同学的代表性最低。
撰 写 调 研 报 告
23
统 计 分 析 的 内 容
描述统计
用最简单的概括形式 反映出大量数据资料 离散趋势分析 基本方法 所容纳的基本信息 相关分析
集中趋势分析
回归分析 从样本调查中所得 的数据资料来推断 基本内容 区间估计 总体的情况 假设检验
推论统计
24
频数分布与频率分布
某班有25名学生,其年龄情况如下:
35
回归分析
相关分析的目的在于了解两个变量之间的关系强度,即用
相关系数r来描述X和Y两个变量之间的共变特征。它并不指出X 和Y哪个是原因,哪个是结果.
回归分析则是对有相关关系的现象,根据其关系的形 态找出一个合适的数学模型,即建立回归方程,来近似地表 达变量间的平均变化关系,以使依据回归方程对未知的情况 进行估计。
即回归分析增加了因果性,并具有了预测的功能, 因此,它比相关分析作用更大。
36
回归分析的中心问题是建立回归方程,一元线性回归 方程的建立使用最小二乘法。 首先,依据理论分析或根据研究的需要确定两变量 中何为自变量,何为因变量。在本例中,我们确定工 龄为自变量(X),工资为因变量(Y)。 其次,以自变量为X轴,因变量为Y轴作出表中资料 的散点图,以判明是否为线性相关。 给一组数据(X,Y),称为样本数据。 计算公式:设y=a+bx
第六讲
调查资料的整理与分析
1
案例:杜邦公司的“市场嘹望哨”
杜邦公司创办于1802年,是世界上著名的大企 业之一。经过近200年的发展,杜邦公司今天所经营 的产品包括:化纤、医药、石油、汽车制造、煤矿 开采、工业化学制品、油漆、炸药、印刷设备,近 年来又涉足电子行业,其销售产品达1800种之多, 多年的研究开发经费达10亿美元以上,研究出1000 种以上的新奇化合物——等于每天有2件至3件新产 品问世,而且每一个月至少从新开发的众多产品中 选出一种产品使之商业化。 杜邦公司兴盛200年的一个重要原因,就是围 绕市场开发产品,并且在世界上最早设立了市场环 境“嘹望哨”—经济研究室。成立于1935年的杜邦 公司经济研究室,由受过专门培训的经济学家组成,
30
离散趋势的各种统计量,一方面揭示出数 据相互分离的程度;另一方面又对相应的集中 趋势统计量的代表性作出判断。
结 论
集中趋势统计量的代表性与所对应的离 散趋势统计量是反比关系,即离散趋势统计 量越大,则所对应的集中趋势统计量的代表 性就越小;反之,则越大。
31
标准差
标准差的定义是:一组数据对其平均数的偏差平方 的算术平均数的平方根。它是用得最多、也是最重要的 离散趋势统计量。通常用符号S来表示,其计算公式根 据资料的形式不同而稍有差别。
电子计算机汇总
10
资料的表格化——统计图
统计表的结构
按统计表的形式分:总标题、横行标题、纵栏标题
和数字资料四部分组成。此外,必要时在统计表的
下方加上表外附加;
按统计表的内容分:主词和宾词两部分组成。 统计表的形式 单向频数表 交叉分组表
11
单向频数表
品牌知名度的频率分布
变量等级 取值 频数 频率% 有效频率% 有效累计频率%
柱形图和条形图
线性图 饼状图
散点图
雷达图
14
柱形图
15
柱形图
16
柱形图
17
条形图
18
线性图
19
园形图
20
饼形图
21
散点图
22
市场调查资料分析的程序
明 确 调 研 问 题
界 定 分 析 内 容
提 取 数 据
选 择 分 析 方 法
对 比 研 究
概 括 结 论
综 合 集 成
b n XY X Y n X ( X )
2 2
a y bx
3别 驾驶距离 无事故 男,% >1万公里 51 <1万公里 73 女,% >1万公里 50 <1万公里 73
至少有一 次事故
样本总数, 人
49
7170
27
2150
50
2430
27
6050
13
资料的图示化
统计图是在统计表的基础上,用几何图形或实物图形把数字资 料形象地再现出来,以达到醒目、美观、突出线索或特点,易 于接受和理解的效果。 常用统计图的种类
所谓频 数分布,就 是指一组数 据中取不同 值的个案的 次数分布情 况,它一般 以频数表的 形式表达。
20, 19,18, 19,18,20, 21, 17, 18, 18, 19, 19, 20,19,19, 17, 18, 20, 19, 19,21,21,19, 20, 19。
该 班 例如 学 生 的 年 龄 分 布 表 年龄 (
17 18 19 20 21
岁
)
学生人数
2 5 10 5 3
合计
25
25
所谓频率分布,则是指一组数据中不同取 值的频数相对于总数的比率分布情况,这种比 率通常以百分比的形式表达,而频率分布情况 同样以频率表的形式出现。 某班学生的年龄分布 频率分布表除具备频数分布表的优点外, 年龄 ( 岁 ) 百分比 还能反映各类所占的比重,便于不同总体或 17 8 不同类别之间的比较。这种分布的应用更为 18 20 普遍。 19 40 例 20 20 如 21 12
不熟悉
不太熟悉 有点了解 了解 熟悉
1
2 3 4 5
36
41 52 43 36
13.3
15.2 19.2 15.8 13.3
13.3
15.2 19.3 15.9 13.3
13.3
28.5 47.8 63.7 70.0
非常熟悉
6
9 总计
62
1 271
22.9
0.4 100.0
23.0
缺失 100.0
100.0
X
x
1
n
i
n
28
离散趋势分析
离散趋势(又称离中趋势)分析指的是用一 个特定的数值来反映一组数据相互之间的离散程 度。 作用:它与集中趋势一起,分别从两个不同的 侧面描述和揭示一组数据的分布状况,共同反 映出资料分布的全面特征;同时,它还对集中 趋势的统计量(如平均数、众数、中位数)的 代表性作出补充说明。
公式
S
(x
1
n
i
X)
2
n
32
相关与回归
交互分类主要处理的是定类(或定序)变 量间的关系问题,对于定距及定比变量来说,
则有另一些方法来探讨。
这里主要简单介绍一下相关系数的计算方
法及一元线性回归模型。
33
相关系数
例子:调查10名工人的工龄与工资情况如下表:
序号 工龄(年) 2 3 5 8 10 12 15 18 20 22 工资(元) 80 80 90 100 120 120 140 160 180 200
7
资料的编辑整理 编辑整理的目的:对调查人员和受访者的 疏忽、遗漏、错误进行检查。
编辑整理的方式
调查人员的自行编辑整理 质量监督部门的再次编辑整理
编辑整理过程中查验的主要问题
调查单位是否有遗漏 调查的项目是否齐全 调查数据是否符合逻辑
8
资料的编码与录入
编码是指对一个问题的不同答案确定相应数字代码的 过程,以便于数据的分组与后期分析。 编码的具体方法
2
案例:杜邦公司的“市场嘹望哨”
除了向总公司领导及有关业务部门做专题报告及口 头报告,解答问题外,经济研究室还每月整理出版两份 刊物。一份发给公司的主要供应厂家和客户,报道有关 信息和资料;另一份是内部发行,根据内部经营全貌分 析存在的问题,提出解决措施,研究短期和长期的战略 规划、市场需求量,以及同竞争对手之间的比较性资料。 另外每季度还会整理出版一期《经济展望》供总公司领 导机构和各部门经理在进行经营决策时参考。
(2)审核应注意的问题
在审核中,如发现问题可以分不同的情况予以处理: 1)对于在调查中已发现并经过认真核实后确认的错 误,可以由调查者代为更正。 2)对于资料中可疑之处或有错误与出入的地方,应 进行补充调查。 3)无法进行补充调查的应坚决剔除那些有错误的资 料,以保证资料的真实准确。
6
资料的复查审核
问卷的预编码 审核整理后的录入编码
录入的方式
直接录入
程序录入 光电扫描录入
9
资料的分类与汇总
资料的分类(分组)是在对资料进行预处理的基础上, 根据调查研究的需要,按照某种标志将研究总体划分 为若干个组成部分。 汇总计算是在对资料进行分组的基础上,将调查数据 逐个分配到不同的组内,并计算出各组的单位数及各 组单位数占总体单位数的比重,进而研究现象的分布 特征。 汇总的方法 手工汇总
审核内容主要包括:
查实此人是否真正接受了调查 查实受访者是否符合过滤条件
查实调查是否按规定的方式进行
查实问卷回答内容是否完整 核查其他方面的问题
正是由于他们重视对调查资料的整理、分析和利用, 才使得杜邦公司200年兴盛不衰。
3
调查资料的整理
调查资料的整理(数据的预处理)是调查 结果分析的基础。 主要工作任务:
预编码 审核与编辑 分类和汇总 表格化和图示化
4
资料整理的步骤和内容
①设计和编制资料整理方案。这是保证统计资料的整理有计 划、有组织地进行的重要一步。资料的整理往往不是整理一 个或两个指标,而是整理多个有联系的指标所组成的指标体 系。 ②对原始资料进行审核。资料的审核是第一步,为了保证质 量必须进行严格的审核。 ③综合汇总表的项目,对原始资料进行分组、汇总和计算是 关键。 ④对整理好的资料在进行一次审核,然后编制成一个统计表, 以表示社会经济现象在数量上的联系。
合计
100
26
集中趋势分析
所谓集中趋势分析,指的是用一个典型值或 代表值来反映一组数据的一般水平,或向这 个典型值集中的情况。 平均数 最常见的集中趋势统计量 众数 中位数
27
平均数(算术平均数)用总体各单位数值 之和除以总体单位总数的商。平均数又称为均 值或均数。
计算公式及应用举例
由原始数据计算平 均数。设总体单位总 数为n,总体各单位 的数值为xi(i=1, 2, … , n),则计算公 式为:
5
审查内容 :
(1)资料的审核必须 遵守资料整理的一 般要求,着重资料 的真实性、准确性、 完整性。
1)资料的真实性 调查资料来源的客观性问题,来源必须 是客观的。调查资料本身的真实性问题,要 辨别出资料的真伪,把那些违背常理的、前 后矛盾的资料舍去。 2)资料的准确性。 准确的审核要着重检查那些含糊不清的、 笼笼统统的以及互相矛盾的资料。 3)资料的完整性。
这10名工人的工龄与工资是否相关?可通过 n XY ( X ).( Y ) 定量计算说明,称为相关系数。计算公式为: r (n X 2 ( X ) 2 ).(n Y 2 ( Y ) 2 )
34
即相关系数r是表明两个定距或定比变量间关系程度 的量数,其取值范围在-1到+1之间。 当 r为负值时,说明变量 X与变量Y的变化方向相反。 即当X增大时,Y减少;X减少时,Y增大。 当 r为正值时,说明两变量的变化方向相同。 |r|=1时,称 X与 Y完全相关; r= 0时,则称二者 完全不相关。 越接近|r|= 1,说明关系强度越大,越接近0,则说 明关系强度越小。 上一例子中, r =0.986,有较强的正相关关系。
29
某校三个系各选5名同学,参加智力竞赛,他 们的成绩分别如下: 中文系: 78 79 80 81 82 X=80 数学系: 65 72 80 88 95 X=80 政治系: 35 78 89 98 100 X=80 如果仅以集中趋势统计量(平均数)来衡量, 那么,三个系代表队的水平一样高,不存在什么 差别。但从直观上我们不难发现,三个代表队中 五名队员的成绩相互之间的差跟程度(离散程度) 很不一样。中文系成绩十分接近;数学系成绩比 较分散;而政治系队成绩则相差十分悬殊。不难 理解,这个80分对中文系队同学的代表性最高, 而对政治系队同学的代表性最低。
撰 写 调 研 报 告
23
统 计 分 析 的 内 容
描述统计
用最简单的概括形式 反映出大量数据资料 离散趋势分析 基本方法 所容纳的基本信息 相关分析
集中趋势分析
回归分析 从样本调查中所得 的数据资料来推断 基本内容 区间估计 总体的情况 假设检验
推论统计
24
频数分布与频率分布
某班有25名学生,其年龄情况如下:
35
回归分析
相关分析的目的在于了解两个变量之间的关系强度,即用
相关系数r来描述X和Y两个变量之间的共变特征。它并不指出X 和Y哪个是原因,哪个是结果.
回归分析则是对有相关关系的现象,根据其关系的形 态找出一个合适的数学模型,即建立回归方程,来近似地表 达变量间的平均变化关系,以使依据回归方程对未知的情况 进行估计。
即回归分析增加了因果性,并具有了预测的功能, 因此,它比相关分析作用更大。
36
回归分析的中心问题是建立回归方程,一元线性回归 方程的建立使用最小二乘法。 首先,依据理论分析或根据研究的需要确定两变量 中何为自变量,何为因变量。在本例中,我们确定工 龄为自变量(X),工资为因变量(Y)。 其次,以自变量为X轴,因变量为Y轴作出表中资料 的散点图,以判明是否为线性相关。 给一组数据(X,Y),称为样本数据。 计算公式:设y=a+bx
第六讲
调查资料的整理与分析
1
案例:杜邦公司的“市场嘹望哨”
杜邦公司创办于1802年,是世界上著名的大企 业之一。经过近200年的发展,杜邦公司今天所经营 的产品包括:化纤、医药、石油、汽车制造、煤矿 开采、工业化学制品、油漆、炸药、印刷设备,近 年来又涉足电子行业,其销售产品达1800种之多, 多年的研究开发经费达10亿美元以上,研究出1000 种以上的新奇化合物——等于每天有2件至3件新产 品问世,而且每一个月至少从新开发的众多产品中 选出一种产品使之商业化。 杜邦公司兴盛200年的一个重要原因,就是围 绕市场开发产品,并且在世界上最早设立了市场环 境“嘹望哨”—经济研究室。成立于1935年的杜邦 公司经济研究室,由受过专门培训的经济学家组成,
30
离散趋势的各种统计量,一方面揭示出数 据相互分离的程度;另一方面又对相应的集中 趋势统计量的代表性作出判断。
结 论
集中趋势统计量的代表性与所对应的离 散趋势统计量是反比关系,即离散趋势统计 量越大,则所对应的集中趋势统计量的代表 性就越小;反之,则越大。
31
标准差
标准差的定义是:一组数据对其平均数的偏差平方 的算术平均数的平方根。它是用得最多、也是最重要的 离散趋势统计量。通常用符号S来表示,其计算公式根 据资料的形式不同而稍有差别。
电子计算机汇总
10
资料的表格化——统计图
统计表的结构
按统计表的形式分:总标题、横行标题、纵栏标题
和数字资料四部分组成。此外,必要时在统计表的
下方加上表外附加;
按统计表的内容分:主词和宾词两部分组成。 统计表的形式 单向频数表 交叉分组表
11
单向频数表
品牌知名度的频率分布
变量等级 取值 频数 频率% 有效频率% 有效累计频率%
柱形图和条形图
线性图 饼状图
散点图
雷达图
14
柱形图
15
柱形图
16
柱形图
17
条形图
18
线性图
19
园形图
20
饼形图
21
散点图
22
市场调查资料分析的程序
明 确 调 研 问 题
界 定 分 析 内 容
提 取 数 据
选 择 分 析 方 法
对 比 研 究
概 括 结 论
综 合 集 成
b n XY X Y n X ( X )
2 2
a y bx
3别 驾驶距离 无事故 男,% >1万公里 51 <1万公里 73 女,% >1万公里 50 <1万公里 73
至少有一 次事故
样本总数, 人
49
7170
27
2150
50
2430
27
6050
13
资料的图示化
统计图是在统计表的基础上,用几何图形或实物图形把数字资 料形象地再现出来,以达到醒目、美观、突出线索或特点,易 于接受和理解的效果。 常用统计图的种类
所谓频 数分布,就 是指一组数 据中取不同 值的个案的 次数分布情 况,它一般 以频数表的 形式表达。
20, 19,18, 19,18,20, 21, 17, 18, 18, 19, 19, 20,19,19, 17, 18, 20, 19, 19,21,21,19, 20, 19。
该 班 例如 学 生 的 年 龄 分 布 表 年龄 (
17 18 19 20 21
岁
)
学生人数
2 5 10 5 3
合计
25
25
所谓频率分布,则是指一组数据中不同取 值的频数相对于总数的比率分布情况,这种比 率通常以百分比的形式表达,而频率分布情况 同样以频率表的形式出现。 某班学生的年龄分布 频率分布表除具备频数分布表的优点外, 年龄 ( 岁 ) 百分比 还能反映各类所占的比重,便于不同总体或 17 8 不同类别之间的比较。这种分布的应用更为 18 20 普遍。 19 40 例 20 20 如 21 12
不熟悉
不太熟悉 有点了解 了解 熟悉
1
2 3 4 5
36
41 52 43 36
13.3
15.2 19.2 15.8 13.3
13.3
15.2 19.3 15.9 13.3
13.3
28.5 47.8 63.7 70.0
非常熟悉
6
9 总计
62
1 271
22.9
0.4 100.0
23.0
缺失 100.0
100.0
X
x
1
n
i
n
28
离散趋势分析
离散趋势(又称离中趋势)分析指的是用一 个特定的数值来反映一组数据相互之间的离散程 度。 作用:它与集中趋势一起,分别从两个不同的 侧面描述和揭示一组数据的分布状况,共同反 映出资料分布的全面特征;同时,它还对集中 趋势的统计量(如平均数、众数、中位数)的 代表性作出补充说明。
公式
S
(x
1
n
i
X)
2
n
32
相关与回归
交互分类主要处理的是定类(或定序)变 量间的关系问题,对于定距及定比变量来说,
则有另一些方法来探讨。
这里主要简单介绍一下相关系数的计算方
法及一元线性回归模型。
33
相关系数
例子:调查10名工人的工龄与工资情况如下表:
序号 工龄(年) 2 3 5 8 10 12 15 18 20 22 工资(元) 80 80 90 100 120 120 140 160 180 200
7
资料的编辑整理 编辑整理的目的:对调查人员和受访者的 疏忽、遗漏、错误进行检查。
编辑整理的方式
调查人员的自行编辑整理 质量监督部门的再次编辑整理
编辑整理过程中查验的主要问题
调查单位是否有遗漏 调查的项目是否齐全 调查数据是否符合逻辑
8
资料的编码与录入
编码是指对一个问题的不同答案确定相应数字代码的 过程,以便于数据的分组与后期分析。 编码的具体方法
2
案例:杜邦公司的“市场嘹望哨”
除了向总公司领导及有关业务部门做专题报告及口 头报告,解答问题外,经济研究室还每月整理出版两份 刊物。一份发给公司的主要供应厂家和客户,报道有关 信息和资料;另一份是内部发行,根据内部经营全貌分 析存在的问题,提出解决措施,研究短期和长期的战略 规划、市场需求量,以及同竞争对手之间的比较性资料。 另外每季度还会整理出版一期《经济展望》供总公司领 导机构和各部门经理在进行经营决策时参考。
(2)审核应注意的问题
在审核中,如发现问题可以分不同的情况予以处理: 1)对于在调查中已发现并经过认真核实后确认的错 误,可以由调查者代为更正。 2)对于资料中可疑之处或有错误与出入的地方,应 进行补充调查。 3)无法进行补充调查的应坚决剔除那些有错误的资 料,以保证资料的真实准确。
6
资料的复查审核
问卷的预编码 审核整理后的录入编码
录入的方式
直接录入
程序录入 光电扫描录入
9
资料的分类与汇总
资料的分类(分组)是在对资料进行预处理的基础上, 根据调查研究的需要,按照某种标志将研究总体划分 为若干个组成部分。 汇总计算是在对资料进行分组的基础上,将调查数据 逐个分配到不同的组内,并计算出各组的单位数及各 组单位数占总体单位数的比重,进而研究现象的分布 特征。 汇总的方法 手工汇总