第五章资料分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

哲学与社会发展学院
(三) 均值(Mean)X
社会调查中的资料分析方 法
1.未分组数据求均值
X 如果是未加整理的原始资料求均值,计算公式是:
=
Xi
n
Xi 表示资料所观察到的变量值的总和;n表示观察总数。
如果是是统计表资料,则计算公式是:X = fXi n X i 表示变量值;f表示变量值对应的频次。 哲学与社会发展学院
哲学与社会发展学院
社会调查中的资料分析方 法
(三)统计图
统计图相对于统计表来说更为直观和形象。但不足 之处是不及统计表精确。
哲学与社会发展学院
1.圆瓣图
社会调查中的资料分析方 法
圆瓣图(又叫饼状图)是用不同的圆瓣代表变量的不同取值, 整个圆的平面表示总数,各圆瓣的面积表示相应取值的频次或 频率。圆瓣图只适用定类变量。
3.直方图
社会调查中的资料分析方 法
直方图一般适用于定距变量,特别是分组数据。它也是 用条形来表示,但和条形图不同的地方是,直方图的条 形宽度是有意义的。直方图是用长条的面积表示频次或 频率。长条的宽度表示组距,而长条的高度表示的是频 次密度或频率密度。
哲学与社会发展学院
二、集中趋势测量法
社会调查中的资料分析方 法
属,因此组界的划分就需要有明确的规定。
连续分组
指前组的上组界与后组的下组界相重合,租界之间没有空
隙。例如,1-5岁,5-10岁,10-15岁……。
在统计分析中有一个约定俗成的原则,是“上组界不包括
在内”。依据这一原则,年龄是5岁的人应该归属于5-10
岁组。
哲学与社会发展学院
社会调查中的资料分析方 法
不连续分组 指前组的上组界与后组的下组界没有连接,中间有空隙。如, 1-5岁,6-10岁,11-15岁……。不连续分组统计计算时要对组 界进行精度化处理。 在例子中,1-5岁中的1岁和5岁都是该组的标明组界(Stated Limits),我们要计算它的真实组界(True Limits)。计算 方法是用标明组界±0.5。
哲学与社会发展学院
标明组界和真实组界的关系:
社会调查中的资料分析方 法
标明组界
1-5 6-10 11-15
真实组界
0.5-5.5 5.5-10.5 10.5-15.5
组距(i) 组中心值(bi)
5

3
5
5
5
13
统计计算中经常用到组距(Class Width)和组中心值(Class Midpoint)。组距是指组的宽度,就是组的真实上组界与真实下 组界之差。组中心值就是组的真实上组界与真实下组界的平均值 。
第一节 数据库的形成
社会调查中的资料分析方 法
一、数据库制作 二、数据库录入 三、数据库清理检查
哲学与社会发展学院
一、数据库制作
社会调查中的资料分析方 法
数据库(Database)是存储在计算机内的用来组织、存储 和管理数据资料的软件系统。 问卷中的问题最终都会被转换为数据信息而存储到数据库 中,然后调查分析人员利用分析软件对数据库中的资料进 行统计分析。
2.分组数据求均值
社会调查中的资料分析方 法
对于分组数据,可以用组中心值来代替变量值。计算公
式和未分组数据相同。
X = fXi n
注意:有两种情况下不宜使用均值
一在分组资料中如果出现了开口组(即有极端组没有组限, 如表5-4第一组和第五组),只能用中位值; 二是在数据中存在极端值,这对均值的影响较大,会使均值 偏高或偏低。这种情况下中位值的代表性更好。
❖常用数据库:DBASE FOXBASE FOXPRO ACCESS EXCEL
哲学与社会发展学院
以SPSS为例,介绍数据库的制作:
社会调查中的资料分析方 法
当进入SPSS系统时,系统就已经生成了一个空数据文件,关键 是需要定义变量。所谓定义变量就是在SPSS“变量视图”对话 框中对问卷中的每一个变量(一般情况下就是问卷中的每一个 问题)的特征进行设置。需要设置的变量特征主要有:名称、 类型、标签、值和测量标准。对每一个变量界定完成之后,检 查无误然后起一个数据库名称,数据库就制作好了。
哲学与社会发展学院
3.定距变量
社会调查中的资料分析方 法
离散型(Discrete type) 定距变量 一般和定序变量要求一致, 如家庭人口数,在安排变量 取值时不能把次序打乱。
连续型(Continuous type) 定距变量 由于变量值可以取无限个值 ,所以在制作统计表时,不 可能把所有的变量值都一一 列出,所以必须首先对变量 值进行分组。
哲学与社会发展学院
分组方式
社会调查中的资料分析方 法
等距分组 ❖每组的间隔距离相同,因此各组间的可能容量相同。但 由于调查对象的特征分布不同,所以每组包含的人数是不 同的。通过这种分布的差异来体现数据的基本特征。 ❖只需要根据最大值和最小值确定的区间,等分距离就可 以确定分组的间距,即组距。在划分组时,尽可能将组数 确定在7组之内,如果确实需要也可以按照实际情况确定 组数。等距分组可以有效地进行组间比较。
社会调查中的资料分析方 法
❖频次分布(Frequency Distribution) 社会调查中所涉及的概念,由于它的取值不唯一,因此可以看 做一个变量。每一个被调查对象在变量的不同取值中做出自己 的选择。变量取值所对应的被调查对象选择的总人数就是该变 量取值的频次。在统计时,把变量的每一个取值以及所对应频 次组合为一个数据对,那么,变量的所有取值及其频次组成的 数据对的集合,就是频次分布。
哲学与社会发展学院
社会调查中的资料分析方 法
(二)统计表
在统计分析中,一般用表格的形式来表示变量的分 布,这种表格叫做统计表。
哲学与社会发展学院
1.定类变量
社会调查中的资料分析方 法
定类变量在制作统计表时没有特殊要求,变量取值可以任意排 列。可以分别制作频次分布表和频率分布表,也可以在一个统 计表中同时显示频次和频率。
哲学与社会发展学院
二、数据库的录入
社会调查中的资料分析方 法
数据库的录入主要有两种方式:一种是直录,另一种是转录。 直录即将原始问卷资料直接录入数据库,而转录就是先将问卷 资料转录到“登录表”中,然后再录入数据库。
一般情况下,只要问题数量不是特别多,调查者多采用直录方 式录入数据库。
哲学与社会发展学院
哲学与社会发展学院
三、离散趋势测量法
社会调查中的资料分析方 法
离散趋势(Dispersion)测量可以知道误差的绝对大小。 离散趋势测量是要计算出一个离散值来表示所有调查对象在一个 变量的所有取值上的分散程度。 ❖变量值越分散,相应集中值的代表性越差,即绝对误差越大。 ❖离散值还可以用于比较同一变量的集中值在不同样本上的代表
提高录入质量的方法
社会调查中的资料分析方 法
第一,问卷卷面要清楚。 第二,加强录入员的挑选、培训和管理工作,可以适当提高
录入报酬,提高录入员的积极性和责任感。 第三,提供安静、互不干扰的录入环境。 第四,建立“双录”制度。即每份问卷都由两人次录入,通
过两次录入的相互校正发现问题,提高数据库质量。
哲学与社会发展学院
位值主要用于描述定序变量(当然也可用于定距、定比变
量)的集中趋势,它把数据序列一分为二,其中一半取值
小于它,另一半取值大于它。正是因为中位值在数据序列
中的特殊位置,所以用它来表示整个数据的集中趋势,或
用它代表整个数据,所犯的错误总数是最小的。中位值适
用于定序及以上变量。
哲学与社会发展学院
1.未分组数据求中位值
Md=399.5+
100
2 40
30
100
=449.5
哲学与社会发展学院
(三) 均值(Mean)X
社会调查中的资料分析方 法
计算中位值的步骤大致分为三步: 第一,计算中位值位置: 第二,在频次分布表中计算累计频次; 第三步,在累计频次中从小到大找到第一个大于中位值位置 的累计频次,它所对应的变量值就是中位值。
哲学与社会发展学院
社会调查中的资料分析方 法
2.定序变量 由于定序变量的取值有大小次序之分,在制作统计表时要求变 量取值的次序不能打乱。
❖累计频次(Cumulative Distribution) 在统计分析中,我们不仅需要了解频次分布,还需要了解小于 或大于某一变量值的频次总数,这就要在频次分布表中计算出 累计频次。 累计频次分为两种:向上累计频次和向下累计频次。
表5-4 某高校学生花费统计表
花费(元)
频次(人)
299或以下
10
300-399
20
400-499
40
500-599
25
600或以上
5
总计
100
累计频次
10 30 70 95 100
哲学与社会发展学院
社会调查中的资料分析方 法
首先计算中位值位置: n 1 =50.5。根据累计频次,可以确 定位置50.5应该在400-4299的组内。中位值应该对应该组的 哪个值哪?为了减少误差,需用公式计算。公式为:
社会调查中的资料分析方 法
计算中位值的步骤大致分为三步:
第一步,计算中位值位置:n 1 ;
2
第二步,在频次分布表中计算累计频次; 第三步,在累计频次中从小到大找到第一个大于中位值位置 的累计频次,它所对应的变量值就是中位值。
哲学与社会发展学院
2.分组数据求中位值
社会调查中的资料分析方 法
例如调查某高校100名学生每月花费情况,用分组的形式制 作统计表,如表5-4所示。试求数据的中位值。
Md=L+ n 2 cf(m1) i
f
哲学与社会发展学院
社会调查中的资料分析方 法
其中,L:中位值所在组的真实下组界值;
cf(m-1)低于中位值所在组真实下组界的累计频次; n:调查总数;
f:中位值所在组的频次;
i:中位值所在组的组距。
将表5-4中的数据代入公式,则L=399.5,cf(m-1)=30,n=100,f=40,i=100
三、数据库清理检查
社会调查中的资料分析方 法
(一)机器清理
机器清理就是利用计算机软件的相关功能对录入质量进 行表面检查。 1.范围清理 2.逻辑清理
哲学与社会发展学院
社会调查中的资料分析方 法
(二)人员复查
通常,项目负责人会组织专门人员对2% ~5%的已录 入问卷进行复查。复查时,复查员会就随机抽中的原始 问卷的每一个问题与数据库进行核对,如果发现小问题 就安排录入员修改,如果问题超出规定 范围,则勒令录入者返工。
哲学与社会发展学院
2.条形图
社会调查中的资料分析方 法
条形图是用不同的条形表示变量的取值,条形的高度表示频次
或频率,而条形的宽度没有意义,一般使用等宽长条。条形图
可以适用于定类变量,也可以适用于定序变量。定类变量对条
形的顺序没有要求,但定序变量要求条形排列要和变量值的顺
序一致,不能打乱。
哲学与社会发展学院
哲学与社会发展学院
第二节 单变量描述分析
社会调查中的资料分析方 法
一、资料的初步整理 二、集中趋势测量法 三、离散趋势测量法
哲学与社会发展学院
社会调查中的资料分析方 法
一、资料的初步整理
(一)分布(Distributions )
用分布来简化、整理原始资料是社会统计分析中常 用的方法。
哲学与社会发展学院
哲学与社会发展学院
社会调查中的资料分析方 法
不等距分组 在某些情况下,相比等距分组,不等距分组能更好地 反映数据的真实情况,有利于理论分析。例如,对结 婚年龄进行分组时,最好采用不等距分组的方式。
哲学与社会发展学院
在分组式统计表中要注意组界的问题
社会调查中的资料分析方 法
组界是两个组之间的界限,依据这个界限划分个案的组的归
用来代表全体变量的典型变量值或特征值叫做集中 值或集中趋势(Central Tendency)。 ❖三大集中量数是:众值、中位值和平均值。
哲学与社会发展学院
(一) 众数(Mode)M0
社会调查中的资料分析方 法
众值就是变量中频次最多的变量值。用频次最多的变量
值作为集中值代表或预测整个变量,所犯的错误总数是
哲学与社会发展学院
社会调查中的资料分析方 法
❖频率分布(Relative Frequency Distribution) 对不同样本的变量进行比较时,需要把频次转换为频率(多用 百分数表示),即用每一变量取值对应的频次除以总数,再转 换为百分数,频次分布也就转换成为频率分布。
❖在列出某个变量的频次分布或频率分布时,要保证变量取值 既具有完备性又具有互斥性。可以用各频次加总是否等于调 查总数或各频率加总是否等于100来做验证。
最小的。
❖众值只和频次有关,所以可以适用于任何层次的变量

❖由于定序变量和定距变量具有更多的数学特征,所以
一般不用众值作为集中值。相对来说,定类变量最适宜
于用众值表示集中趋势。
哲学与社会发展学院
(二) 中位数(Median)Md
社会调查中的资料分析方 法
中位值就是在一个数据序列中处于中间位置之变量值。中
相关文档
最新文档