第十讲 社会调查与统计方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)度量集中趋势的第三个量——众数
众数是指将一组资料按大小顺序排列后,出 现次数最多的那个数,通常可以观察得到。
2、离中趋势的测定
离中趋势是总体分布的另一个主要特征,反 映变量数列中各标志值之间的差距和分散程度, 是非众数与众数的偏离程度。离中趋势越大,集 中趋势指标的代表性就越差;反之,集中趋势指 标的代表性就越好。 (1)度量离中趋势的第一个量——极差
社会调查应遵循的原则
客观性原则(不惟书,不惟上,只惟实)
实证性原则
系统性原则(避免”只见树木,不见森 林”)
二、社会调查的基本模式 1、“事实—解释”模 式
基本思路:以事实为基础,对社会现象作出解释
基本步骤:收集资料,归纳分析、形成一般性调查结论
优 不 点:简单易行 足:事实要非常充分并具典型性
三、社会调查方法概述
社会调查方法 按范围划分 按阶段划分
资料收集
普 遍 调 查 重 点 调 查 抽 样 调 查 典 型 调 查
资料研究
区 间 估 计 假 设 检 验
个 访 文 观 问 实 统 相 案 问 献 察 卷 验 计 关 调 法 法 法 法 法 描 分 查 述 析
图3—1 社会调查方法
1、普遍调查法(普查)
异众比率是指当使用众数指标时,非众数值的次 数在总次数中所占比例。即:
N f0 Vr N
式中 Vr 为异众比率,N为总次数, f 0 为众 数次数。 异众比率越大,各变量值相对于众数越离 散;反之,各变量但相对对于众数越集中。
重要经验:
一般来说,如果集中趋势用平均 数描述,则离中趋势用标准差来描述; 如果集中趋势用中位数来描述,则离 中趋势用四分位差描述;如果集中趋 势用众数描述,则离中趋势用异众比 率描述。
全国农民平均纯收入为
x
xf f
62982.5 630 (元) 100
几何平均数
x n x1 x2 xn
式中
xn为第n个变量值,n为变量个数.
例如:某地区5年来的国民生产总值年增长进度分 别为7%,8%,10%,12%,18%,则5年以来的 平均增长速度为:
x 5 1.07 1.08 1.10 1.12 1.18 1.1093
是专门组织的一次性的全面调查,如人口 普查、工业普查。 组织方式:直接调查登记,由被调查单位填报。
优 点:调查资料的全面性和准确性,以及普查 结论的概括性和普遍性。
局 限 性:工作量大,花费大,周期长,组织工 作难度大,调查内容有限,信息时效性差。
2、典型调查
是在对总体初步了解基础上,有意识地选 取若干具有代表性的对象进行的调查。 方式:对典型对象进行“解剖麻雀”式调查, 以少概全;在总体调查对象有很大差异时,按 照一些标志对总体进行分类,然后在各类中再 选出一个典型进行调查。 优点:调查对象少,各种投入较少,可以深入 分析和专题研究 不足:典型不易选准,对结论的推断有很大影 响
x
x1 f1 x2 f
2
xk f k n
x
i 1 k i 1
k
i
fi
i
f
式中 n
f
i 1
k
i
为总次数, f i
为组的频数或权
数,k为分组数或类别数。
实例:中国1993年农户平均纯收入调查
农民纯收入 (元)组中值(x) 户数(%) (f) 100 以下 75 0.6 100--150 125 1.3 150--200 175 2.6 200--300 250 10.9 300--400 350 15.6 400--500 450 15.6 500--600 550 13.4 600--800 700 17.9 800--1000 900 9.5 1000--1500 1250 8.9 1500--2000 1750 2.5 2000 以上 2250 1.5 合计 100 纯收入 X 户数(xf) 45 162.5 455 2725 5460 7020 7370 12320 8550 11125 4375 3375 62982.5
f
im
Fym
n Fym
f F 式中, im为每一类x中y分布的众数次数; ym为 变量y各分类次数的众数次数;n为总次数。
一般地, 0,1,其值越大表明相关程度越高 。
实例:性别与对吸烟态度
态度
男
性别x 女 合计(Fy)
容忍
反对
合计(Fx)
37
15 52 说 明
8
42 50
3、重点调查
对总体调查对象中一部分重点 对象进行调查。
如:某行业中几家大型企业的调查
4、抽样调查
也是非全面调查,是从被研究的总体中,按照 随机原则选择部分调查对象进行调查。被抽取到的 调查对象被称为样本,抽样调查的目的就是根据样 本的指标来推断总体指标。随机性原则就是同等可 能性原则。
优点:客观,准确,费用省 例如:居民收入,商品需求,空气质量,人口流 动等项目调查
实例:工作成绩与声望评价
科技人员 甲 乙 丙 声望 x 高 中 低 工作成绩 y 中 高 低
易见,声望x:甲>乙>丙;工作成绩y:乙> 甲>丙;因此,同序对有甲丙,乙丙两对,即 Ns=2。异序对有甲乙,即Nd=1。于是:
Ns Nd 2 1 G 0.33 Ns Nd 2 1
说明声望与工作成绩呈正相关关系,强度 为0.33。
2、“假设—理论”模 式 基本思路:用自然科学的研究方法来研究社会现象,
认为社会现象是可以实证和检验的,通过建立理论假 设,对社会现象作出解释。
基本步骤:收集资料,在分析基础上提出理论假设, 依据事实调查,进行理论假设的验证,形成理论。如: 试点调查法,特区建设试点与推广。 优 点:符合认识的一行规律,从感性认识上升 到理性认识。 不 足:建立抽象合理的假设不容易,对调查者 的素质要求较高。
基本思路:将调查对象看成一个系统,从系统的整体性 出发,对系统内外部的各种影响因素和相互作用进行研 究,从系统的角度来认识和解决问题。
3、“系统—综合”模 式
基本步骤:明确问题,选择目标,系统综合,系统分析, 方案优化,方案验证(试点),调查实施
优 点:经验分析与理论研究相结合,定性定量相 结合。如:三峡工程、区域社会综合发展的调查。
《系统工程》
社会调查与统计分析方法
重点问题
社会调查方法
抽样调查方法 统计分析方法
主要参考书目: 谭跃进主编,《定量分析方法》 中国人民大学出版社,2002 . 8
3.1 社来自百度文库调查概述
一、社会调查的含义和基本原则
社会调查的含义
社会调查就是人们有意识、有目的地通过对 社会现象的考察、了解和分析,来认识社会生活 的本质及其发展规律的实践活动和认识活动。即, 社会调查是人们运用特定的方法和手段,从社会 实践中收集有关社会事实的信息资料,并对其具 体描述和解释的活动。
案例分析:第二期中国妇女社会地位调查方案 1、调查目的 2、调查内容和方法 3、调查对象和抽样方法 4、组织实施
式中,G为系数;Ns为同序对数目;Nd为异序对 数目。所谓序对是指表明高低位次的两两配对,如 果一对个案在变量x,y的分类表现为位次一致,则 为同序对;如果位次相反,则为异序对。
完全负相关;G=0表示完全不相关,1 G 0 表示 负相关;0<G<1表示正相关。
G 1,1。G=1表示完全正相关;G= –1表示
一、单变量统计描述 1、集中趋势的测定
(反映了事物的一般水平和总体趋势)
(1)度量集中趋势的第一个量——平均数
算术平均数
x1 x2 xn x n
1 n
x
i 1
n
i
x 式中 x 为算术平均数, i 为第i个观测值。
加权平均数 如果所得资料是分组资料,则应求加权平均数, 计算公式为:
二、多变量统计描述方法
社会现象之间相互联系的形式:
函数关系(可以用回归分析来分析)
相关关系(伴随变动关系,相关分析)
相关分析主要是确定社会现象之间有无 相关关系和相关关系的密切程度,而这 一 切都是通过变量之间的相关系数的计 算来判定的。
1、定类变量之间的相关系数
定类变量之间的相关系数,只能以变量值 的次数来计算,常用 系数法,计算公式为:
45
57 102
续上表,从y的分布来看,对吸烟的态度众数是 “反对”,众数次数为57,即 Fym =57。再从x的每 一个分组(男,女)中y的次数分布来看,男性中y 的分布众数是“容忍”,次数为37(F1m),女性 中y的分布众数是“反对”,次数为42(F2m);总 次数为102。于是:
( f1m f 2 m ) Fym n Fym
1
6 87.5 0.47 2 10 (10 1)
以上说明10个家庭的经济条件与卫生状况具有 明显的正相关关系。
3、定距变量之间的相关系数
常用Pearson系数法
r
( x x )( y y ) (x x ) ( y y
2 2
)
r的取值范围和相关程度的含义与G系数相 同。
即5年平均年增长速度为10.93%
(2)度量集中趋势的第二个量——中位数 中位数是指将一组变量值按大小顺序排列 起来,处于中间位置的那个数,用 M d 表示。
首先将未分组资料按大小顺序排列,然后运 n 1 用 求中位数所在位置,处于该位置的变 2 量就是中位数。当n为奇数时,则居中间位置的 那个数就是中位数;当n为偶数时,居中间位置 上就有两个数,此时的中位数就是这两个数的平 均值。
(37 42) 57 0.49 102 57
从计算结果可知,性别对吸烟态度的相关程度 为0.49,属于中等相关。
2、定序变量之间的相关系数
定序变量这间的相关测量常用Gamma系数 法和Spearman系数法。 (1)Gamma系数法计算公式为:
Ns Nd G Ns Nd
四分位差越大,中位数的代表性就越差;反 之亦然。
(3) 度量离中趋势的第三个量——标准差(或均方差)
( X i X )2
i 1
n
n
为变量值。 x为平均值, xi
式中 为标准差,
标准差越小,表明平均数代表性越好,变量数列 的离中趋势越小;反之亦然。
(4) 度量离中趋势的第四个量——异众比率
(2)Spearman系数法计算公式为:
1
N ( N 1)
2
6 D 2
其中 为系数;D为所测定的两个数列 中每对项目之间的等级差,这个差的正值之 和等于负值之和;N为项数。
系数 主要代表两个定序变量的等级 相关程度,其取值范围和相关程度含义与G 系数相同。
实例:家庭经济条件与卫生状况等级相关表
5、个案调查
是对特定的对象进行详细调查研究的一种调 查方法,如婚姻家庭,犯罪,民政,信访,政治 思想工作,民族宗教工作和企业管理类调查。
优 点:研究内容全面系统,深入细致,灵活多 样。
局限性:代表性差,推断性差,缺乏定量分析
3.2 统计分析方法—统计描述法
抽样调查以足够数量的样本推算总体,误 差可以事先计算并加以控制,调查成本不高。 抽样调查中的典型定量方法为统计分析法。 统计分析包括统计描述和统计推论。 统计描述是对已经初步整理的数据资料进行加 工,用统计量对其描述的一种方法,主要用来 测定现象的集中趋势和离散趋势以及现象之间 的相关关系。 统计推论是在随机抽样调查基础上,根据样本 资料对总体进行推论的一种方法,主要包括区 间估计、假设检验等。
家庭编号 1 2 3 4 5 6 7 8 9 10 合计 等级 经济条件(x) 卫生状况(y) + 1 2 3 4 5 6 7 8.5 8.5 10 55 1 3 4 5 8 6.5 9.5 6.5 9.5 2 55 —— —— —— —— —— —— —— 2 —— 8 10 等级差 — —— 1 1 1 3 0.5 2.5 —— 1 —— 10 0 1 1 1 9 0.25 6.25 4 1 64 87.5 D2
R max( xi ) min( xi )
极差越大,离中趋势越大,代表性就越低。
(2) 度量离中趋势的第二个量——四分位差
四分位差(Q)就是将各个变量值按大小顺序排 列,然后用三个点将此数列分为四等分,三个点 的位置分别为 3( n 1 ,n 1 , n 1) , 4 2 4 每个位置上对应的变量值称为四分位数,分别记 为Q1,Q2(中位数),Q3,而四分位差为: Q= Q3— Q1