社会研究方法第四版第十一章
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 按照处理方式不同集中统量可分为几类,两 最常见的集中趋势有算术平均值、众数和中 位数三种。用得最多的是平均数。
? 1 定类层次:众值(众数)
? 其意义为,在众多数值中,出现次数最多的 一个数值。
? (1)原始资料,求众值
? 例如:2,3,5,5,5,6,6,7,8
? 出现次数最多的是5,其M0=5
第十一章 定量资料分析
目录
第一节 第二节 第三节 第四节
资料的整理与录入 单变量统计分析 双变量统计分析 多变量统计分析
回顾: 社会调查的一般程序
准备 阶段
调查 阶段
研究 阶段
总结 阶段
第一节 资料的整理与录入
? 一、资料的审核
? 资料审核是资料处理的第一步工作。它是指 研究者对所收集的原始资料(主要是问卷) 进行初步的审阅,校正错填、误填的答案, 剔出乱填、空白和严重缺答的废卷。其目的 是使得原始资料具有较高的准确性、完整性 和真实性,从而为后续资料整理录入与统计 分析工作打下较好的基础。
描述统计
1. 内容
¥
? 搜集数据
50
? 整理数据
? 展示数据
25
2. 目的
0
? 描述数据特征
? 找出数据的基本规律
Q1 Q2 Q3 Q4
推断统计
总体
1. 内容
? 参数估计
? 假设检验
2. 目的
? 对总体特征作出
推断
样
本
描述统计与推断统计的关系
概率论
(包括分布理论、大数定律 和中心极限定理等)
反映客观 现象的数
(3)定距层次:算术平均数
? 通常称平均数,又称均数或均值。英文为 MeanX,
故以M表示。如果是由变量XX计算得来的就记为
(读X杠),现在一般都以 表示样本的平均数,
以U 表示总体的平均数。x
? 算术平均数就是各个变量值相加求和再除以变量
? (2)次数资料,求众值 ? 例如:江村女青年找对象的标准
标相 人 文 准貌 品 化
人 55 122 51 数
健 职能 康 业力
104 13 29
经济 政治 条件 条件
16 13
家庭 感 背景 情
6 82
其次数最多的为人品122人次,所以M0=人品
? (3)分组的频数表中,频数最大的区间的组 中值就是众值
2
? 2 定序层次:中位值(中位数)(单选)
其意义为按大小顺序排列,处在一群数据中央位置的数值。 (1)原始资料,求中位值 例如:有9个人,他们的月工资分别如下: 47,42,50,51,92,112,71,83,108 首先作排列处理,从小到大排列 42,47,50,51,71,83,92,108,112 其次求中央位置 Md的位置=(N+1)÷2=(9+1)÷2=5 最后求中位置Md=71
有效范围数据清理
逻辑一致性清理
? 逻辑一致性清理则是从另一种角度来查 找数据中所存在的问题。其基本思路是依据 问卷中的问题相互之间所存在的某种内在的 逻辑联系,来检查前后数据之间的合理性。
? 例如 性别/怀孕次数 ; 无孩子量抽查
据
描述统计
(统计数据的搜集、整 理、显示和分析等)
推断统计
(利用样本信息和概率 论对总体的数量特征进
行估计和检验等)
总体内在的 数量规律性
统计学探索现象数量规律性的过程
集中趋势分析
? 集中趋势分析指的是用一个典型值来反映 一组数据的一般水平,或者是反映这组数 据向这个典型值集中的情况。
? 这样一个典型值就被称为集中统计量。
在前面介绍问卷设计时,我们曾指出,编码就是给每个 问题及答案一个数字作为它的代码。
从资料处理的角度看,编码就是用阿拉伯数字来代替问 卷每一个问题的回答,或者说是将问卷中的答案转换 成数字的过程。下面两个表就是一份问卷中前几个问 题的答案和编码。
在对问卷中的问题进行编码时,要给不同的问题
分配合适的栏码,即指定该问题的编码值在整 个数据文件中所处的位置。
? 资料审核的方法主要有两种,即逻辑审核与 计算审核。
? 逻辑审核,即核查资料的内容是否合乎逻辑 和常识,项目之间有无互相矛盾之处,与其 他有关资料进行对照是否有明显出入等等。
? 计算审核,是针对数字资料进行的审查。要 检查计算有无错误。度量单位有没有错,前 后数字之间有无相互矛盾之处等等。
二、资料的转换
? 在资料审核中,如发现问题,可以分别不同 情况予以处理:
? (1)调查中已发现并经认真核实后确认的错 误,可由调查者代为更正。
? (2)资料中的可疑之处或明确有错误与出入 的地方,应设法进行补充调查。
? (3)无法进行或无需进行补充调查的情况下 ,剔除那些明显错误的或无把握的资料,保 证真实性和准确性。
? 一个很简单的例子:
? 假设某个案的数据在“文化程度”这一变量上输错了, 问卷上填答的答案是2(初中),编码值也是2,但数据录 入时却错敲成了3(高中及中专)。 由于3这个答案在正常有效的编码值范围中,因此,前一 种方法检查不出这一错误。同时,这一变量值与其他变 量之间又没有前述那样的逻辑联系,因此后一种方法也 用不上。
区间 75-79 70-74 65-69 60-64 55-59
组中值 77 72 67 62 57
频数 1 3 5 10 4
表中频数最大的为10, 对应的区间是60-64, 其组中值是62,所以众 值=62。 如果在一个次数中出现 两个邻近的次数较多者, 众数是二次数多的组中 值的平均值
50-54 52
第二节 单变量统计分析
? 一、单变量描述统计
? 单变量统计分析可以分为两个大的方面,即描述统计和 推论统计。描述统计的主要目的在于用最简单的概括形 式反映出大量数据资料所容纳的基本信息。它的基本方 法包括集中趋势分析、离散趋势分析等。而推论统计的 主要目的,则是用从样本中所得到的数据资料来推断总 体的情况,它主要包括区间估计和假设检验等。
这种栏码有时在问卷设计时就印在问卷上(每 页的右边,用一条竖线与问题及答案隔开), 但也有很多情况下是在问卷收回后编码时再 指定。
三、数据录入
? 录入方法:
? 1.登录表法 ? 2.直接录入 ? 3.光学扫描 ? 4.条形码
四、数据清理
有效范围清理
对于问卷中的任何一个变量来说,它的有 效编码值往往都有某种范围,而当数据中的数字 超出了这一范围时,可以肯定这个数字一定是错 误的。