定量资料分析(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 提供最完整的资料细节
• 最方便、最容易处理的方式呈现出来 • 两个目标的冲突 • 解决方案:如未分组年龄可用平均年龄以 及标准差来描述
三、子群比较
双变量以及多变量描述的基础
以下是美国2000年全国社会调查中的一个简 单例子:2000年,受访者回答,“大麻应 不应该合法化”?有33.5%的受访者回答应
• 众数(modal):出现最多次之属性 • 中位数(median):按顺序排列后观察属性 最中间的那个属性
31名13-19岁受访者的实际年龄, 他们有多大?怎么表达?
三种集中趋势的测量方法优劣势
• 平均值:总体平均值,忽略极端值
• 众数:能了解极端最大值 • 中位数:更准确地反映整体图景
离散趋势
表示单变量资料最基本的形式是将所有的 单个样本都报告出来,也就是按照问题中 的变量列出研究每一样本的属性。
如何分析上面这个图
• 基于2737个有效样本分析美国人2000年做礼 拜的情形; • 频次“583”到底告诉我们什么信息? • 21%或者大约每5个美国人中有1个人,他的 答案是从不上教堂;
• 美国人有没有宗教信仰?(如何通过图表分 析17.8%+7.1=24.9,大约四分之一的,美国 人说他们参加礼拜的次数是每周至少一次)
频次分布:对一样本中变量的不 同属性出现次数的描述(条形图)
集中趋势的几种表述
• 平均数的概念:棒球比赛平均击中率为 0.300,什么意思? • 算术平均值(mean):总数除以案例总数
第十三章 定量资料分析
◎资料的定量化 设计编码类别 建立编码簿 数据登录 ◎子群比较 ※合并答案的类别 ※处理不知道 ※定性研究的数字化描述
◎单变量分析 分布 集中趋势 离散趋势 连续变量和离散变量 细节和可处理性
◎双变量分析 ※百分比表格 ※建立和解读双元表格 ◎多变量分析介绍
• 每一个变量都是用原有变量的缩写形式来界 定的;如政治观点、参与;
• 每本编码簿必须对变量进行完整的定义(穷 尽性); • 编码簿必须指出每种变量的属性。 • 要给每种属性贴上一个数字标签。(1-3合并)
编码簿部分范例
二、单变量分析
• 单变量分析是一次只检验一个变量的分布 情形,尤其是其属性分布。 比如测量了性别之后,我们就想看看研究 对象中有多少是男性,多少是女性。
该,66.5%的回答不应该,下图则表现了不
同年龄类别的受访者对此问题的回答。
内部子集的一个例子:不同人口子群的反应
不同政治子群对大麻合法化的反应
合并答案的类别
比较两个图表的区别,并思考为什么要合并?
如何处理“不知道”?
处理“不知道”
• • • • • • • 100-26=74 48÷0.74=65% 27÷0.74=35% 提供了什么新的解释? 法国和前西德有最多肯定的评价 美国和英国稍低 日本虽最低,但持肯定评价的比例已从12% 上升至20%
如何建立双元表格
1、按照自变量的属性将样本分组;
2、按照因变量的属性来描述这些分组好的子
群体;
3、最后,按照因变量属性将自变量的子群相 比较,以解读这个表格。
列表联的一些不成文规定
• 因变量必须依自变量值而定; • 表格必须要有表头或标题,描述表中内容; • 变量原来的内容必须清楚说明,或者外加一 段附于表中; • 每一个变量的属性必须清楚地说明; • 表格百分比必须要说明计算基准。 • 若因缺失资料要将某些样本删除,其数量必 须标示于表格中。
• 性别和年龄分别对上教堂有独立的影响。 在任一个自变量的属性内,另一个自变量 属性仍对行为有影响; • 两个自变量对于行为具有累加的作用。年 轻男性VS年老女性。
简化模式
另一个例子
• 工作年限确实会影响收入;
• 不论工作年限长短,女性就是比男性赚钱 少; • 另外的发现:如何解释10年以上工作年限 的女性工资少于2年工龄的男性? • 如何解释: • 一个验证
一、资料的定量化
如何把资料转化为数据
年龄和收入 男、女 宗教、党派 思考:开放式问卷答案如何编码? 你从事什么职业?
A: 1、专业技术类 2、管理类 3、职员类 4、非熟练工人5、其他(内部分工)
B: 1、制造业 2、保健业 3、商业类 4、其他(行业种类) C:1、蓝领 2、白领(生产方式、消费方式)
D:1、雇佣 2、被雇佣(劳资关系)
一、资料的定量化
如何设计编码
编码过程要修改编码类别 编码类别需要详尽
解释编码的理由和每个类别的意义
问:学生们认为其学校面临的最大问 题是什么?
建立编码簿
• 编码簿的两个功能:一是编码过程中的基本指 南,二是告诉每个变量在资料文档中的位置 以及每个代码所代表的意思。
五、多变量分析
• 双变量的扩展;
• 运用多个自变量来解释,例如同时分析年 龄、性别和社会阶级对宗教虔诚度的影响 。 • 如何解读下面这个多变量分析关系?
一个多变量关系的例子
解读
• 男性与女性当中,年老者上教堂比年轻者 频繁;
• 在每一个年龄段中,女性上教堂比男性频 繁; • 性别比年龄对宗教活动的参与更有影响;
• 离散趋势:测量值围绕中心值-比如平均数的分布。最简单的离散测量是极差。 • 除了可以报告年龄平均值为15.87岁之外, 还可以说明他们的年龄分布是13—19岁。 • 标准差:某套资料的变异程度的指标。
• 高标准差意味资料分散,低标准差意味资 料聚集。 • 职业高尔夫球手和业余高尔夫球手
关于平均差的进一步说明
职业和业余高尔夫球手的得分
连续变量和离散变量
• 连续变量:以微小的速度稳定增加比如年 龄;
• 离散变量:从一个类别跳到另一个类别, 中间没有联结,比如性别、大学年级 • 定类、定序、定距和定比分别属于什么变 量? • 定类和定序:用原始数值或者百分比,众 数 • 定距和定比:可用均值和中位数
单变量处理的注意事项
四、双变量分析
• 单变量分析和子群比较集中在描述研究中
的人;百度文库
• 双边量分析分析集中在变量及其相互关系
上。 • 如何确定正确的百分比方向? • 如何解读百分比表格?
一个例子
解读的规则
• 如果表格是纵向百分比,按行横向来读;
• 如果表格是横向百分比,按列纵向来读;
例2 报纸社论对于大麻合法化的立场
• 对围绕平均值的离散趋势的测量 • 比如68%的个案将会位于离平均值加减一个 标准差的范围内;95%的个案将会位于加减 两个标准差的范围内;99.9%的个案将位于 加减三个标准差的范围内。什么意思? • 比如某群体的平均年龄是30岁,而标准差 为10。那么68%的人的年龄在20和40岁之间。
• 标准差越小,值就越围绕平均值而聚集, 标准差越大,值就越分散。
教育是否能解释上述困惑?
• 最方便、最容易处理的方式呈现出来 • 两个目标的冲突 • 解决方案:如未分组年龄可用平均年龄以 及标准差来描述
三、子群比较
双变量以及多变量描述的基础
以下是美国2000年全国社会调查中的一个简 单例子:2000年,受访者回答,“大麻应 不应该合法化”?有33.5%的受访者回答应
• 众数(modal):出现最多次之属性 • 中位数(median):按顺序排列后观察属性 最中间的那个属性
31名13-19岁受访者的实际年龄, 他们有多大?怎么表达?
三种集中趋势的测量方法优劣势
• 平均值:总体平均值,忽略极端值
• 众数:能了解极端最大值 • 中位数:更准确地反映整体图景
离散趋势
表示单变量资料最基本的形式是将所有的 单个样本都报告出来,也就是按照问题中 的变量列出研究每一样本的属性。
如何分析上面这个图
• 基于2737个有效样本分析美国人2000年做礼 拜的情形; • 频次“583”到底告诉我们什么信息? • 21%或者大约每5个美国人中有1个人,他的 答案是从不上教堂;
• 美国人有没有宗教信仰?(如何通过图表分 析17.8%+7.1=24.9,大约四分之一的,美国 人说他们参加礼拜的次数是每周至少一次)
频次分布:对一样本中变量的不 同属性出现次数的描述(条形图)
集中趋势的几种表述
• 平均数的概念:棒球比赛平均击中率为 0.300,什么意思? • 算术平均值(mean):总数除以案例总数
第十三章 定量资料分析
◎资料的定量化 设计编码类别 建立编码簿 数据登录 ◎子群比较 ※合并答案的类别 ※处理不知道 ※定性研究的数字化描述
◎单变量分析 分布 集中趋势 离散趋势 连续变量和离散变量 细节和可处理性
◎双变量分析 ※百分比表格 ※建立和解读双元表格 ◎多变量分析介绍
• 每一个变量都是用原有变量的缩写形式来界 定的;如政治观点、参与;
• 每本编码簿必须对变量进行完整的定义(穷 尽性); • 编码簿必须指出每种变量的属性。 • 要给每种属性贴上一个数字标签。(1-3合并)
编码簿部分范例
二、单变量分析
• 单变量分析是一次只检验一个变量的分布 情形,尤其是其属性分布。 比如测量了性别之后,我们就想看看研究 对象中有多少是男性,多少是女性。
该,66.5%的回答不应该,下图则表现了不
同年龄类别的受访者对此问题的回答。
内部子集的一个例子:不同人口子群的反应
不同政治子群对大麻合法化的反应
合并答案的类别
比较两个图表的区别,并思考为什么要合并?
如何处理“不知道”?
处理“不知道”
• • • • • • • 100-26=74 48÷0.74=65% 27÷0.74=35% 提供了什么新的解释? 法国和前西德有最多肯定的评价 美国和英国稍低 日本虽最低,但持肯定评价的比例已从12% 上升至20%
如何建立双元表格
1、按照自变量的属性将样本分组;
2、按照因变量的属性来描述这些分组好的子
群体;
3、最后,按照因变量属性将自变量的子群相 比较,以解读这个表格。
列表联的一些不成文规定
• 因变量必须依自变量值而定; • 表格必须要有表头或标题,描述表中内容; • 变量原来的内容必须清楚说明,或者外加一 段附于表中; • 每一个变量的属性必须清楚地说明; • 表格百分比必须要说明计算基准。 • 若因缺失资料要将某些样本删除,其数量必 须标示于表格中。
• 性别和年龄分别对上教堂有独立的影响。 在任一个自变量的属性内,另一个自变量 属性仍对行为有影响; • 两个自变量对于行为具有累加的作用。年 轻男性VS年老女性。
简化模式
另一个例子
• 工作年限确实会影响收入;
• 不论工作年限长短,女性就是比男性赚钱 少; • 另外的发现:如何解释10年以上工作年限 的女性工资少于2年工龄的男性? • 如何解释: • 一个验证
一、资料的定量化
如何把资料转化为数据
年龄和收入 男、女 宗教、党派 思考:开放式问卷答案如何编码? 你从事什么职业?
A: 1、专业技术类 2、管理类 3、职员类 4、非熟练工人5、其他(内部分工)
B: 1、制造业 2、保健业 3、商业类 4、其他(行业种类) C:1、蓝领 2、白领(生产方式、消费方式)
D:1、雇佣 2、被雇佣(劳资关系)
一、资料的定量化
如何设计编码
编码过程要修改编码类别 编码类别需要详尽
解释编码的理由和每个类别的意义
问:学生们认为其学校面临的最大问 题是什么?
建立编码簿
• 编码簿的两个功能:一是编码过程中的基本指 南,二是告诉每个变量在资料文档中的位置 以及每个代码所代表的意思。
五、多变量分析
• 双变量的扩展;
• 运用多个自变量来解释,例如同时分析年 龄、性别和社会阶级对宗教虔诚度的影响 。 • 如何解读下面这个多变量分析关系?
一个多变量关系的例子
解读
• 男性与女性当中,年老者上教堂比年轻者 频繁;
• 在每一个年龄段中,女性上教堂比男性频 繁; • 性别比年龄对宗教活动的参与更有影响;
• 离散趋势:测量值围绕中心值-比如平均数的分布。最简单的离散测量是极差。 • 除了可以报告年龄平均值为15.87岁之外, 还可以说明他们的年龄分布是13—19岁。 • 标准差:某套资料的变异程度的指标。
• 高标准差意味资料分散,低标准差意味资 料聚集。 • 职业高尔夫球手和业余高尔夫球手
关于平均差的进一步说明
职业和业余高尔夫球手的得分
连续变量和离散变量
• 连续变量:以微小的速度稳定增加比如年 龄;
• 离散变量:从一个类别跳到另一个类别, 中间没有联结,比如性别、大学年级 • 定类、定序、定距和定比分别属于什么变 量? • 定类和定序:用原始数值或者百分比,众 数 • 定距和定比:可用均值和中位数
单变量处理的注意事项
四、双变量分析
• 单变量分析和子群比较集中在描述研究中
的人;百度文库
• 双边量分析分析集中在变量及其相互关系
上。 • 如何确定正确的百分比方向? • 如何解读百分比表格?
一个例子
解读的规则
• 如果表格是纵向百分比,按行横向来读;
• 如果表格是横向百分比,按列纵向来读;
例2 报纸社论对于大麻合法化的立场
• 对围绕平均值的离散趋势的测量 • 比如68%的个案将会位于离平均值加减一个 标准差的范围内;95%的个案将会位于加减 两个标准差的范围内;99.9%的个案将位于 加减三个标准差的范围内。什么意思? • 比如某群体的平均年龄是30岁,而标准差 为10。那么68%的人的年龄在20和40岁之间。
• 标准差越小,值就越围绕平均值而聚集, 标准差越大,值就越分散。
教育是否能解释上述困惑?