定量资料分析(1) - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 提供最完整的资料细节
• 最方便、最容易处理的方式呈现出来 • 两个目标的冲突 • 解决方案：如未分组年龄可用平均年龄以及标准差来描述
三、子群比较
双变量以及多变量描述的基础
以下是美国2000年全国社会调查中的一个简单例子：2000年，受访者回答，“大麻应不应该合法化”？有33.5%的受访者回答应
• 众数(modal):出现最多次之属性 • 中位数（median）:按顺序排列后观察属性最中间的那个属性
31名13-19岁受访者的实际年龄，他们有多大？怎么表达？
三种集中趋势的测量方法优劣势
• 平均值：总体平均值，忽略极端值
• 众数：能了解极端最大值 • 中位数：更准确地反映整体图景
离散趋势
表示单变量资料最基本的形式是将所有的单个样本都报告出来，也就是按照问题中的变量列出研究每一样本的属性。
如何分析上面这个图
• 基于2737个有效样本分析美国人2000年做礼拜的情形； • 频次“583”到底告诉我们什么信息？ • 21%或者大约每5个美国人中有1个人，他的答案是从不上教堂；
• 美国人有没有宗教信仰？（如何通过图表分析17.8%+7.1=24.9，大约四分之一的，美国人说他们参加礼拜的次数是每周至少一次）
频次分布：对一样本中变量的不同属性出现次数的描述（条形图）
集中趋势的几种表述
• 平均数的概念：棒球比赛平均击中率为 0.300，什么意思？ • 算术平均值（mean）：总数除以案例总数
第十三章定量资料分析
◎资料的定量化设计编码类别建立编码簿数据登录 ◎子群比较 ※合并答案的类别 ※处理不知道 ※定性研究的数字化描述
◎单变量分析分布集中趋势离散趋势连续变量和离散变量细节和可处理性
◎双变量分析 ※百分比表格 ※建立和解读双元表格 ◎多变量分析介绍
• 每一个变量都是用原有变量的缩写形式来界定的；如政治观点、参与；
• 每本编码簿必须对变量进行完整的定义（穷尽性）； • 编码簿必须指出每种变量的属性。 • 要给每种属性贴上一个数字标签。（1-3合并）
编码簿部分范例
二、单变量分析
• 单变量分析是一次只检验一个变量的分布情形，尤其是其属性分布。比如测量了性别之后，我们就想看看研究对象中有多少是男性，多少是女性。
该，66.5%的回答不应该，下图则表现了不
同年龄类别的受访者对此问题的回答。
内部子集的一个例子：不同人口子群的反应
不同政治子群对大麻合法化的反应
合并答案的类别
比较两个图表的区别，并思考为什么要合并？
如何处理“不知道”？
处理“不知道”
• • • • • • • 100-26=74 48÷0.74=65% 27÷0.74=35% 提供了什么新的解释？法国和前西德有最多肯定的评价美国和英国稍低日本虽最低，但持肯定评价的比例已从12% 上升至20%
如何建立双元表格
1、按照自变量的属性将样本分组；
2、按照因变量的属性来描述这些分组好的子
群体；
3、最后，按照因变量属性将自变量的子群相比较，以解读这个表格。
列表联的一些不成文规定
• 因变量必须依自变量值而定； • 表格必须要有表头或标题，描述表中内容； • 变量原来的内容必须清楚说明，或者外加一段附于表中； • 每一个变量的属性必须清楚地说明； • 表格百分比必须要说明计算基准。 • 若因缺失资料要将某些样本删除，其数量必须标示于表格中。
• 性别和年龄分别对上教堂有独立的影响。在任一个自变量的属性内，另一个自变量属性仍对行为有影响； • 两个自变量对于行为具有累加的作用。年轻男性VS年老女性。
简化模式
另一个例子
• 工作年限确实会影响收入；
• 不论工作年限长短，女性就是比男性赚钱少； • 另外的发现：如何解释10年以上工作年限的女性工资少于2年工龄的男性？ • 如何解释： • 一个验证
一、资料的定量化
如何把资料转化为数据
年龄和收入男、女宗教、党派思考：开放式问卷答案如何编码？你从事什么职业？
A: 1、专业技术类 2、管理类 3、职员类 4、非熟练工人5、其他（内部分工）
B: 1、制造业 2、保健业 3、商业类 4、其他（行业种类） C:1、蓝领 2、白领（生产方式、消费方式）
D:1、雇佣 2、被雇佣（劳资关系）
一、资料的定量化
如何设计编码
编码过程要修改编码类别编码类别需要详尽
解释编码的理由和每个类别的意义
问：学生们认为其学校面临的最大问题是什么？
建立编码簿
• 编码簿的两个功能:一是编码过程中的基本指南，二是告诉每个变量在资料文档中的位置以及每个代码所代表的意思。
五、多变量分析
• 双变量的扩展；
• 运用多个自变量来解释，例如同时分析年龄、性别和社会阶级对宗教虔诚度的影响。 • 如何解读下面这个多变量分析关系？
一个多变量关系的例子
解读
• 男性与女性当中，年老者上教堂比年轻者频繁；
• 在每一个年龄段中，女性上教堂比男性频繁； • 性别比年龄对宗教活动的参与更有影响；
• 离散趋势：测量值围绕中心值-比如平均数的分布。最简单的离散测量是极差。 • 除了可以报告年龄平均值为15.87岁之外，还可以说明他们的年龄分布是13—19岁。 • 标准差：某套资料的变异程度的指标。
• 高标准差意味资料分散，低标准差意味资料聚集。 • 职业高尔夫球手和业余高尔夫球手
关于平均差的进一步说明
职业和业余高尔夫球手的得分
连续变量和离散变量
• 连续变量：以微小的速度稳定增加比如年龄；
• 离散变量：从一个类别跳到另一个类别，中间没有联结，比如性别、大学年级 • 定类、定序、定距和定比分别属于什么变量？ • 定类和定序：用原始数值或者百分比，众数 • 定距和定比：可用均值和中位数
单变量处理的注意事项
四、双变量分析
• 单变量分析和子群比较集中在描述研究中
的人；百度文库
• 双边量分析分析集中在变量及其相互关系
上。 • 如何确定正确的百分比方向？ • 如何解读百分比表格？
一个例子
解读的规则
• 如果表格是纵向百分比，按行横向来读；
• 如果表格是横向百分比，按列纵向来读；
例2 报纸社论对于大麻合法化的立场
• 对围绕平均值的离散趋势的测量 • 比如68%的个案将会位于离平均值加减一个标准差的范围内；95%的个案将会位于加减两个标准差的范围内；99.9%的个案将位于加减三个标准差的范围内。什么意思？ • 比如某群体的平均年龄是30岁，而标准差为10。那么68%的人的年龄在20和40岁之间。
• 标准差越小，值就越围绕平均值而聚集，标准差越大，值就越分散。
教育是否能解释上述困惑？