第十一章双变量统计分析
卫生统计学两变量关联性分析
.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设
3.4 用统计表和统计图做描述分析:双变量
有用的统计学Statistics第3讲描述分析中央财经大学统计与数学学院学习目标:•单个变量时,用哪些统计表和统计图•两个变量时,用哪些统计表和统计图3.4用统计表和统计图做描述分析:双变量1.两个定性变量:(1)使用列联表–依据两个定性变量的取值交互情况,分别统计每种取值实际被观测到的频次表2六个城区不同楼层的二手房数量楼层低楼层中楼层高楼层城区东城丰台朝阳海淀石景山西城444546512129 443749413960 4965465337471.两个定性变量:(2)使用堆积柱形图–可以对比各个城区中不同楼层的二手房数量分布情况图1六个城区不同楼层二手房数量的堆积柱形图1.两个定性变量:(3)表示比例的堆积柱形图–横轴上的6根柱子高度是一致的,每根柱子内部的色块高度表示对应城区中不同楼层二手房所占的比例图2六个城区不同楼层二手房比例的堆积柱形图2.两个定量变量:使用散点图–将定量变量的观测值绘制在二维平面上–判断定量变量之间的相关关系:✓相关方向:正相关、负相关;✓相关形态:线性相关、非线形相关;✓相关关系的密切程度:强相关,弱相关,基本不相关图3面积与房价的散点图3.一个定量变量+一个定性变量:使用分组箱线图图4不同城区房价的分组箱线图–对定性变量的每个取值,单独绘制对应的定量变量数据的箱线图,把所有的箱线图放在一起做横向比较。
–如图4所示,可以在一个图内同时观察到:不同城区的房价在集中趋势、离散程度上是否有差异,不同城区是否都存在极端房价的情况小结描述两个变量时,按照它们的组合情况来选择恰当的统计表和统计图:•对于两个定性变量,可以绘制列联表、堆积柱形图来展示两个变量的观测值分布情况•对于两个定量变量,可以绘制散点图,帮助判断两个变量的相关方向、相关形态、相关关系的紧密程度。
•对于一个定性变量、一个定量变量的情况,可以绘制分组箱线图本章总结•描述统计可以帮助我们快速地从数据中提取有用信息。
第十一章 定量资料分析
2 统计分析方法必须和其他分析方法结合运 用 数量关系只是客观事物存在的诸种关系中 的一种,而不是全部。统计分析方法不是 万能的,它有自身独特的长处。也有无法 克服的局限性,它不能代替其他分析方法。 其次,统计分析方法能够帮助发现社会现 象中不易察觉的规律,但对规律的揭示要 借助于有关学科的理论。
3 统计分析有一套专门的方法和技术 统计学是对社会现象作定量研究和分析的 科学武器;计算机技术是进行统计研究的 技术工具;统计分析的数字成果是运用数 字模型来描述、解释、预测社会现象。
第二节 单变量统计分析
主要分为两个大的方面, 主要分为两个大的方面,即描述统计和推论 统计。 统计。 描述统计的主要目的在于用最简单的概括 描述统计的主要目的在于用最简单的概括 形式反映出大量数据资料所容纳的基本信 包括集中趋势分析 离散趋势分析等 集中趋势分析、 息。包括集中趋势分析、离散趋势分析等。 推论统计的主要目的 的主要目的, 推论统计的主要目的,是从样本中所得到 的数据资料来推断总体的情况,它主要包 的数据资料来推断总体的情况, 推断总体的情况 区间估计和假设检验等 括区间估计和假设检验等。
统计分析概述
统计分析就是运用统计学的方法对调查得到的数据资料进 行定量分析,以揭示事物内在的数量关系、规律和发展的 一种资料分析方法。其主要作用: 1 为研究提供一种清晰准确的形式化语言,对资料进行简 化和描述。 如对人们在一胎化政策实行前的行为进行研究,可以发现 生育行为受文化程度的影响。从总体上看,文化程度高的 妇女其子女数量少于文化程度低的妇女。用定性分析的方 法只能得出这样一个概略的认识。采用定量方法进行分析 就可以将这种关系提炼成一个数学方程式:Y=4.38- 0.16X。Y代表任何一个妇女生育子女的数量,X代表文化 程度。从这个方程中可以看出,每提高一组文化程度,就 可以少生0.16个孩子。
统计习题——精选推荐
卫生统计学习题第二章定量资料的统计描述1. 1985年某省农村30例6-7岁正常男童胸围(cm)测量结果如下:51.6 54.1 54.0 56.9 57.7 55.558.3 55.4 53.8 57.7 51.3 53.8 57.3 54.8 52.1 55.3 54.8 54.7 53.4 57.1 53.1 55.9 51.4 54.6 56.1 61.859.3 56.8 59.8 53.9(1)试编制以上数据的频数表,绘制直方图,概括其分布特征。
(2)用合适的统计量描述其集中趋势和离散趋势。
(3)对样本进行正态性检验第三章定性资料的统计描述1.某地通过卫生服务的基线调查得到如下资料,试作如下分析:(1)计算全人口的性别比;(2)计算育龄妇女(15~49岁)占总人口的百分比;(3)计算总负担系数;(4)计算老年人口系数某地人口构成情况年龄组(岁)男(%)女(%)年龄组(岁)男(%)女(%)0~ 4.2 4.0 45~ 2.4 2.75~ 3.2 3.1 50~ 2.1 2.410~ 4.4 4.2 55~ 1.2 2.215~ 5.5 5.3 60~ 1.3 2.420~ 5.1 5.2 65~ 1.1 1.425~ 6.0 6.1 70~ 0.8 1.230~ 4.3 4.5 75~ 0.5 0.935~ 3.2 3.3 80~ 0.2 0.540~ 2.3 2.5 85~ 0.1 0.2第四章常用概率分布1.假定虚症患者中,气虚型占30%。
现随机抽查30名虚症患者,求其中没有1名气虚型的概率、有4名气虚型的概率。
2.某溶液平均1毫升中含有大肠杆菌3个。
摇均后,随机抽取1毫升该溶液,内含大肠杆菌2个和低于2个的概率各是多少?3.某人群中12岁男童身高的分布近似正态分布,均数为144.00cm,标准差为5.77cm,试估计(1)该人群中12岁男童身高集中在哪个范围?(2)求人群中12岁男童身高的95%和99%参考值范围;(3)求人群中12岁男童身高低于140cm的概率;(4)求人群中12岁男童身高超过160cm的概率;第五章参数估计基础1.某研究表明新研制的一种安眠药比旧安眠药增加睡眠时间。
第十一章 统计分析和调查报告
• 2、定序变量 • 3、定距或定比变量
第十三章 撰写研究报告
• 研究研究报告及其类型 • 研究报告是反映社会调查成果的一种书面 报告,它以文字、图表等形式将调查研究 的过程、方法和结果表现出来。其目的是 告诉有关读者,对于所研究的问题是如何 进行调查的,取得了哪些结果,这些结果 对于认识和解决这一问题有哪些理论意义 和实际意义等等
其它故事与发表情况
• 另外两种形式的故事叫做批判的故事(吸 引读者对社会问题的注意和重视)和形式 的故事(理论的表述)。 • 民族志写作惯例发生了变化。今天,被发 表的现实主义的故事越来越少,而印象主 义或坦白的故事则相对越来越多。 • 没有完美的理论,也没有完美的报告。
• 导言部分 • 普通调查报告的第一部分称作导言,它的主要任务是向读者简要地介绍 整个调查的有关背景。其中,最主要的内容包括调查的目的、调查的内 容、调查的对象、调查的时间、地点、调查的方法等等。导言的具体写 法有下列几种常见的方式。 • (1)直述式 • 即开门见山,平铺直述,直接把调查的目的,内容,对象,范围等一一写出.例 如: • 为了全面了解老年人的生活状况,加强老年人的社会保障工作,沈阳 师范大学社会学系于2003年2月至4月,在辽宁省沈阳市调查了300位老 年人的家庭与生活情况。下面是这次调查的方法及主要结果。 • (2)悬念式。 • 即先描述某种社会现象和社会问题,然后对这种社会现象和问题产生的 原因、它的影响等等提出一系列疑问,最后介绍调查的基本情况.例如: • 老年人丧偶是生活中十分普遍的现象,而老年人再婚,则是近年来出 现在我国社会中的一种新的社会现象。据有关部门统计,本市1980年再 婚老年夫妇为68对,1984年为116对,1988年为302对;1991年为: 495对;1994年为623对。促使老年人再婚比例提高的原因是什么?;社 会舆论对老年人再婚的评价如何?老年人再婚给他们的家庭及其生活带 来了哪些变化?;为了弄清这些问题,沈阳师范大学社会学系于今年3—5月,对沈阳市180对再婚老年夫妇进行了调查。
双变量的统计分析之均值比较与检验
表6—3 按性别分组的描述性统计量
HB
SEX 1 2 Total
Mean 12.6529 10.1095 11.4448
血红R蛋e p白o r t* 性别
N 21 19 40
Std. Deviation
2.0531 1.6989 2.2690
Variance 4.215 2.886 5.148
Sum 265.71 192.08 457.79
输入置信区
间,一般取 90、95、99 等。
MEANS过程
一、 Means过程 该过程实际上更倾向于对样本进
行描述,可以对需要比较的各组 计算描述指标,包括均值、标准 差、总和、观测量数、方差等一 系列单变量统计量。 二、完全窗口分析 按Analyze—Compare Means— Means顺序,打开Means主对话 框(如图6--1)。
统计项目。 • 4)单击OK完成。
选hb sex
图6—3 在主对话框选送变量
按Next,进入 layer 2of 2, 选age
图6—4 第二层变量框
选
择
统
复选此2
计
项,第一
项
按此
层次分
目
按钮
组选择
计算方
差分析
和线性
检验
图6—5 Options对话框
2. 结果及分析
表6—1 观测量摘要表
HB * SEX * AGE
表6—8 按年龄分组的eta统计量
HB * AGE
Measures of Association
R
R Squared
.172
.030
Eta Eta Squared
.286
社会研究方法(第四版)第十一章
a 71.87 176 8212 . Y 8212 . .87 X
有了这一回归方程后,我们就可以由预测变量的值 经回归方程计算出标准变量的预测值。如另一名大学生 的身高为170厘米,则其体重的预测值为65.78公斤。
资料审核的方法主要有两种,即逻辑审核与 计算审核。 逻辑审核,即核查资料的内容是否合乎逻辑 和常识,项目之间有无互相矛盾之处,与其 他有关资料进行对照是否有明显出入等等。 计算审核,是针对数字资料进行的审查。要 检查计算有无错误。度量单位有没有错,前 后数字之间有无相互矛盾之处等等。
二、资料的转换
2 定序层次:中位值(中位数)(单选)
其意义为按大小顺序排列,处在一群数据中央位置的数值。 (1)原始资料,求中位值 例如:有9个人,他们的月工资分别如下: 47,42,50,51,92,112,71,83,108 首先作排列处理,从小到大排列 42,47,50,51,71,83,92,108,112 其次求中央位置 Md的位置=(N+1)÷2=(9+1)÷2=5 最后求中位置Md=71
二、单变量推论统计
区间估计 以样本统计量的抽样分布为理论依据,按一 定概率要求,由样本统计量的值来估计总体 参数的值所在的范围,叫做总体参数的区间 估计。 区间估计的实质就是在一定的可信度(置信 度)下,用样本统计值的某个范围来估价总 体的参数值 。范围的大小反映的是这种估计 的精确性问题,而可信度高低反映的是这种 估计的可靠性或和握性问题。
a b
两个变量(预测变量X与标准变量Y)间的回 归分析,是只有一个自变量的线性回归,也叫 一元线性回归。其回归方程为:
Y a bX
其中a,b、对一对特定数据来说是常数:
《双变量的统计分析》课件
目 录
• 引言 • 双变量统计分析基础 • 双变量相关性分析 • 双变量回归分析 • 双变量分布与检验 • 实际应用案例分析
01
引言
主题介绍
01
双变量统计分析是统计学中的一种重要方法,用于 研究两个变量之间的关系。
02
它可以帮助我们了解两个变量之间的关联程度、因 果关系以及预测关系。
非线性相关性分析
识别非线性关系
通过观察数据分布和散点图,识别两个变量之间是否 存在非线性关系。
非线性模型拟合
选择适合的非线性模型(如多项式回归、逻辑回归等 )来描述两个变量之间的非线性关系。
模型评估与验证
对非线性模型进行评估和验证,确保模型的可靠性和 预测能力。
相关性检验
选择相关性检验方法
01
根据数据类型和分布,选择适合的相关性检验方法(如卡方检
力越强。
02
案例2
分析股票价格与成交量之间的关系。通过分析股票市场数据,发现股票
价格和成交量之间存在正相关关系,即价格上涨时成交量增加,价格下
跌时成交量减少。
03
案例3
研究广告投入与销售额之间的关系。通过分析某品牌广告投入和销售额
数据,发现广告投入和销售额之间存在正相关关系,即广告投入越多,
销售额越高。
回归模型的评估与优化
在建立回归模型后,需要对模型进行评估和优化 ,以确保其准确性和可靠性。
评估指标包括决定系数 (R^2)、调整决定系数 (Adj R^2)、均方误差 (MSE) 等。
优化可以通过添加或删除变量、改变模型形式、 使用交叉验证等技术来实现。
05
双变量分布与检验
双变量正态分布检验
正态性检验
资料的统计分析(二)——双变量及多变量分析
变量之间的相关关系按相关程度可分为完全相关、不完全相关和完全不相关。完全相关是指一个 变量的数量变化完全由另一个变量的数量变化确定;完全不相关是指变量之间彼此互不影响,其变量变化 各自独立;不完全相关是指两个变量的关系介于完全相关或完全不相关之间。 4. 单相关、复相关和偏相关
关键词:
相关关系
交互分类
相关分析
均数比较分析
多元回归分析
社会调查方法(第三版)
目 录
新编21世纪思想政治教育专业系列教材
第一节 变量间的关系 第二节 交互分类 第三节 不同层次变量的相关
测量与检验 第四节 回归分析 第五节 SPSS基本应用
社会调查方法(第三版)
01
新编21世纪思想政治教育专业系列教材
(2)不对称形式的两个定类变量关系的测量。
2. χ2 检验
χ2(读作“卡方”)统计量常用于交互分类表中变量之间在总体中是否相关的检验,尤其适合于两个
定类变量在总体中是否相关的检验。
χ2的计算公式为:
χ2检验的具体步骤为:
(1) 建立两变量间无关系的假设(原假设或虚无假设)。
(2)计算出χ2值。
(3) 根据自由度df=(r-1)(c-1)和给出的显著性水平α查χ2分布表,得到临界值。
新编21世纪思想政治教育专业系列教材
第三节 不同层次变量的相关测量与检验
03
一、相关测量法与消减误差比例 二、两个定类变量(或一个定类变量与
双变量相关分析
一、Spearman秩相关的概念
➢ 它是用等级相关系数rs来说明两个变量间相关关 系的密切程度与相关方向。
-1≤rs≤ 1 rs >0:正相关 rs <0:负相关 ➢ 其基本思想是将n对实测值xi、yi ( i=1,2, 3,…,n)分别由小到大编秩,并以其秩次进行 积矩相关分析
例13.4
某研究者对15例30~50岁成年男子的舒张 压(mmHg)与夜间最低血氧含量分级进行研究, 结果见表13.2,试分析两者的关联性。
相关系数的计算
计算公式为
r
(x x )( y y) lxy
(x x )2 ( y y)2 lxxlyy
双肾体积y (ml)
体重 (kg) x 图13.1 15名正常成年人体重和双肾体积的散点图
例13.2
计算例13.1中体重与双肾体积之间的样本相关系数。 由式(13.1)分别算出
lxx x2 ( x)2 / n 2555.733
lyy y2 ( y)2 / n 20270.495
lxy xy ( x y) / n 6301.038
r lxy 0.875 lxxlyy
说明两变量间呈正相关,双肾体积随体重增加而增大, 但需进行假设检验以推断总体上这种相关关系是否存在。
0< r <1
-1< r <0
r=1
r = -1
r=0
r=0
二、相关系数的意义
➢ 相关系数又称积矩相关系数,以符号r表示样本相关 系数。
➢ 说明具有直线关系的两个变量间,相关关系的密切 程度与相关方向的指标。
➢ 相关系数没有单位,其值为-1≤r≤1。r值为正表示正 相关,r值为负表示负相关。r的绝对值表示两变量 直线相关的密切程度。
第十一章 相关分析
第二节 积差相关
计算积差相关系数的基本公式 • 运用标准差与离均差的计算公式
• n为成对数据的数目 • σx表示X变量的样本标准差 • σY 表示Y变量的样本标准差
第二节 积差相关
通常把公式中的 称为协方差。
所谓协方差就是两个变量离均差乘积的平均数,两列变量离 均差的乘积大小,能够反映两列变量的一致性。但不能直接 用协方差表示一致性,因为它有不同的测量单位,是一个很 不稳定的量,为了克服这一缺点,分别用各变量的标准差去 除各自的离均差,使其成为无实际测量单位的标准分数,然 后求其协方差,这样,不同测量单位表示的两列变量的一致 性便可测量,也便于比较。这就是求相关系数的公式中所以 用比率的由来。 相关系数的数值范围在正负1之间的证明
第二节 积差相关
3、相关系数显著性检验当然步骤及方法
① H0:ρ =0条件下,相关系数的显著性检验 对于总体相关系数ρ =0的零假设进行显著性检验时: 当n≥50时,r的抽样分布接近正态,其标准误为:
当n<50时,可用费舍指出的t统计量来检验相关系数的显 著性:
第二节 积差相关
检验的步骤: • 提出假设
第四节 质Байду номын сангаас量的相关
3、多列相关 1)适用资料 两列正态变量资料,其中一列为等距或等比测量数据,另 一列被认为划分为多种变量,称为名义变量。 2)计算公式
式中,Pi为每系列的次数比率,y1为每一名义变量下限的正态曲 线高度,yh 为每一名义变量上线的正态曲线高度,为每一名义变量对 偶的连续变量的平均数,St 为连续变量的标准差。 注意:a)取值范围为-1至1,相关越高,绝对值越接近于1;b)原 始数据代入积差相关的双列次数分布表计算公式,得到的值相等。
第11章 统计分析—双变量
10- 13 10-
社会 统计学
2、方差齐性检验和t检验结果 、方差齐性检验和t
F值>F 0.025 (n 1-1,n 2-1), 说明方差不齐。
10- 14 10-
P值小于给定的显著性水平α, 说明方差不齐。
P值小于给定的显著性水平α, 拒绝原假设。
社会 统计学
社会 统计学
10- 44 10-
社会 统计学
10- 45 10-
社会 统计学
【例2】“年龄段”与“忙碌程度”
10- 46 10-
社会 统计学
10- 47 10-
社会 统计学
10- 48 10-
社会 统计学
10- 49 10-
社会 统计学
斯皮尔曼等级相关系数(spearman)在这: 斯皮尔曼等级相关系数(spearman)在这: Analyze Correlate Bivariate
2、 比较重要 3、 一般 5、 很不重要 6 、说不清楚
10- 40 10-
社会 统计学
1、将被访者学历与“读书的地位”都看成 定类变量,作列联相关的检验。 2、被访者学历与“读书的地位”均为定序 量,作等级相关检验。
10- 41 10-
社会 统计学
10- 42 10-
社会 统计学
10- 43 10-
社会 统计学
二、独立样本T 检验 独立样本T
Analyze Compare Means
IndependentIndependent-Samples检验变量栏 T Test,
打开Independent-Samples T Test对 IndependentTest对
分组变量栏, 话框 只能有一个分 组变量
双变量分析
• 双变量分析(bivariate analysis)目的是理解两个变 量x和y之间统计关系。
• 当两个变量来自同一总体对象,以x为自变量 (independent variable),y为因变量(dependent variable),形成线性关系模型。事实上,线性模 型是应用统计学中最广泛使用的模型,因为线性模 型在形式上简单,易于解释。在适当假设下,线性 模型统计推断非常精彩。
[ExpSigma, ExpCorrC] = cov2corr(ExpCovariance) 其中,ExpCovariance是n×n协方差矩阵,n是随机样本数。 ExpSigma是1×n标准差向量,ExpCorrC是n×n相关系数矩阵。
• ExpSigma(i) = sqrt(ExpCovariance(i,i))
• The methods of bivariate statistics help to describe the strength of the relationship between the two variable, either by a single parameter or by equation.
1.Introduction
• Bivariate analysis aims to understand the relationship between two variables x and y. the two variables are measures on the same object, x is usually identified as the independent variable, whereas y is the dependent variable.
双变量的统计分析相关分析 PPT
那么中国得情况如何? 白威廉(William Parish)得研究最具影响力,白氏通过对
中国大陆1972-1978年间迁居香港得132位移民得访谈, 得到了她们2865位邻居得数据,发现:对于那些在“文革” 前(1966年前)就年满20岁得同期群案例来说,父亲得 “受教育水平”与“职业地位”对子女得受教育水平, 父亲得“职业地位”与“阶级出身”对子女得“职业地 位”获得等具有显著影响作用。但对于那些在“文革” 时期才年满20岁得同期群案例来说,作用却并不显著。 谢文和林南于1983年在北京得调查(N=1774)、林南和 边燕杰于1985在天津得调查(N=1000)等进一步证实:父 亲得职业地位既对人们得初职地位获得毫无影响,也对 人们目前职业地位得获得缺少明显作用。 林南与边燕杰将“工作单位部门”这一具有国家社会 主义特色得指标作为中介变量,置于职业地位之前进行 检验。研究发现,虽然父亲得职业地位对子女得教育和 职业地位获得缺少统计意义得影响,但父亲得“工作单 位部门”却通过对儿子“工作单位部门”得作用而影响 了儿子得初职地位获得,但女儿却无此殊荣。
3
变量之间得关系
两个变量之间得关系 多个变量之间得关系。 在多数情况下,多个变量之间得关系又可以分
解为若干个两个变量之间得关系,也就就是说 多个变量之间得关系可以通过若干个两个变量 间得关系来描述。
4
5
知识点
双变量间关系得种类 主要得双变量得测量方法 (1)交互分析—列联表分析 (2)不同层次变量得测量法 (3)自变量和因变量得关系 相关分析和因果分析
22
•理解:x对y得可认知程度
如假定不知道x得值,我们在认识y时得全部 误差就是E1。我们知道x得值,可以根据x得值 来认识y得值时得误差得总数(不可认知得部 分)为E2,那么用x得值来预测y得值时减少得 误差就就是E1-E2,这个值( E1-E2 )与y全部误 差得比例,则称谓消减了得误差比例
第11章 多因素试验资料的方差分析 1.2节
AB (a2b2 a1b2 ) (a2b1 a1b1 ) 2 (8 4) 2 2 BA (a2b2 a2b1 ) (a1b2 a1b1 ) 2 (24 20) 2 2
即AB=BA。
4个均数可作线图 ,若两条直线几乎相互平 行, 则表示两因素交互作用很小;若两条直线 相互不平行, 则说明两因素可能存在交互作用。
处理组合数 g = 各因素水平数之积。
一、2 ×2两因素析因设计资料的 方差分析
例11-1 将20只家兔随机等分4组,每组5 只,进行神经损伤后的缝合实验。处理由A、 B 两因素组合而成,因素 A 为缝合方法,有两 水平,一为外膜缝合,记作 a1 ,二为束膜缝 合,记作a2;因素B为缝合后的时间,亦有两 水平,一为缝合后1月,记作b1,二为缝合后 2月,记作b2。试验结果为家兔神经缝合后的 轴突通过率(%),见下表。欲用析因分析比较 不同缝合方法及缝合后时间对轴突通过率的 影响。
第十一章 多因素实验资料的 方差分析
单因素实验:只涉及一个处理因素(至少两 个水平),只是根据实验对象的属性和控制实 验误差的需要,采用的实验设计方法有所不同。
多因素试验:处理因素不止一个。如4种饲 料是由脂肪含量和蛋白含量两个因素复合组成, 研究目的不仅是比较4种饲料的差别,还要分 别分析脂肪含量高低、蛋白含量高低对小鼠体 重的影响,就是两因素的试验。此时可做析因 分析。
第二节
正交设计与方差分析
33
一、正交设计的基本概念
析因设计是全面试验,g个处理组是各因素
各水平的全面组合;如2×2×2×2×2析因 实验有32个处理。
正交设计是非全面试验,g个处理组是各因
素各水平的部分组合,或称析因实验的部分 实施。如以上析因试验用正交设计可选1/2 实施方案有16个处理。
第十一章双变量统计分析
第十一章双变量统计分析在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
在这一讲中我们介绍几种双变量的统计分析方法。
一、交互分类表交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
1、条件次数表:表10-1是交互分类表的一个例子:表10-1 500名工人的文化水平与工资收入交互分类表〔人〕〔1〕表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。
从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。
在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。
(2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。
如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目〔rows简写r〕乘上纵行数目〔columns简写c〕,即表的大小=r ×c。
这个先后次序的用意是表示前者〔因变量〕是受后者〔自变量〕影响的。
要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含不同类别数。
2、条件百分表:条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。
为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。
如上表可改成百分表为:表10-2 500名工人文化水平与工资收入的交互百分表〔%〕在计算条件百分表时,最好能依据下列准则:〔1〕每个表的顶端要有表号和标题。
加上表号,可以方便讨论和减少混乱。
简明标题,能使读者容易领会表内统计数值的意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章双变量统计分析在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
在这一讲中我们介绍几种双变量的统计分析方法。
一、交互分类表交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
1、条件次数表:表10-1是交互分类表的一个例子:表10-1 500名工人的文化水平与工资收入交互分类表(人)(1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。
从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。
在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。
(2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。
如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r ×c。
这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。
要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含不同类别数。
2、条件百分表:条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。
为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。
如上表可改成百分表为:表10-2 500名工人文化水平与工资收入的交互百分表(%)在计算条件百分表时,最好能依据下列准则:(1)每个表的顶端要有表号和标题。
加上表号,可以方便讨论和减少混乱。
简明标题,能使读者容易领会表内统计数值的意义。
(2)绘表时所用的线条,要尽可能简短。
舍去不必要的线条,可以节省绘制的功夫,也会令人对表中的数值一目了然。
(3)在表上层的自变量每个值之下的%号,表示下列的数值是百分率。
如果表内每个数值都附有%符号,就太繁复了。
(4)计算百分比表通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,理应计算在不同的自变量情况下,因变量的变化如何。
如上表是要分析教育水平对工资收入的影响,各个百分率所表示的,是在不同的教育水平中的工资收入情况。
如果教育水平不同,工资收入也不同,就表示教育对工资是有影响的了。
(5)表下层括弧内的数值,表示在计算百分率时所依据的个案总数。
写出这些数值,可以使我们知道各列百分率的基础,同时也使我们可以随时将百分率数值变回原来的次数值。
(6)表内百分率数值的小数位要保留多少,视乎研究的需要,但最好是有一致性。
例如上表既然用6.5与73.5,就要用20.0而不是20,这个小数点后的0是有意义的,它表示全部百分率的计算都是以保留一位小数作准则。
二、相关分析(一)统计相关的性质1、所谓相关,是指一个变量的值与另一个变量的值有连带性。
也就是一个变量的值发生变化,另一个变量的值也发生变化,则两个变量就是相关的了。
2、两个变量之间的相关程度有强弱之分,可用统计法予以测量。
大多数统计0代表无相关,1代表完全相关,介于0和1之间的数值越大,表示相关程度越强。
3、另一种值得注意的性质是相关方向,也可用统计法予以测量。
变量之间的关系可以分为正与负两个方向。
所谓正相关表示当一个变量的值增大时,另一个变量的值也增大;所谓负相关则表示当一个变量的值增加时,另一个变量的值却减少。
这里要注意,相关方向的分析只限于定序以上层次的变量,因为这些变量的值有高低或多少之分。
至于定类变量,则没有相关方向的问题。
4、虽然相关系数可以描述变量间关系的有无、大小和方向,但相关系数多大时才能断定两个变量有必然的、规律性的联系,是很难说的,在统计学中需要大于0.7以上,但社会现象间很少有这样密切的联系,所以研究人员一般要结合定性分析来断定事物内在的、本质的联系。
5、数据所显示的相关(或无关)关系,实际上也可能并不反映变量间存在(或不存在)有意义的关系。
(二)相关测量法1、相关测量法就是以一个统计值表示变量与变量间的关系,这个统计值称为相关系数。
相关测量法有很多种,我们在选择时首先要注意变量的测量层次,不同层次的变量要用不同的相关测量法。
其次,要注意两个变量之间的关系是否对称。
对称关系是指两个变量X与Y,我们不确定或不区分两变量之间影响的方向。
反之,如果我们认为X影响Y,而Y不会影响X,这种情况称为不对称关系。
有些相关测量法假定变量之间具有对程关系,有些则假定是不对称关系。
另一项选择标准,就是统计值的意义。
有些相关测量法所计算出来的统计值除相关程度外,还含有其它意义,我们最好选择统计值有意义的相关测量法。
在统计学中有一组相关测量法,其统计值具有消减误差比例的意义,称为PRE测量法。
这组测量法常用在社会学研究中。
2、消减误差比例社会学研究的主要目标是预测或解释社会现象的变化。
比如有一种社会现象是Y(例如工资收入),我们就要预测或理解其变化的情况。
预测或解释时,难免会有误差(即错误)。
假定另一种社会现象X(例如文化水平)是与Y有关系的,如果我们根据X的值来预测Y的值(例如根据文化来估计其工资水平),理应可以减少若干误差。
而且,X与Y的关系愈强,所能减少的预测误差就会愈多。
换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。
现在假定不知道X的值,我们在预测Y值时所产生的全部误差是E1。
如果知道X的值,我们可以根据X的每个值来预测Y值;假定误差的总数是E2,则以X值来预测Y值时所减少的误差就是:E1—E2。
这个数值(E1—E2)与原来全部误差(E1)相比,就是消减误差比例。
可用下面的公式表示:PRE=121 E EEPRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例愈大;也就是说,X与Y的关系愈强。
消减误差比例适用于各种测量层次的变量,但公式中的E1 与E2的具体定义在不同层次的变量间,或同一层次的变量内部有所不同。
3、相关测量法测量不同层次的变量有不同形式的相关系数。
下面介绍几种相关系数:(1)、λ相关:用于测量两个定类变量间的相关关系。
λ相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众数作为预测的准则,可以减除多少误差。
消减的误差在全部误差中所占的比例愈大,就表示这两个变量的关系愈强。
λ相关测量法有两种形式:一种是对称形式,用λ表示,即用于测量的两个变量间的关系是对等的,没有自变量与因变量之分;另一种是非对等的,用λy 表示,即所测量的两个变量有自变量与因变量之分,X 是自变量,Y 是因变量。
公式如下:(公式写错了)λ=)(2)(y x y x y x M M n M M m m --+-+∑∑ λy =y yy M n M m --∑其中,My=Y 变量的众数次数Mx=X 变量的众数次数my=X 变量的每个值(类别)之下Y 变量的众数次数mx=Y 变量的每个值(类别)之下X 变量的众数次数n 全部个案数目例1:根据下表(表10-3)的资料计算λ系数表10-3性别与吸烟态度的交互分类(人)根据λy 系数公式有λy =y yy M n M m --∑=114200114)6296(--+=0.51 因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。
例2:研究青年人的志愿与他们的知心朋友的志愿是否相关,得到下表的统计资料。
试计算λ系数。
表4 青年人与其知心朋友的志愿由于青年人的志愿与他们的知心朋友的志愿可能是相互影响的,难于区分何者是自变量或因变量,故用λ相关测量法的对称形式。
根据λ系数公式有:λ=)(2)(y x y x y x M M n M M m m --+-+∑∑=2、G 相关:用于测量两个定序变量间的关系,用G 来表示。
G 系数值在-1至+1之间,既表示相关的程度,也表示相关的方向,而且也都有消减误差比例的意义。
G 相关测量法的基本逻辑是:根据任何两个个案在某变量上的等级来预测他们在另一个变量上的等级时,可以减少的误差是多少。
换言之,G 相关测量法是以每对个案之间的相对等级作为预测的准则。
G 系数的计算公式是:G=ds d s N N N N +- 式中Ns 表示同序对数目,Nd 表示异序对数目。
所谓同序对是指某对个案在两个变量上的相对等级相同,如果不相同,则称为异序对。
下面举例说明Ns 和Nd 的计算方法。
例2:根据下表(10-4)的资料计算G 系数表10- 文化程度与收入的交互分类表表中计算同序对数量等于表内每个频数乘以其右下方全部频数之和,然后加总,而异序对数量则等于表内每个频数乘以其左下方全部频数之和,然后加总。
因而上例中:Ns=12(30+5+16+12)+10(5+12)+8(16+12)+30(12)=1510 Nd=3(30+8+16+4)+10(8+4)+5(4+16)+30(4)=514 G==d s d s N N N N +-=51415105141510+-=0.49 说明用文化程度去预测收入水平,可以消减49%的误差。