第十一章 两变量的关联性分析
双变量关联性分析
![双变量关联性分析](https://img.taocdn.com/s3/m/f2cc67c1ccbff121dc368355.png)
2
P416 1 2 3
作业
谢谢!
基本思想
对于不符合正态分布的资料,不用原始数据计算相关系数,而是按其取值由小到大排秩,然后根据其秩次来计算秩 相关系数。
设有 n 例观察对象,对每一例观察对象同时取得两 个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到 大排秩为1, 2, …, n。它们的秩分别为 与 ,将 及 的秩次直接代入直线相关系数的计算公式可得到 Spearman秩相关系数 。
2
➢ 2×2 列联表 ➢ R×C列联表
关联性分析
例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年, 并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存
在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
nRnC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒绝 H0 ,接受 H1 ,可以认为自我效能感与领导行为类型之间有关 联。
进一步计算列联系数:
r
2 2n
115.508 0.481 115.508384
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用
病例号
1 2 3 4 5 6
血小板数
120 130 160 310 420 540
出血症状
++ +++
+ +
【2024版】变量之间的关联性分析
![【2024版】变量之间的关联性分析](https://img.taocdn.com/s3/m/078ad95e590216fc700abb68a98271fe910eaf21.png)
可编辑修改精选全文完整版变量之间的关联性分析六、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析七、回归分析1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2, (X))可以为连续型变量、有序分类变量或二分类变量。
如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2)配对的情况:用条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
两变量关联性分析
![两变量关联性分析](https://img.taocdn.com/s3/m/4d50f838b52acfc789ebc9d5.png)
三 R×C表分类资料的关联性分析
• 例11-8 某地居民主要有三种祖籍,均流 行甲状腺肿。为探索甲状腺肿类型与祖籍 是否有关联,现根据居民甲状腺肿筛查结 果,按甲状腺肿类型与祖籍两种属性交叉 分类,得表11-6的资料。问甲状腺肿类型 与祖籍见有否关联?
表11-6 某地居民按甲状腺肿类型与祖籍两种属性的交叉分 类表
表11-3婴儿腹泻与喂养方式的关系
喂养方式
人工 母乳 合计
腹泻
有
无
30
10
17
25
47
35
合计
40 42 82
• 假设检验 H0 :喂养方式与婴儿腹泻之间相互独立 H1 :喂养方式与婴儿腹泻之间有关联
0.05
将表中各数据代入公式(7-7)得
2 9.98
2
2 0.005,1
7.78,
4,查 2界值表,
2
2 0.005,4
18.55,
p 0.005,拒绝零
假设,说明甲状腺肿类型与祖籍之间有关联性
计算列联系数
r
2 2 n
723.783 0.579 723.783 1436
线性相关中应注意的问题
1.样本的相关系数接近零并不意味着两变量间一定无相关性.
两个有联系的变量并非都属线性联系。两变量间无线性关 系,但却存在非线性的曲线联系。例如,很高血压和很低 血压的人死亡率均较高, 而中等血压的人死亡率较低, 于是, 死亡率和血压之间有曲线性联系。还有如血液浓度与时间 之间的关系、某放射性污染物对环境的污染浓度与污染源 距离之间的关系等,都有曲线性联系,但它们的样本相关 系数却都接近零。
第二节 秩相关(rank correlation)
第十一章 两变量关联性分析
![第十一章 两变量关联性分析](https://img.taocdn.com/s3/m/bff6fe97c5da50e2534d7f2f.png)
第十一章两变量关联性分析习题
一、是非题
1、Pearson相关系数的假设检验.苦结论为不拒绝H0,可以认为两变量间无关系. ()
2、在同样样本量的情况下.Pearson相关系数|r|越接近1(P<0.05).说明两变量间直线关系越密切. ( )
3、计算关联系数时两随机变量不能为无序分类资料. ()
4、|r|越大(P<0.05),说明X对Y的影响幅度越大. ()
5、ρ≠0,意味着X和Y之间的因果关系成立. ()
二、选择题
1.下列式中可以取负值的是:
A.l xx B.l xy C.l yy D.关联系数
2.直线相关系数的假没检验,其自由度为:
A.n B.n-1 C.n-2 D.2n-1
3.计算Pearson相关系数要求:
A.应变量Y是正态变量.而自变量X可以不满足正态的要求
B.自变量X是正态变量.而应变量Y可以不满足正态的要求
C.应变量Y是定量指标.而自变量X可以是任何类型的数据
D.两变量都要求为满足正态分布规律的随机变量
4.两组资料进行相关性分析.一个r0.01,v1>r1>r0.05,v1,另一个r2>r0.01,v2,可认为:A.第l组资料两变量关系密切
B.第2组资料两变量关系密切
C.很难说哪一组变量关系密切
D.t r1>t r2
三、筒答题
1.r、r s和列联系数的应用条件有何不同?
2.应用线性相关分析时应该意哪些问题?
3.线性相关分析的基本步骤是什么?
4.关联性分析的χ2检验与两个或多个频数分布比较的χ2检验的设计和意义有什么区别?
5.线性相关分析中绘制散点图的目的是什么?能否用散点图来代替相关系数?。
《两变量关联性分析》课件
![《两变量关联性分析》课件](https://img.taocdn.com/s3/m/2421cfe6294ac850ad02de80d4d8d15abf23007f.png)
相关系数、散点图、回归分析等。
两变量关联性分析的重要性
实际应用
在经济学、社会学、生物学等领域,两变量关联性分 析被广泛应用于探索两个变量之间的关系。
理论意义
有助于理解现象之间的内在联系,为进一步的研究提 供依据。
预测价值
通过分析两个变量的关联性,可以对未来的趋势进行 预测。
两变量关联性分析的应用场景
两变量关联性分析的案例
案例一:销售与广告投入的关联性分析
总结词
广Hale Waihona Puke 投入对销售的影响详细描述通过收集某公司一段时间内的广告投入和销售数据,分析广告投入与销售量之 间的关联性。可以采用相关系数、回归分析等方法,探究广告投入对销售的贡 献程度,为企业制定营销策略提供依据。
案例二:股票价格与经济指标的关联性分析
模型参数设置
根据模型要求设置参数,如回归系数、置信区间等。
模型评估
通过交叉验证、R方值等方法评估模型的性能和准确性。
结果解释与决策
结果解读
对分析结果进行解读,理解两变量之间的关 联性。
制定决策
根据分析结果制定相应的决策,指导实践。
结果验证
对分析结果进行实际验证,确保其在实际应 用中的有效性。
04
。
03
将关联性分析结果与其他方法或经验进行比较,以评
估其可信度和实用性。
针对某品牌的产品,收集消费者对其不同属性的评价数据,分析产品属性与消费者行为之间的关联性。例如,研 究产品价格、质量、外观、品牌形象等因素对消费者购买决策的影响,为企业改进产品设计和营销策略提供依据 。
05
两变量关联性分析的注意事项
数据质量与完整性
确保数据来源可靠, 无缺失值和异常值。
第十一章 相关分析
![第十一章 相关分析](https://img.taocdn.com/s3/m/8a4dd86e7e21af45b307a814.png)
第二节 积差相关
计算积差相关系数的基本公式 • 运用标准差与离均差的计算公式
• n为成对数据的数目 • σx表示X变量的样本标准差 • σY 表示Y变量的样本标准差
第二节 积差相关
通常把公式中的 称为协方差。
所谓协方差就是两个变量离均差乘积的平均数,两列变量离 均差的乘积大小,能够反映两列变量的一致性。但不能直接 用协方差表示一致性,因为它有不同的测量单位,是一个很 不稳定的量,为了克服这一缺点,分别用各变量的标准差去 除各自的离均差,使其成为无实际测量单位的标准分数,然 后求其协方差,这样,不同测量单位表示的两列变量的一致 性便可测量,也便于比较。这就是求相关系数的公式中所以 用比率的由来。 相关系数的数值范围在正负1之间的证明
第二节 积差相关
3、相关系数显著性检验当然步骤及方法
① H0:ρ =0条件下,相关系数的显著性检验 对于总体相关系数ρ =0的零假设进行显著性检验时: 当n≥50时,r的抽样分布接近正态,其标准误为:
当n<50时,可用费舍指出的t统计量来检验相关系数的显 著性:
第二节 积差相关
检验的步骤: • 提出假设
第四节 质Байду номын сангаас量的相关
3、多列相关 1)适用资料 两列正态变量资料,其中一列为等距或等比测量数据,另 一列被认为划分为多种变量,称为名义变量。 2)计算公式
式中,Pi为每系列的次数比率,y1为每一名义变量下限的正态曲 线高度,yh 为每一名义变量上线的正态曲线高度,为每一名义变量对 偶的连续变量的平均数,St 为连续变量的标准差。 注意:a)取值范围为-1至1,相关越高,绝对值越接近于1;b)原 始数据代入积差相关的双列次数分布表计算公式,得到的值相等。
管理统计学习题参考答案第十一章
![管理统计学习题参考答案第十一章](https://img.taocdn.com/s3/m/7bdd0fe32f60ddccdb38a048.png)
一章1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。
既可以从描述统计的角度,也可以从推断统计的角度来说明。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
由于相关分析不能指出变量间相互关系的具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了一个重要的方法。
在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此,在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
11 两变量关联性分析
![11 两变量关联性分析](https://img.taocdn.com/s3/m/7383c12d2af90242a895e58b.png)
第十章 两变量关联性分析[教学要求]了解:利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。
熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。
掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson 积差相关、Spearman 等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。
[重点难点]第一节 线性相关对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson 积差相关系数;∑∑∑===−−−−==n i n i n i yy xx xyy y x x y y x x l l l r 11221)()())(( 对积差相关系数r 的假设检验可用查表法或t 检验。
这里要注意的是不可用相关系数检验所得P 值的大小来判断有否线性关系。
一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。
第二节 秩相关对不满足正态分布的两变量随机样本,可采用Spearman 秩相关来分析。
这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中的一个,也可以是两个。
教材中的例10-5是研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足Pearson 积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。
Spearman秩相关系数或等级相关系数的计算公式同Pearson积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson积差相关系数的计算公式中去计算;秩相关系数用表示,对其检验也是用查表法或t 检验。
若以表示X s r i p i 秩次;表示Y i q i 的秩次,d i =-表示成对秩次的差值,则Spearman秩相关系数的计算也可采用下式:i p i q )1(6112−−=∑=n n d r ni i s显然Pearson 积差相关与Spearman 秩相关之间有联系也有区别。
第十一讲卫生统计学两变量关联性分析
![第十一讲卫生统计学两变量关联性分析](https://img.taocdn.com/s3/m/667570a6647d27284a73518b.png)
第一节 线性相关
一、线性相关的概念
线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性 质可由图11-2散点图直观的说明。
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。例 如,每人的身高和体重。然后在直角坐标系 上描述这些点,这一组点集称为散点图。
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
医学上,许多现象之间也都有相互联系,例如:身高与体 重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不 相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之 间的关系密切得多,而体重和身高的关系则介与二者之间。 另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝 病毒和乙肝之间是因果关系;但是,有的现象之间因果不清, 只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能 说有因果关系。相关与回归就是用于研究和解释两个变量之 间相互关系的。
为了研究父亲与成年 儿子身高之间的关系,卡 尔·皮尔逊测量了1078对父 子的身高。把1078对数字 表示在坐标上,如图。用 水平轴X上的数代表父亲 身高,垂直轴Y上的数代 表儿子的身高,1078个点 所形成的图形是一个散点 图。它的形状象一块橄榄 状的云,中间的点密集, 边沿的点稀少,其主要部 分是一个椭圆。
相关系数的计算公式:
r
( X X )( Y Y ) l XY
( X X ) 2 (Y Y ) 2
l XX l YY
卫生统计学 (16)
![卫生统计学 (16)](https://img.taocdn.com/s3/m/6af5c54c866fb84ae45c8dde.png)
(1)
(2) (3) (4)
(5)
1
121
1
1
+++
2
138
2
4
++
3
165
3
9
+
4
310
4
16
-
5
426
5
25
++
6
540
6
36
++
7
740
7
49
-
8
1060 8
64
-
9
1260 9
81
-
10
1290 10 100
-
11
1438 11 121 +++
合计
_
78 650
列联系数介于0与1之间,理论上也应就总
体列联系数是否为0作假设检验,但这个假
设检验等价于上述的卡方检验。
二、2*2配对资料的关联性分析
例11-7 有56份咽喉涂抹标本,把每份标本一 分为二,依同样的条件分别接种于甲、乙两种白 喉杆菌培养基上,观察白喉杆菌生长情况,问两 种培养基的结果有无关联?
表11_5 两种白喉杆菌培养结果
r 2 2 n
2
8.43
r
n2
0.3617 8.43 56
列联系数介于0与1之间,理论上也应就总 体列联系数是否为0作假设检验,但这个假 设检验等价于上述的卡方检验。
三、R*C分类资料的关联性
例11-8 为探讨较甲状腺肿与祖籍是否有关联, 按甲状腺肿类型与祖籍两种属性交叉分类,问甲 状腺肿与祖籍有无关系?
表11115名健康成人凝血时间与凝血酶浓度测量值记录受试者号101112131415凝血酶浓度111210091211090610091109111007凝血时间141315151314161714161516141517如果两个随机变量中一个变量由小到大变化时另一个变量也相应地由小到大或由大到小地变化并且直线趋势就称这两个变量存在直线相关关系是描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法13121110181716151413121散点图正相关负相关完全正相关完全负相关零相关2相关系数它又称为积差相关系数pearson相关系数以符号r来表示相关系数
直线相关与回归
![直线相关与回归](https://img.taocdn.com/s3/m/a66a512adcccda38376baf1ffc4ffe473368fdc5.png)
两变量关联性分析
一、线性相关( Linear Correlation ) (一)概念及其统计描述 1、散点图(scatter plot)
为了确定相关变量之间的关系,首先收集一些 数据,这些数据应该是成对的。例如,每人的身高 和体重。然后在直角坐标系上描述这些点,这一组 点集称为散点图。
为了研究父亲与成年儿 子身高之间的关系,卡 尔·皮尔逊测量了1078 对父子的身高。把1078 对数字表示在坐标上, 如图。用水平轴X上的数 代表父亲身高,垂直轴Y 上的数代表儿子的身高, 1078个点所形成的图形 是一个散点图。它的形 状象一块橄榄状的云, 中间的点密集,边沿的 点稀少,其主要部分是 一个椭圆。
直线通过两个特殊点: (0,a)、
(X,Y)
二、回归模型的前提假设(LINE) 1、线性(linear): x与y之间呈线性关系; 2、独立(independent):各观察值之间互相独立; 3、正态性(normal):x、y均服从正态分布; 4、方差齐性(equal):不论x取任何值,y都具有
相同的方差。
计算表:
X(尿雌三醇) Y(产儿体重) X•Y
X2
Y2
7
2.5
9
2.5
9
2.5
12
2.7
…
…
…
…
X
Y
(X •Y) X2 Y2
X
Y
∑X=534,∑Y=99.2, ∑ X2=9876,∑ Y2=324.8,∑XY=1750
41.20
r
0.61
677.42 6.74
从计算结果可以知道,31例待产妇尿中雌三醇含 量与产儿体重之间程正相关,相关系数是0.61。
第十一章
直线相关与回归
第十一章 相关分析
![第十一章 相关分析](https://img.taocdn.com/s3/m/aea20b31f18583d0496459b3.png)
2. 定序测定 分类;排序
3. 定距测定 分类;排序;
计数;排序 态度等级 计数;排序;温度 计数;排序;身高 乘除
有基本测量单位 加减 4. 定比测定 分类;排序;
有基本测量单位; 加减 有绝对零点
第十一章 相关分析
第十一章 相关分析
第十一章 相关分析
第十一章 相关分析
样本相关系数 四、相关系数的显著性检验
积差相关系数的注意事项是:
1.两个变量都是由测量获得的连续性数据。
2.两个变量的总体都呈正态分布或接近于正
态分布。 3.必须是成对的数据,而且每对数据之间是 相互独立的。 4.两个变量之间呈线性关系。 5.排除共变因素的影响。 6.样本容量大于30,最好大于50。
第十一章 相关分析
变量1:对教师的评价分(五等)
变量2:自估成绩;
3,考试前后学生对教师评价得分的关系:
变量1:考前对教师的评价, 变量2:考后对教师的评价;
第十一章 相关分析
第十一章 相关分析
第一节 相关的意义
第二节 积差相关
第三节 等级相关
第四节 质与量的相关 第五节 品质相关
XY
n
标准化之后的协方差
第十一章 相关分析
Y
X
表4-8 各种不同相关的散点图
第十一章 相关分析
课堂练习:计算下面两列数据的相关系数
第十一章 相关分析
注意:相关系数为0者,不一定是没有关系 如下图,它们是非线性关系。
10 8 6 4 2 0 -4 -3 -2 -1 0 1 2 3 4
第十一章 相关分析
X≥78 计
8
4 12
5
8 13
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在H0成立的条件下必有: ij= (ri) (cj)。
Tij
Tij n ij
nrj ncj n
现就例11-6的数据作两种属性的关联性分析 H0:喂养方式与腹泻之间互相独立 H1:喂养方式与腹泻之间有关联 =0.05
82 9.98 40 42 47 35 2 2 0 .005,1 7.88, P 0.005
病人编号
(1) 1 2 3 4 5 6 血小 板 (2) 121 138 165 310 426 540
秩次
(3) 1 2 3 4 5 6
p2
(4) 1 4 9 16 25 36
现血症 状 (5) +++ ++ + ++ ++
秩次
(6) 11.5 9.0 7.0 3.5 9.0 9.0
q2
(7) 132.5 81 49 12.25 81 81
三、R*C分类资料的关联性
例11-8 某地居民主要有三种祖籍,均流行甲状 腺肿。为探讨较甲状腺肿与祖籍是否有关联,现 根据居民甲状腺肿复查结果,按甲状腺肿类型与 祖籍两种属性交叉分类,得表11-6的资料。问 甲状腺肿与祖籍有无关系?
表11-6
祖籍
某地居民按甲状腺肿类型与祖籍两属性的交叉分类表
甲状腺肿类型 弥漫型 结节发型 混合型 合计
查rs临界值表,
rs r12,0.1 0.503, P 0.1, 按=0.05的水准,接受H 0,
可以认为急性白血病患儿的出血症状与血小板间无相关关系。
第三节
分类变量的关联性分析
对两个定量变量间线性联系我们用 pearson积差相关系数或秩相关系数来 描述,对于定性变量间的联系通用方法 是根据两个定性变量交叉分类计数所得 的频数资料作关联(association)分析, 即关于两独立性的卡方检验。
检验统计量仍采用拟合优度卡方检验: 2 Aij Tij 现讨论理论能用样本中的频数近 ncj nri 似地代替 ri , ci n n n nri ij ri cj cj 于是 n n H 0成立的条件下,理论频数Tij估计公式为:
表11-1
受试者号 凝血酶浓度 凝血时间
15名健康成人凝血时间与凝血酶浓度测量值记录
1 2 3 1.0 15 4 0.9 15 5 1.2 13 6 1.1 14 7 0.9 16 8 0.6 17 9 1.0 14 10 0.9 16 11 1.1 15 12 0.9 16 13 1.1 14 14 1.0 15 15 0.7 17
1.1 1.2 14 13
1、散点图
18 17
¨ÄÄ ±ÄÄ ÄÄÄ
.6 .7 .8 .9 1.0 1.1 1.2 1.3
16
15
14
13
12 .5
ÄÄÄÄ ¨ÄÄ ¨ÄÄ/Ä ÄÄÄ
1 ) . 正相关: 散点呈椭 圆形分布,Y随X的增加而增 加,X随Y的增加而增加,即 两变量X、Y同时增大或减小, 变化趋势是同向,称为正相 关;各点的排列越接近椭圆 的长轴,相关也就越密切。 当各点的分布在一条直线上 时,则X与Y就是完全正相关 了。
甲 乙 丙
486 133 100
2 260 315
4 51 85
492 444 500
合计
719
577
140
1436
: 甲状腺肿类型与祖籍无关联 :甲状腺肿类型与祖籍有关联
对于此类资料,研究常常分析两分类变量间 有无关系?关系的密切程度如何?此时可用 行*列表的卡方检验来推断两个分类变量间有 无关系:在有关系的前提,若须进一步分析 关系的密切程度时,可计算Pearson列联系r。 列联系数取值范围在0-1之间. 2
一、交叉分类2*2表的关联性分析 例11-6 为观察婴儿腹泻是否与喂养方 式有关,某医院儿科随机收集了消化不良的婴 儿82例,把该院儿科所有消化不良的患儿视为 一个总体的话,则该院82例患儿可看成是一份 随机样本。对每个个体分别观察腹泻与否和喂 养方式两种属性,2*2种结果分类记数如表11 -3所示。试分析两种属性的关联性。
24.5
28 31.5 35 126.5 42 451
一、Spearman等级相关 它是用等级相关系数rs说明两变量间相关 关系的密切程度和方向。
rs也应进行相关性检验,在n小于等于50 时用查表法,当n大于50时计算统计量t值: 即前面的积差相关系数的检验假设t值
本例 计算
二、秩相关系数的统计推断
表11-3
喂养方式 人工
婴儿腹泻与喂养方式的关系
腹泻
有 30 无 10 合计 40
母乳
合计
17
47
25
35
42
82
2*2交叉分类频数表的一般形式如表11-4
表11-4
属性X X1 X2 合计
2*2交叉分类频数表的一般形式
属性Y Y1 A11(11) A21(21) m1 (c2) Y2 A12(12) A22(22) m2 (c2) 合计 n1 (r2) n2 (r2) n
所谓两属性X和Y互相独立(independence),是 指属性X的分布的概率与属性Y的概率分布无关,否则 称这两种属性之间存在关联性。从概率的角度考虑, 独立是指在交叉分类表每一格子中同时具有两种属性 的联合概率等于相应属性的边际概率的乘积。ij= (ri) (cj) i,j=1,2 欲检验的假设为:H0:两属性 之间相互独立,H1:两属性之间相互关联
2 ) . 负相关 散点 呈椭圆形分布,Y随X 的增加而减少,X随Y 的增加而减少,变化 趋势是反向的,称为 负相关;各点的排列 越接近椭圆的长轴, 相关也就越密切。当 各点的分布在一条直 线上时,则X与Y就是 完全负相关了。
3 ) . 零相关: 无
论X增加还是减少, Y不受其影响,反 之, X 也不受 Y 的影 响。
秩相关
一、秩相关的概念及其描述 秩相关,又称为等级相关,适用于 下列资料(1)不服从双变量正态分布不 宜作积差相关(2)总体分布型未知(3) 用等级表示的原始。 下面介绍最常用的Spearman等级相关
例11-4 某地研究2~7岁急性白血病患儿的血小板数与 出血症状程度之间的相关性,结果见表11-2,试用秩 相关分析。
第十一章 两变量关联性分析 前面章节中讲述了单一数值变量的统 计分析方法,但在医学科学研究中,常要分 析变量间的关系,如年龄与血压、药物剂量 和动物死亡率、环境介质中污染物浓度与 污染源距离等,回归与相关就是研究这种 关系的统计方法,属于双变量分析范畴。
第一节 线性相关
一、直线相关的概念及其统计描述 例11-1 随机抽取15名健康成人,测定 血液的凝血酶浓度(单位/毫升)及凝固时间 (秒),数据如表11-1所示。据此资料如何 判断这两项指标间有否相关?
r n 2
723.783 r 0.579 2 n 723.783 1436
2
例11-9 测得某地1043人的ABO血型和MN 血型结果如果下表,问两种血型系统之间是 否有关联? 表11-7 某地1043人的血型
ABO血型 O A B AB 合计 MN血型 M N MN 85 100 150 56 78 120 98 132 170 23 25 6 262 335 446 合计 335 254 400 54 1043
2
=0.05
22 14 18 2
2
则拒绝原假设,两种培养基之间存在着关联性。 进一步计算列联系数。
2 r 2 n
2 r 2 n
本例列联系数为:
2 8.43 r 0.3617 2 n 8.43 56
列联系数介于0与1之间,理论上也应就总 体列联系数是否为0作假设检验,但这个假 设检验等价于上述的卡方检验。
2、相关系数 它又称为积差相关系数,以符号r 来 表示相关系数。 它是说明两变量间相关关系的密切程 度和相关方向。
相关系数=
X的方差Y的方差
X和Y的协方差
现在我们来解释协方差(covariance) 的含义。当样本值为(x1,y1), x和y (x2,y2),… (xn,yn)时,x和Y的样本均数 x x 分别为 y y
列联系数介于0与1之间,理论上也应就总 体列联系数是否为0作假设检验,但这个假 设检验等价于上述的卡方检验。
二、2*2配对资料的关联性分析 例11-7 有56份咽喉涂抹标本,把每份标 本一分为二,依同样的条件分别接种于甲、 乙两种白喉杆菌培养基上,观察白喉杆菌 生长情况,结果见表11-5,问两种培养基 的结果有无关联?
n i
n i
X的样本方差
n 1
n i
y的样本方差
n 1
X和Y的样本协方差
x x y y
n 1
二、相关系数的假设检验
r是样本相关系数,它是总体相关系 数 的估计值。要判断X、Y间是否 有相关 关系,就要检验r是否来自总体相关系数 为零的总体。 对相关系数的假设检验方法有两种: 1、查表法 2、采用t检验 检验统计量为:
表11_5
甲培养基 + _
两种白喉杆菌培养结果
乙培养基 合计 40 16
合计
+ 22 2 24
_ 18 14 32
56
H0:两种培养基之间互相独立 H1:两种培养基之间有关联
56 8.43 40 16 24 32 2 2 0 .005,1 7.88, P 0.005
25.925 C 0.156 2 n 25.925 1043
2
第六节 小结
本章主要介绍了两变量间的关联性。对不 同类型,可用不同的统计方法去描述它们间的 关联程度。 1、服从正态分布的两连续变量,若有一份随机 样本,可绘制散点,发现有直线趋势,进而计 算Pearson相关系数,以描述两变量的线性关系。 2、对不满足正态分布的两连续变量,若有一份 随机样本,仍可绘制散点,发现有直线趋势, 进而计算Spearman秩相关系数,以描述两变量 的相关关系。