第十一章+两变量的关联性分析

合集下载

双变量关联性分析

双变量关联性分析
McNemer检验,什么情况下用Pearson 检验?
2
P416 1 2 3
作业
谢谢!
基本思想
对于不符合正态分布的资料,不用原始数据计算相关系数,而是按其取值由小到大排秩,然后根据其秩次来计算秩 相关系数。
设有 n 例观察对象,对每一例观察对象同时取得两 个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到 大排秩为1, 2, …, n。它们的秩分别为 与 ,将 及 的秩次直接代入直线相关系数的计算公式可得到 Spearman秩相关系数 。
2
➢ 2×2 列联表 ➢ R×C列联表
关联性分析
例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年, 并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存
在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
nRnC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒绝 H0 ,接受 H1 ,可以认为自我效能感与领导行为类型之间有关 联。
进一步计算列联系数:
r
2 2n
115.508 0.481 115.508384
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用
病例号
1 2 3 4 5 6
血小板数
120 130 160 310 420 540
出血症状
++ +++
+ +

第11章 两变量关联性分析

第11章 两变量关联性分析

二、秩相关
Pearson积差相关要求X,Y均服从正态分布。 对不服从正态分布、总体分布未知或原始数据用等 级表示的资料采用秩相关(等级相关)来度量两变 量间相关的程度与方向。称为Spearman秩相关。 利用两变量的秩次大小作线性相关分析。 以两变量对应的秩次代替变量值本身带入Pearson 积差公式得到Spearman秩相关系数。 例11-4
一、线性相关
正相关:X,Y同时增减(同向) 负相关:X,Y此增彼减(逆向) 零相关:X,Y互不影响或者无直线相关关系 完全正相关:当所有的点都集中在一条直线上并且变 化趋势相同 完全负相关:当所有的点都集中在一条直线上并且变 化趋势相反
一、线性相关
一、线性相关
因为散点图能够直观的反映两变量间有无关系, 所以在研究两变量间的关系时都应该先绘制散点图, 之后再确定它们之间的量化关系。
二、秩相关
二、秩相关
秩相关系数的统计推断 由样本的秩相关系数不为零,推断总体的相关 系数是否为零。
ρs 因:① 由于抽样误差引起,ρs=0
② 存在相关关系,
ρs≠0
二、秩相关
秩相关系数统计推断步骤: (与Pearson相关系数统计推断的步骤相同) 统计量为rs ,通过查rs界值表(附表14)得到P值。
积差相关与秩相关的联系与区别
联系: 两者均刻画了两变量间线性相关的方向与密切程度, 取值范围与数值大小的统计学意义解释相同 Spearman秩相关系数可用对秩次的Pearson积差 相关系数计算来实现 区别: Pearson积差相关要求数据服从正态分布,属于参 数统计量;而Spearman秩相关不要求正态分布, 属非参数统计量 两者总体参数的检验方法不完全相同
(ad − bc) 2 n χ2 = (a + b)(c + d )(a + c)(b + d )

两变量关联性分析

两变量关联性分析
适用条件
对定性变量之间的联系通用的方法是根据两个定 性变量交叉分类基数所得的频数资料(列联表) 作关联性分析,即关于两种属性独立性卡方检验
计算公式
(A T) T
2
2
两分类变量之间的关联程度
ɸ 系数(phi cofficient) ɸ =
2
n
Cramer V 系数(Cramer's V cofficient)
一、线性相关分析中应注意的问题
2.线性相关分析要求两个变量都是随机变 量,而且仅适用于二元正态分布资料。一 个变量的数值人为选定时莫作相关.一个变 量的数值随机变动,另一个变量的数值却是 人为选定的。例如, 为研究药物的剂量-反 应关系 。
3.相关关系不一定有因果联系.
一、线性相关分析中应注意的问题
r 0 tr sr
1 r2 sr n2
二、秩相关
例10-5 某研究者观察了10例6个月~7岁的贫血患儿的血 红蛋白含量与贫血体征,结果见表10-2,试作秩相关分 析.(200页) 表10-2 贫血患儿的血红蛋白含量(g/dl)和贫血特征
病人 编号 (1) 1 2 3 4 5 6 7 8 9 10 血红蛋白含量 X (2) 5.0 5.8 6.1 7.3 8.8 9.1 11.1 12.3 13.5 13.8 秩次 p (3) 1 2 3 4 5 6 7 8 9 10 贫血体征 Y (4) +++ ++ + ++ ++ 秩次 q (5) 10.0 8.0 6.0 3.0 8.0 8.0 3.0 3.0 3.0 3.0
一、线性相关的定义及计算公式
意义:相关系数(correlation coefficient)又称

两变量关联性分析

两变量关联性分析

3.5 2.25 24.5
3.5 12.25
28
3.5 12.25 31.5
3.5 12.25
35
11.5 132.25 126.25
3.5 12.25
42
78
630 451
• 利用表11-2中的数据容易算得
lpp 143
lqq 123
lpq 56
rs
lpq l pplqq
56 0.422 143123
第二节 秩相关(rank correlation)
等级相关
适用条件:
①资料不服从双变量正态分布而不宜作积差 相关分析;
②总体分布型未知,一端或两端是不确定数 值(如<10岁,≥65岁)的资料;
③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
4,查 2界值表,
2

2 0.005,4
18.55,
p 0.005,拒绝零
假设,说明甲状腺肿类型与祖籍之间有关联性
计算列联系数
r
2 2 n

723.783 0.579 723.783 1436
故通常应先绘出样本值的散点图,利用散点图可直观地判 断两变量之间是否具有线性联系。
2.一个变量的数值人为选定时莫作相关.
.一个变量的数值随机变动,另一个变量的数值 却是人为选定的。例如, 为研究药物的剂量 -反应关系
3.出现异常值时甚用相关.
4.相关未必真有内在联系.
• 5.分层资料盲目合并易出假象
说明相关性越差.
• 例11-2 计算例11-1中凝血酶浓度X与凝血 酶时间Y之间样本相关系数。

第十一章 两变量关联性分析

第十一章 两变量关联性分析

第十一章两变量关联性分析习题
一、是非题
1、Pearson相关系数的假设检验.苦结论为不拒绝H0,可以认为两变量间无关系. ()
2、在同样样本量的情况下.Pearson相关系数|r|越接近1(P<0.05).说明两变量间直线关系越密切. ( )
3、计算关联系数时两随机变量不能为无序分类资料. ()
4、|r|越大(P<0.05),说明X对Y的影响幅度越大. ()
5、ρ≠0,意味着X和Y之间的因果关系成立. ()
二、选择题
1.下列式中可以取负值的是:
A.l xx B.l xy C.l yy D.关联系数
2.直线相关系数的假没检验,其自由度为:
A.n B.n-1 C.n-2 D.2n-1
3.计算Pearson相关系数要求:
A.应变量Y是正态变量.而自变量X可以不满足正态的要求
B.自变量X是正态变量.而应变量Y可以不满足正态的要求
C.应变量Y是定量指标.而自变量X可以是任何类型的数据
D.两变量都要求为满足正态分布规律的随机变量
4.两组资料进行相关性分析.一个r0.01,v1>r1>r0.05,v1,另一个r2>r0.01,v2,可认为:A.第l组资料两变量关系密切
B.第2组资料两变量关系密切
C.很难说哪一组变量关系密切
D.t r1>t r2
三、筒答题
1.r、r s和列联系数的应用条件有何不同?
2.应用线性相关分析时应该意哪些问题?
3.线性相关分析的基本步骤是什么?
4.关联性分析的χ2检验与两个或多个频数分布比较的χ2检验的设计和意义有什么区别?
5.线性相关分析中绘制散点图的目的是什么?能否用散点图来代替相关系数?。

《两变量关联性分析》课件

《两变量关联性分析》课件
基础概念
相关系数、散点图、回归分析等。
两变量关联性分析的重要性
实际应用
在经济学、社会学、生物学等领域,两变量关联性分 析被广泛应用于探索两个变量之间的关系。
理论意义
有助于理解现象之间的内在联系,为进一步的研究提 供依据。
预测价值
通过分析两个变量的关联性,可以对未来的趋势进行 预测。
两变量关联性分析的应用场景
两变量关联性分析的案例
案例一:销售与广告投入的关联性分析
总结词
广Hale Waihona Puke 投入对销售的影响详细描述通过收集某公司一段时间内的广告投入和销售数据,分析广告投入与销售量之 间的关联性。可以采用相关系数、回归分析等方法,探究广告投入对销售的贡 献程度,为企业制定营销策略提供依据。
案例二:股票价格与经济指标的关联性分析
模型参数设置
根据模型要求设置参数,如回归系数、置信区间等。
模型评估
通过交叉验证、R方值等方法评估模型的性能和准确性。
结果解释与决策
结果解读
对分析结果进行解读,理解两变量之间的关 联性。
制定决策
根据分析结果制定相应的决策,指导实践。
结果验证
对分析结果进行实际验证,确保其在实际应 用中的有效性。
04

03
将关联性分析结果与其他方法或经验进行比较,以评
估其可信度和实用性。
针对某品牌的产品,收集消费者对其不同属性的评价数据,分析产品属性与消费者行为之间的关联性。例如,研 究产品价格、质量、外观、品牌形象等因素对消费者购买决策的影响,为企业改进产品设计和营销策略提供依据 。
05
两变量关联性分析的注意事项
数据质量与完整性
确保数据来源可靠, 无缺失值和异常值。

第十一章 相关分析

第十一章 相关分析

第二节 积差相关
计算积差相关系数的基本公式 • 运用标准差与离均差的计算公式
• n为成对数据的数目 • σx表示X变量的样本标准差 • σY 表示Y变量的样本标准差
第二节 积差相关
通常把公式中的 称为协方差。
所谓协方差就是两个变量离均差乘积的平均数,两列变量离 均差的乘积大小,能够反映两列变量的一致性。但不能直接 用协方差表示一致性,因为它有不同的测量单位,是一个很 不稳定的量,为了克服这一缺点,分别用各变量的标准差去 除各自的离均差,使其成为无实际测量单位的标准分数,然 后求其协方差,这样,不同测量单位表示的两列变量的一致 性便可测量,也便于比较。这就是求相关系数的公式中所以 用比率的由来。 相关系数的数值范围在正负1之间的证明
第二节 积差相关
3、相关系数显著性检验当然步骤及方法
① H0:ρ =0条件下,相关系数的显著性检验 对于总体相关系数ρ =0的零假设进行显著性检验时: 当n≥50时,r的抽样分布接近正态,其标准误为:
当n<50时,可用费舍指出的t统计量来检验相关系数的显 著性:
第二节 积差相关
检验的步骤: • 提出假设
第四节 质Байду номын сангаас量的相关
3、多列相关 1)适用资料 两列正态变量资料,其中一列为等距或等比测量数据,另 一列被认为划分为多种变量,称为名义变量。 2)计算公式
式中,Pi为每系列的次数比率,y1为每一名义变量下限的正态曲 线高度,yh 为每一名义变量上线的正态曲线高度,为每一名义变量对 偶的连续变量的平均数,St 为连续变量的标准差。 注意:a)取值范围为-1至1,相关越高,绝对值越接近于1;b)原 始数据代入积差相关的双列次数分布表计算公式,得到的值相等。

变量之间的关联性分析

变量之间的关联性分析

变量之间的关联性分析六、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析七、回归分析1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。

2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2, (X))可以为连续型变量、有序分类变量或二分类变量。

如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。

1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

1)非配对的情况:用非条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2)配对的情况:用条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

11 两变量关联性分析

11 两变量关联性分析

第十章 两变量关联性分析[教学要求]了解:利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。

熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。

掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson 积差相关、Spearman 等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。

[重点难点]第一节 线性相关对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson 积差相关系数;∑∑∑===−−−−==n i n i n i yy xx xyy y x x y y x x l l l r 11221)()())(( 对积差相关系数r 的假设检验可用查表法或t 检验。

这里要注意的是不可用相关系数检验所得P 值的大小来判断有否线性关系。

一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。

第二节 秩相关对不满足正态分布的两变量随机样本,可采用Spearman 秩相关来分析。

这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中的一个,也可以是两个。

教材中的例10-5是研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足Pearson 积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。

Spearman秩相关系数或等级相关系数的计算公式同Pearson积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson积差相关系数的计算公式中去计算;秩相关系数用表示,对其检验也是用查表法或t 检验。

若以表示X s r i p i 秩次;表示Y i q i 的秩次,d i =-表示成对秩次的差值,则Spearman秩相关系数的计算也可采用下式:i p i q )1(6112−−=∑=n n d r ni i s显然Pearson 积差相关与Spearman 秩相关之间有联系也有区别。

两变量间关联性分析-11

两变量间关联性分析-11

分类资料的关联性分析与频数分布的假设检验
检验公式、理论频数计算公式和自由度的计算 公式完全相同。 研究目的、设计方案、数据结构以及最后对于 结果的解释都是不同的。
建立假设,确定检验水准
H0:喂养方式与婴儿腹泻之间互相独立 H1:喂养方式与婴儿腹泻之间有关联
α=0.05
计算检验统计量: 2

(30 25
i 1
i 1
负相关

216.7 (14.7)(224) /15
[14.81 (14.7)2 15][3368 (224)2 15]
0.926
相关系数的假设检验
查表法:r界值表(附表13) t检验
相关系数的假设检验---查表法
建立假设,确定检验水准 H0:ρ=0,凝血酶浓度与凝血时间无相关关系; H1:ρ≠0 ,凝血酶浓度与凝血时间有相关关系;
(1)正相关
(2)负相关
(3)非线性相关
(4)零相关
Pearson积差相关系数
定量地描述线性相关程度的一个常用指标; 总体相关系数用希腊字母ρ表示; 样本相关系数用r表示;
Pearson积差相关系数的计算
r X X Y Y
lXY
X X 2 Y Y 2
4016 2432
确定P值,下结论 p<0.05,可认为甲、乙两种培养基之间存在关联性。
计算列联系数: r 2 8.43 0.3617 n 2 8.43 56
例11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为 探讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状
腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分 类,得表11-6的资料。问甲状腺肿类型与祖籍间有否关 联?

第十一讲卫生统计学两变量关联性分析

第十一讲卫生统计学两变量关联性分析

第一节 线性相关
一、线性相关的概念
线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性 质可由图11-2散点图直观的说明。
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。例 如,每人的身高和体重。然后在直角坐标系 上描述这些点,这一组点集称为散点图。
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
医学上,许多现象之间也都有相互联系,例如:身高与体 重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不 相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之 间的关系密切得多,而体重和身高的关系则介与二者之间。 另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝 病毒和乙肝之间是因果关系;但是,有的现象之间因果不清, 只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能 说有因果关系。相关与回归就是用于研究和解释两个变量之 间相互关系的。
为了研究父亲与成年 儿子身高之间的关系,卡 尔·皮尔逊测量了1078对父 子的身高。把1078对数字 表示在坐标上,如图。用 水平轴X上的数代表父亲 身高,垂直轴Y上的数代 表儿子的身高,1078个点 所形成的图形是一个散点 图。它的形状象一块橄榄 状的云,中间的点密集, 边沿的点稀少,其主要部 分是一个椭圆。
相关系数的计算公式:
r
( X X )( Y Y ) l XY
( X X ) 2 (Y Y ) 2
l XX l YY

11两变量关联性分析

11两变量关联性分析

统计学的两个主要内容
总体参数的估计和检验 假设检验 计量资料 方差分析 计数资料 卡方检验
• 指标变量之间关系的研究 – 相关分析 – 回归分析
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
3
教学内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
第十一章 两变量关联性分析
2010-12-17
Pro. Xuezhong SHI, College of Public Health
1
主讲人: 施 学 忠
卫生统计学教研室 公 共 卫 生 学 院
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
2
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
12
【案例解析】
实验设计类型:完全随机设计 研究目的:了解凝血时间与凝血酶浓度两个变 量之间的关系 ——相关 相关(correlation) 相关 ——回归 回归(regression) 回归
2010-12-17
—确定两个变量间有否联系及联系程度如何。 —定量地确定它们之间的互依关系。
2010-12-17
Dr. Xuezhong SHI, College of Public Heath
9
例如:
• 高血压患者的舒张压和年龄 • 药片的厚度与药物的含量 • 药片的硬度和药片的消溶速度 • 婴儿的身高、体重和胸围
Sr 是ρ的估计值 的标准误 的估计值r 的估计值
查ν=n-2 的 t-分布表(附表2)。

10两变量关联性分析

10两变量关联性分析

三、线性相关系数的统计推断
r是样本相关系数,它是总体相关系数ρ的估计值。要
判断X、Y间是否有相关关系,就要检验r是否来自总体相关 系数ρ为零的总体。 1
r1
== ?
2
r2
== ?
对相关系数的假设检验方法有两种:
1、查表法
2、采用t检验
P480
附表13
检验统计量为:
r 0 r t , n 2 2 Sr 1 r n2
ρ的置信区间:
1.对r进行z变换 1 1 r e2 z 1 z ln( ) r 2z 2 1 r e 1 1 1 1 2. z ~ N( ln( ), ) 2 1 n 3 1 1 3.计算z的总体均数 ln( )的1 置信区间 2 1 z z (z , z ) n3 n3 4.将z的置信区间转换成的置信区间 e2 z 1 将第三步置信区间上下限分别代入到 r 2 z e 1
p
n
2
82.5
lqq
q2
q
n
2
70.5
l pq rs
p q pq 56.5
n 56.5 0.741 82.5 70.5
l pq l pplqq
第二节 秩相关
一、秩相关的概念及其描述 二、秩相关系数的统计推断
第十章
两变量关联性分析
主讲人:武建辉
前面章节中讲述了单一数值变量的统计分 析方法,但在医学科学研究中,常要分析变量间 的关系,如年龄与血压、身高与体重,回归与相 关就是研究这种关系的统计方法,属于双变量 分析范畴。
第一节 线性相关
一、线性相关的概念及其统计描述 例10-1 在某地一项膳食调查中,随机抽取了14名40-60岁的健 康妇女,测得每人的基础代谢(kj/d)与体重(kg)数据,见表10-1. 据此数据如何判断这两项指标间有无关联 表10-1 14名中年健康妇女的基础代谢与体重的测定值
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
3
4
…… n
-
本章主要内容
一、线性相关(服从二元正态分布的数值 变量间资料)
二、秩相关(不服从上述条件的数值变量 间或有序分类变量间)
三、分类变量的关联性分析(无序分类变 量间)
-
第一节 线性相关(linear correlation)
线性相关分析是研究具有线性关系的两变量间 相互关系的密切程度及相关方向。
表示两变量间相关关系密切程度越高
-
直线相关分析例题:
例11—1 随机抽取15名健康成人,测定血液的 凝血酶浓度(单位/ml)及凝固时间,数据如下 表,试判断这两项指标间有否相关?
15 例健康成人凝血酶浓度与凝血时间测量值结果
受试号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
通过计算变量间的线性相关系数来反映。 要进行线性相关分析,确定相关变量之间的关
系,首先应该收集一些数据,这些数据应该是 成对的。例如,每人的身高和体重。然后在直 角坐标系上描述这些点,绘制散点图 (scatter plot)
-
根据散点图可初步判断变量间是否有线性 相关
-
Pearson积差相关系数的意义及计算
第十一章
-
医学现象中的关联性
医学上,许多现象之间都有相互联系,例如: 身高与体重、体温与脉搏、父母身高与儿子身 高等。在这些有关系的现象中,它们之间联系 的程度和性质也各不相同。
如何衡量这些变量间的关系?
-
两变量(Bivariate)间的关系
函数关系及相关与回归关系 1、函数关系(确定性关系):两变量间
秩次 (3)
1 2 3 4 5 6 7 8 9 10 11 12 78
p2 (4)
1 4 9 16 25 36 49 68 81 100 121 144 650
出血症状y (5)
+++ ++ + ++ ++ +++ —
秩次 (6)
11.5 9.0 7.0 3.5 9.0 9.0 3.5 3.5 3.5 3.5 11.5 3.5 78
(xx)2(yy)2
xyxny
[x2
(nx)2][y2
(y)2] n
-
相关系数的意义
相关系数r取值范围为一l≤r≤1。 两变量相关的方向用r的正负号表示,即r>0表
示正相关。r<0表示负相关;r=0表示零相关。 相关系数r的大小表示密切程度。r=±1表示完
全相关,r=0表示无直线相关。 样本含量n相等且较大时,r绝对值越接近1,
相关系数(correlation coefficient)是说明具 有线性关系的两变量间相关方向与密切程度的 统计指标。 相关系 数x和y的协方差 (x的方)差 (y的方)差
总体相关系数用ρ表示,样本相关系数用r表示。 协方差是两变量离均差乘积的平均
-
实际工作中,我们是用样本相关系数来 估计总体相关系数。 这就需要从研究总体中抽取一份随机样 本,计算样本相关系数r。
n2
102
根据 ν=15-2=14,查 t界值表,得 P<0.001,按 a=0.05水准,拒绝 H0,接受H1,可认为两变量间有 线性相关关系。
查表法:
求得r后,按 v=n-2,查相关系数r界值表,
以r=0.926,v=14,查r界值表,得 P<0.001
-
线性相关应用中应注意问题
1、进行相关分析前,应先绘制散点图。样本相关系 数接近零并不意味着两变量间一定无相关性。
问题:我们能否得出结论说明凝血酶浓度与凝 血时间呈负相关,相关系数是-0.926。为什么?
-
相关系数的统计推断
1、进行相关系数的假设检验 H0:p=0,即两变量无线性相关关系 H1:p≠0,即两变量有线性相关关系 α=0.05
-
tr检验: tr
r 1r2
0.926 8.874 1(0.92)26
-
例11—4某地研究2~7岁急性白血病患 儿的血小板数与出血症状程度间的相关性,
结果如下表,试进行相关分析。
病人编号 (1)
1 2 3 4 5 6 7 8 9 10 11 12 合计
血小板数x (2)
121 138 165 310 426 540 740 1060 1260 1290 1438 2004 —
凝血酶浓度 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 凝血时间 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17
y(秒)
-
1、绘制散点图,观察两变量间是否可能存 在直线关系
-
样本协方差的计算
n
(xx)2
x的样本方 i差 1 n1
n
(yy)2
y的样本方 i差 1 n1
n
(xx)(yy)
x和 y的样本协 i1 方差 n1
-
样本相关系数计算公式
不同问题的协方差不便于比较,故对x和y进行标 准化后再计算协方差,即得相关系数
r l xy
(xx)(yy)
l xx l yy
凝血时间(秒)
18
17
16
15
14
13
12
0.5
0.7
0.9
1.1
1.3
凝血酶浓度(ml)
-
2、计算相关系数 ∑x=14.7 ∑x2=14.81 ∑y =224 ∑y2=3368 ∑xy =216.7
-
rlxy
2.7 1 (1 6.7 ) 42 ()2 /14 5 0 .926
lxx lyy [1.8 4 ( 1 1.7 ) 4 2/1] 5 [33 (2 6)2 2 8 /14 ]5
呈一一对应的关系。 2、相关关系与回归关系(非确定性关
系):两变量间数量上存在联系,但非 一一对应关系。如年龄与血压,儿童年 龄与体重等。
-
相关分析所用的样本数据应是来自研 究总体的一份随机样本。
总体 随机抽取
样本
观察此样本中每个 观察个体(对象) 的两个变量间是否
有关联
随机样本数据结构
序号 X变量 Y变量 1
2、分析资料要求X、Y两变量都是来自正态总体的随 机变量。 (如果不满足正态分布条件,用秩相关)
3、出现异常值时慎用。(如图11—3中a所示) 4、用相关未必真有内在联系。 5、分层资料盲目合并易出假象。
(如图11—3中b、c、d所示)
-
第二节 秩相关(rank correlation)
适用于: 1、不服从双变量正态分布的资料 2、总体分布形式未知的资料 3、等级资料(故又称等级相关) 常用方法:Spearman秩相关
相关文档
最新文档