研究生统计学讲义第11讲相关与回归共75页文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

r (X iX)Y (iY)
X Y X n Y
lXY
(n1)sXsY
Байду номын сангаас
X2 n X2
Y2 n Y2
lXX lYY
即 r 是 X 和 Y 的修正积差除 以 X 和 Y 的修正平方和乘积
r lXY . lXX lYY
的平方根.注意 r 是参数ρ的 估计值,参数ρ定义为 :
XY XY
相关与回归分析的种类很多,按变量个数划分, 有一个 x 一个 y 的简单相关与回归分析,多个 x 和 一个 y 的多元相关与回归分析,以及多个 x 多个 y的 典型相关。本章介绍最简单的两变量间的直线相关 与回归,称为一元线性相关与回归
第一节 直线相关
相关分析用于测量观察到的任何一对变量之间的联 合强度,我们主要关心两个变量是否互相依赖或共同变 化.这里我们没有把变量表示成为其它函数,像回归分 析一样并未暗示Y依赖于X .X和Y二者测量有误差并 且我们希望估计这些变量共同变化的程度.见图

2.如果大的X 值与小的Y 值相联系,小的X 值与大的 Y 值相联系,那么 (Xi X) 和 (Yi Y) 二者符号相 反,在公式里符号为负. 于是我们就说这种情形里 X 和 Y 之间有负相关
如果我们用 n-1 除公式, 就得到一个新指标, 用 r 表示 , 首先它满足两个条件且范围从-1到+1(我们将 在随后验证). 有
1.散点图
图7.1 a) 图说明X 和Y 之间具有正相关.b) 图说明 X 和 Y 之间 具有负相关. c) 图和d)图说明 X 和 Y 之间没有相关关系
双变量相关分析步骤是先作原始数据的散点图,根 据散点图的提示再作恰当分析,如两变量有直线趋势, 则作直线相关分析。从散点图可初步看出变量分布非 正态时,应考虑作等级相关而不宜作积矩相关。
Xi X
和 Yi Y
sX
sY
把相应的离差同时相乘并求和时, 得到一个联合
指标:
X is X X Y is Y Y
(X iX )(i Y Y ) sX sY
这个指标具有下面的性质:
1.如果大的X 值与大的Y 值相联系,小的X 值与小的
Y 值相联系,那么 (Xi X) 和 (Yi Y) 二者符号相 同,在公式中它们的乘积为正. X 和 Y 之间有正相关
并非任何有联系的两个变量都是直线联系。例如, 血压很高的人和很低的人死亡率均较高,而中等血压 的人死亡率较低,死亡率和血压之间有如图7-1(h)所示 曲线关系,不适合作直线相关分析。
2. 积矩相关系数:Pearson积差相关系数, 简称相关系数。 表示两个变量间直线关系密切程度和方向的统计指标。
用 r 表示,总体相关系数用ρ表示,r 是ρ的点估计。 考虑 X 和 Y 的标准正态离差:
与y 的乘积之和Σxy=775.6606, x =13.440, y = 5.7272,x、
y 的样本标准差Sx=1.6635、Sy= 0.4136, 按公式计算相 关系数 r:
r
n i1
XiYi
n(X)(Y)
=(775.660610×13.440×5.7272)/ 1.6635×0.4136]
积差相关系数 r 只适用于双变量正态分布资料, 否则 应先作变量变换, 使之正态化, 然后用变换后的数值计 算积差相关系数。
二、积矩相关系数的假设检验
ρ=0表示总体中两变量 x 和 y 无直线相关关系。(注 意: 如果 x 和 y 独立, 即 x 和 y 无相关关系, 则ρ= 0但 ρ= 0时,并不能说明x 与 y 一定无相关关系). 因ρ是一 个客观存在的理论值,一般无法获得,在实际问题中 ,常通过用 r 来推断两变量 x 和 y 有无直线相关关系 。当由r≠0时,因为存在抽样误差,不能认为ρ≠0,所 以,判断x 和y 是否线性相关,需要检验r是否来自ρ =0的总体,称为相关系数的假设检验。
H0:总体相关系数ρ=0,体重与体表面积间无直线相 关关系;H1:ρ≠0。α=0.05。
在直角坐标系上画出散点图, 有直线趋势, 故进行直
线相关分析. 使用程序型计算器时, 在线性回归(LR)工
作方式下, 成对地输入x 与y 后, 可直接输出r= 0.9568。
无程序型计算器和计算机时, 用一般计算器可求出n对x
也可直接用 r 作检验统计量, 用自由度df=n-2, 查附 表16, 相关系数 r 界值表, 得出 r 界值, 若│r│>rα,(df), 则P<α, 可按α检验水准拒绝H0, 认为 x 与 y 之间有直线 相关关系, ρ≠0. 反之│r│越小, P值越大, 若│r│< rα,(df) , 则P>α, 按α检验水准不能拒绝H0, 从而认为x、y之间无 直线相关关系。
[(10-1)
(n1)SX SY =5.92492/6.1922= 0.9568。
以r=0.9572作统计 量, 用自由度df=10-2 =8, 查附表16得界值 r0.01(8)=0.765, 统计量r >r0.01, P<0.01, 按α= 0.05水准拒绝H0, 接受 H1, 可以认为某地三岁 儿童体重(kg)与体表面 积(10-1m2)呈正向直 线相关。
例6.1 测得某地10名三岁儿童的体重与体表面积如下, 试计算样本相关系数r,并检验其是否来自ρ=0的总体
体重x(kg): 11.0 11.8 12.0 12.3 13.1 13.7 14.4 14.9 15.2 16.0
面积y(10-1m2): 5.283 5.299 5.358 5.602 5.292 6.014 5.830 6.102 6.075 6.411
从服从双变量正态分布的X, Y 和ρ=0的总体中每次随 机抽取样本含量相同的样本, r 随样本的不同而不同,是 一个随机变量, 其分布接近正态分布时, r 的标准差为Sr:
1 r2 Sr n 2
H0 :ρ=0 Ha :ρ≠0
r r
t
,
sr
1r2
n2
服从自由度df= n-2 的 t 分布, 所以, 可用来检 验样本相关系数 r 是否 来自ρ=0 的总体.
希腊字母ρ(“rho”) 表示变量 X 和 Y 之间真实的 总体关系.
相关系数无单位, 取值范围为-1≤r≤1,r 的符号表 示相关方向,r>0称为正相关,r<0称为负相关。r的绝 对值表示两个变量间直线关系的密切程度,r的绝对值 为1表示完全相关。生物界由于影响因素众多,很少完 全相关,r 值多界于-1与1之间.
相关文档
最新文档