第八章 双变量回归与相关
医学统计学双变量回归和相关
样本 ?
b≠0
回归方程(回归系数)的假设检验
H0:=0,即两变量无直线关系 H1:0,即两变量有直线关系 =0.05
检验方法 F检验 t检验 用同一份资料相关系数的假设检验代替, 手工计算时最为简便。
统计结论
1.方差分析:应变量总变异的分解
P (X,Y)
Y
Y
(Y Y) (Y Y)
小插曲:为什么叫”回归“?
“回归”这个词是由英国统计学家F.Galton创立 的。他在研究父子身高(1078对数据)关系 时发现,高个子的父亲常生高个子的儿子, 但儿子身高超过父亲的概率要小于低于父亲 的概率;同样矮个子的父亲常生矮个子的儿 子,但儿子身高比父亲更矮的概率要小于比 父亲高的概率。也就是说不可能无限制的一 代比一代高,或一代比一代矮。后代的高度 有向平均高度回归的趋势;离开均值越远, 所受到回归的压力也越大。“回归”这个词 就由此而来。
b 回归系数
(regression coefficient, slope)
a 截距
(intercept,constant)
截距a
几何意义 a >0: 回归线与纵轴交点在原点上方。 a <0: 回归线与纵轴交点在原点下方。 a =0: 回归线通过原点。 统计学意义 a 表示自变量X取值为0时相应Y条件均数的估
直线回归概念示意图
Y X:给X定 时Y的条件均数
YX X
直线回归方程
总体
YX X
样本
Yˆ abX
“Y hat”表示估计值,给定x时y的条件均数的 估计值。
直线回归方程
Yˆ abX
Y 应变量,响应变量 (dependent variable, response variable)
第八讲 双变量相关与回归
32
第三节 直线回归——直线回归模型的检验
SS总 SS回归 SS剩余
总 回归 剩余
总 n 1
回归 1
剩余 n 2
F
MS回归 MS剩余
33
第三节 直线回归——直线回归模型的检验
(二)回归系数的假设检验 :由于抽样误差的原 因,即使x、y的总体回归系数β 为零,其样本 回归系数b也不一定为零,因此需要进行是否为 零的假设检验。回归系数的假设检验常采用t检 验.
24
第三节 直线回归——应用条件
资料不满足这四个条件时,常用的处理方法有:修改 模型或者采用曲线拟合,也可变量转换。常用的变量 转换有对数转换、平方根转换、倒数转换等。变量转 换对自变量或(和)因变量均适宜;如果方差不齐, 可采用加权最小二乘法估计回归系数。
25
第三节 直线回归——一般步骤
1.绘制散点图,看有无直线趋势,有无异常点 有直线趋势无异常点方可考虑直线回归分析, 否则,查找异常点的缘故,剔除过失误差所致 的异常点,保留客观存在的异常点进行曲线回 归。 2.考察资料是否满足直线回归分析的条件 除线 性外,可通过残差分析结果来考察资料是否满 足其应用条件。 3.求回归系数b和常数项a ˆ a bX 4.写出回归方程,Y
23
第三节 直线回归——应用条件
3. 正态是指因变量值服从正态分布 即要求线性 模型的随机误差项ε服从正态分布。如果该条件 不成立,在正态分布假设下对总体回归系数的 假设检验和可信区间估计的结论均无效。可通 过专业知识、对变量进行正态性检验或利用残 差分析来考察这一条件是否满足。 4.等方差性是指对任意一组自变量x1、x2、„、xm 值,因变量y具有相同方差 如果该条件不成立, 总体回归系数的估计有偏性,可信区间估计及 假设检验的结论均无效。通常可利用(xi,yi) 散点图或残差分析判断等方差性。
双变量回归和相关
3.60
3.40
3.20
尿
3.00
酐肌
2.80
2.60
2.40
4
6
8
10
12
14
年龄
图9-1 8名儿童的年龄与其尿肌酐含量散点图
研究的两个指标之间存在依存关系,对指标进 行观测,观测结果作散点图,若绘出的点在一条直 线附近,则表示这两个指标之间可能存在着线性依 从关系。
两个指标之间的线性依从关系可以通过直线回 归方程来表示。
b=0.1392,Sb=0.0304,t0.05/2,6=2.447
b t / 2 , S b 0 . 1 3 9 2 2 . 4 4 7 0 . 0 3 0 4 ( 0 . 0 6 4 8 , 0 . 2 1 3 6 )
所以,总体回归系数β的95%可信区间为: (0.0648,0.2136)
例9-2 检验例9-1数据得到的直线回归方程是否成立?
① 建立假设并确定检验水准
H0:β=0 H1:β≠0
α=0.05
② 计算统计量F
S S 回 归 lX 2 YlX X 5 .8 4 5 24 2 0 .8 1 3 4 1
S S 残 差 S S 总 S S 回 归 1 . 0 4 6 2 0 . 8 1 3 4 0 . 2 3 2 8 n 2 8 2 6
在直线回归中对回归系数进行假设检验,t检验 和F检验等价,t2=F
(二)总体回归系数β的可信区间
总体回归系数β的可信度为1-α的可信区间:
b t /2, Sb
Sb
SY X lXX
SYX
MS残差
双变量回归与相关PPT培训课件
求得回归方程 y ˆ1.190 7.00x68
S 0 .0,2 x 23l7 5 .,6 4 n 1 9 30 ,
y .x
xx
已知今年7月份日照时间X=260小时,试估计明年该地
的乙脑发病率(设=0.05)。
1 (260237.43)2
s 0.02231
0.0243
y
10
5690
yˆ 1.1970.0068260 0.571, 双侧t0.05,8 2.306
胰岛素
Xi 15.2 16.7 11.9 14.0 19.8 16.2 17.0 10.3 5.9 18.7
病例号
I 11 12 13 14 15 16 17 18 19 20
血糖
Yi 6.44 9.49 10.16 8.38 8.49 7.71 11.38 10.82 12.49 9.21
胰岛素
Xi 25.1 16.4 22.0 23.1 23.2 25.0 16.8 11.2 13.7 24.4
血糖
YI 12.21 14.54 12.27 12.04 7.88 11.10 10.43 13.32 19.59 9.05
胰岛素
Xi 15.2 16.7 11.9 14.0 19.8 16.2 17.0 10.3 5.9 18.7
病例号
I 11 12 13 14 15 16 17 18 19 20
1.9 1 1 2 .1 8 0 1 .61 6 (8 .4 9 ,1 15.42
注y ˆ意 t.sy ˆ与 : y ˆ t.sy不同
例题
某地疾控中心根据10年来乙脑发病率(1/10万,Y) 与相应前一年7月份日照时间(小时,X)建立回归方
程,将乙脑发病率做平方根反正弦变换,即 ysin1 Y
第八章相关与回归分析统计学
二、相关关系的分析
• 相关分析就是对变量之间相关关系的描述与度量。 • 其基本内容包括: • 1、直观地判断变量之间是否存在相关关系及其相关关
系的具体形式。一般是通过绘制统计图表来实现,这 也是相关分析的出发点。
• 相关表和相关图是研究相关关系的简单、直观 工具。利用它们可对现象之间存在的相关关系 的方向、表现形式和密切程度做出大致的判断。
• 相关表是一种反映变量之间相关关系的统计表, 根据资料是否分组,相关表有简单相关表和分 组相关表两种。
• 简单相关表就是先将自变量的数值按从小到大 的顺序排列出来,然后将因变量数值对应列上 而形成的表格。
式中: sx2y 表示 x,y 两个变量数列的样本协方差(Covariance),
显示 x,y 之间相关程度的大小; sx , sy 分别表示 x,y 变量数列的样 本标准差。
为了简化计算,可由上式推导出下面的计算公式:
r
n xy x y
(8.3)
[n x2 ( x)2 ][n y2 ( y)2 ]
例如上述的圆的周长 L 决定于它的半径 R ,即 L 2 R , 又如,某产品的销售额 y 与销售量 x 之间的关系,即 y px , 其中 p 为价格,这就是说,在销售价格不变的情况下,对于
该商品的某一销售量,总有一个销售额与之对应,即销售额 完全由销售量所决定,二者之间为线性函数关系。再如,企 业的原材料消耗额( y )与产量( x1 )、单位产品原材料消 耗量( x2 )、单位原材料价格( x3 )之间的关系可表示为 y x1x2 x3 ,这也是一种确定的函数关系,但它们不是线性函 数关系。
多元统计-双变量回归与相关
检验方法: (一) t 检验
2016/1/24
(二)方差分析
2016/1/24
(一) t 检验
b b0 b = 公式 t ,υ=n-2 Sb Sb Sb
Sb为回归系数的标准误
Sb=
SY | X
X X
2
SY | X l XX
SY|X为Y的剩余标准差——扣除X的影响后Y的变异程度
ˆ a bx y
2016/1/24
线性回归模型的含义
每个观测的y值都可以分解成三个部分: 常量α(constant):即回归直线在纵坐标上的截距 (intercept),它是y的本底水平,即x对y没有任何作用 时,y的数量表现。 回归部分βx:它刻画了应变量y的取值改变中,由y与自变 量x的线性相关关系所引起的部分,即可以由x直接估计的 部分。其中,x是自变量的取值。β称为回归系数 (coefficient of regression),或回归直线的斜率 (slope), β的数值的意义是指当自变量x每改变一个度量 单位时,因变量y的改变量的平均估计值。 上述两部分之和用回归方程解释,就是yi在xi处的平均 估计值,即为(a+bxi) 回归估计误差εi (errors of regression estimation)
编号 年龄X 尿肌酐含量 Y 1 13 3.54 2 11 3.01 3 9 3.09 4 6 2.48 5 8 2.56 6 10 3.36 7 12 3.18 8 7 2.65
2016/1/24
尿肌酐含量(mmol/24h)Y
3.6 3.4 3.2 3.0 2.8 2.6 2.4 4 6 8 10 年龄(岁)X 12 14
第三节 双变量回归与相 关
双变量回归与相关课件
操作提示 Distances Mahalanobis Cook’s Leverage values Influence Statistics DfBeta(s) Standardized DfBeta(s) DfFit Standardized DfFit Covariance ratio Save to new file Coefficient statistics Produces all partial plots 设置测量数据点离拟合模型的距离指标 马哈拉诺夫距离,所示的是观察值距样本平均值的距离 表示不考虑该记录,模型残差发生的变化。若 Cook’s 距离大于 1, 该记录可能为影响点 杠杆值。测量数据点的影响强度,若值大于 2*P/N(P 为变量数,N 为 样本含量) ,该记录可能为影响点 设置诊断影响点的统计量选项 Difference in Beta 的缩写,表示不考虑该观察值后回归系数的变化值 标准化的 DfBeta ,当它大于 2/Sqrt(N)时,该点可能是强影响点 Difference in fit value 的缩写, 表示不考虑该观察值后预测值的变化值 标准化的 DfFit 值,当它大于 2/Sqrt(N)时,该点可能是强影响点 在多重回归中表示不考虑该观察值后协方差矩阵与含该观察值协方差 矩阵的比率。它的绝对值大于 3*P/N 时,该点可能为强影响点 保存结果到新文件,默认在当前数据集中生成新的变量 可以将新变量存到新的 SPSS 数据文件中 绘制出模型中每一个自变量与应变量残差的散点图
操作提示 左侧列表框 DEPENDNT ZRESID ADJPRED SDRESID ZPRED DRESID SRESID Scatter Previous Next X Y Standardized Residual Plots Histogram Normal probability Produces all partial plots 列出 7 个变量名 因变量 标准化残差 调节预测值 学生化剔除残差 标准化预测值 剔除残差 学生化残差 绘制散点图 上一组坐标的变量名 下一组坐标的变量名 输入变量名,作为图形的 X 轴 输入变量名,作为图形的 Y 轴 绘制标准残差图 直方图 正态 P-P 图 绘制出模型中每一个自变量与应变量残差的散点图
双变量回归与相关
双变量回归与相关两变量间的关系1、确定性关系:函数2、不确定性关系:回归关系或相关关系现实生活中,许多现象之间有相互联系,然而并不像函数那样是确定性关系。
例如:身高与体重、体温与脉搏、年龄与医疗费用等。
在这些有关系的现象中,它们之间联系的程度和性质也各不相同。
有些变量间关系密切,有些不密切;有些是因果关系,有的只是伴随关系。
直线(线性)回归(Linear regression)“regression”一词的来源F Galton的研究为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。
把1078对数字表示在坐标上,如图。
用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。
它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。
*为了描述两变量之间的关系,首先在直角坐标系上描述这些点,这一组点集称为散点图(scatter diagram )图1078对父子身高间的关系直线回归分析就是用来描述一个变量(Y)如何依赖于另一个变量(X)的统计方法。
dependent variable(应变量,Y) independent variable(自变量,X)回归方程直线回归的任务就是要找出因变量(Y)随自变量(X)变化的直线方程,该方程叫做直线回归方程。
式中的是由自变量X 推算应变量Y 的估计值。
a 是回归直线在Y 轴上的截距,称为常数项(constant),即X=0时的Y 值;b 为回归直线的斜率,称为回归系数(reg. Coeff.),即表示当X 每改变一个单位时,Y 平均变动b 个单位。
ˆY a bX=+ˆY求偏导数得正规方程组22ˆ()i Q e Y y ==-∑∑2[()]Y a bX =-+∑min →00Q aQ b∂=∂∂=∂最小二乘法(least square method, LS):使各散点到直线的纵向距离的平方和最小。
双变量回归与相关分析16页PPT
对分类变量的数据或变量值分布明显非正态或分布 不明时,计算时先对离散数据进行排序或对定距变 量值排(求)秩 --秩相关。
实例-相关分析(数据同上)
步骤一: Analyze
Correlate
Bivariate 步骤二: 选择要分析的
变量
选择相关系数 计算方法 (默认
Pearson法)
实例-相关分析(结果输出)
方法
Graphs→Interactives→ Scatterplot
实例
用已知浓度X的免疫球蛋白A(IgA, μg/ml)作火箭免 疫电泳,由于抗体抗原反应受扩散浓度梯度影响,形 成的反应带呈火箭状。测得火箭高度Y(mm)如下表 所示,试分析抗体浓度与火箭高度的相互关系。
X(μg/ml) 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 Y(mm) 7.6 12.3 15.7 18.2 18.7 21.4 22.6 23.8
先作散点图观察
实例-绘制散点图
步骤一: Graphs
Interactive Scatterplot
实例-绘制散点图
步骤二: 确定横、纵
座标
输出散点图
相关分析
作用:
用相关系数(r)体现两个变量间的线性关系程度。
r SXY SXX SYY
r:[-1,+1];r=1:完全正相关; r=-1:完全负相关; r=0:无线性相关。
若分别作身高、体重和肺活量两两相关,结果如下
身高、体重正相关(r=0.719**),体重、肺活量正相关(r=0.613**), 身高、肺活量(r=0.588**)正相关。
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
研-统计8双变量回归与相关
X
ˆ ) (Y ˆ Y ) (Y Y ) (Y Y 可有数学证明得到: 2 2 2 ˆ ˆ (Y Y ) (Y Y ) (Y Y ) 即SS总 SS剩 SS回 同样有:
总= 剩+ 回
或 SS总 SS回 SS残
(9-6)
SS
无法用 X 解释的部分。SS
剩
越小,回归效果越好。
n2
SS
回
ˆ Y )2 ,为回归平方和(regression sum of = (Y
squares),
由于 X 与 Y 的直线关系而使 Y 变异减小的部分,即总变异中, 可以用 X 解释的部分。SS
回
越大,回归效果越好。
1
如果两变量间总体回归关系确实存在,回归的贡献就要大于随
X2
(4) 169 121 81 36 64 100 144 49
Y2
(5) 12.5316 9.0601 9.5481 6.1504 6.5536 11.2896 10.1124 7.0225
XY
(6) 46.02 33.11 27.81 14.88 20.48 33.6 38.16 18.55 232.61 (Σ XY)
总
= (Y Y )2 , Y 的离均差平方和(total sum of
squares), 未考虑 X 与 Y 的回归关系时 Y 的总变异。
n 1
SS
残
ˆ)2 ,为残差平方和(residual sum of = (Y Y
squares),
X 对 Y 的线性影响之外的一切因素对 Y 的变异,即总变异中,
( X )
2
764
(Y )
2
72.2683
统计学基础-第八章-相关与回归分析
统计学基础第八章相关与回归分析【教学目的】1.掌握相关系数的测定和性质2。
明确相关分析与回归分析的特点3.建立回归直线方程,掌握估计标准误差的计算【教学重点】1。
相关关系、相关分析和回归分析的概念2。
相关系数计算3.回归方程的建立和依此进行估计和预测【教学难点】1.相关分析和回归分析的区别2.相关系数的计算3。
回归系数的计算4。
估计标准误的计算【教学时数】教学学时为8课时【教学内容参考】第一节相关关系一、相关关系的含义宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。
这种现象间的相互联系、相互制约的关系即为相关关系。
相关关系因其依存程度的不同而表现出相关程度的差别。
有些现象间存在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。
这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种完全相关关系.有些现象间的依存关系则没有那么严格。
当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。
一般来说,身高越高,体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响.社会经济现象中大多存在这种非确定的相关关系。
在统计学中,这些在社会经济现象之间普遍存在的数量依存关系,都成为相关关系。
在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。
二、相关关系的特点1。
现象之间确实存在数量上的依存关系如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化.在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。
例如,把身高作为自变量,则体重就是因变量.2。
现象之间数量上的关系是不确定的相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。
医学统计学:双变量回归与相关
样本
Y
Y
总体
YX
(Y的条件均数)
根据 t 分布原理:
1 (XX)2
Yt/2,n2sYt/2,n2sY.X Y
n
(XX)2
X=12时,求Y X 的95%可信区间
s X =9.5,lXX=42, Y . X =0.1970
当X=12
时,
Y
=1.6617+0.1392 12=3.3321
SYˆ
相关分析的任务:
两变量间有无相关关系?
两变量间如有相关关系,相关的方向? 相关的程度?
相关分析时,两数值变量之间出现如下情况:当一个 变量增大,另一个也随之增大(或减少),我 们称这种现象为共变,也就是有相关关系。
若两个变量同时增加或减少,变化趋势是同 向的,则两变量之间的关系为正相关 (positive correlation);若一个变量增加时, 另一个变量减少,变化趋势是反向的,则称 为负相关(negative correlation)。 ——相关的方向
相关系数的计算
r XXYY lXY XX2YY2 lXXlYY
相关系数
相关的方向:
r>0:正相关 r<0:负相关 r=0:零相关 相关的密切程度:
样本含量n足够大时,r绝对值越接近1。相关越 密切。
0
1
0.4
0.7
低度相关 中度相关 高度相关
三、相关系数的统计推断
(一)相关系数的假设检验
(二)总体回归系数 的可信区间
总体 YX X
样本
Yˆ abX
总体
β
根据 t 分布原理估计可信区间:
bt/2,n2sb 样本
b
总体回归系数 的可信区间
双变量回归与相关
a Y bX
因为直线一定经过“均数” 点
2018年5月7日10时12分
散点图
3.8 3.6 3.4 3.2 3 2.8 2.6 2.4 2.2 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5
X
¨mmol/24h)Y ¿ £ ¬ Á û º ¡ ô ò ¼ Ä
2018年5月7日10时12分
再看公式:
2 2 2 ˆ ˆ ( Y Y ) = ( Y Y ) - ( Y Y )
SS剩 SS总=lYY
SS总
-
SS回
2 l XY SS回= bl XY b 2l XX l XX
SS剩
l ˆ Y Y =lYY l XX
可以用 X 解释的部分。SS 回越大,回归效果越好。
1
2018年5月7日10时12分
F
SS回 回 SS 剩 剩
MS回 MS 剩
;回
1, 剩 n 2
统计量 F 服从自由度为 回、 剩 的 F 分布。 例 9-2 检验例 9-1 数据得到的直线回归方程是否成立?
ˆ ) 2 (Y Y ˆ ) 2 Y a bX 2 Q (Y Y i i i i
i 1 i 1
n
n
( X X )(Y Y ) XY X Y / n l XY b 2 2 2 ( X X ) l XX X X / n
第九章
双变量回归与相关
2 0 0 8 级 研究生
2018年5月7日10时12分
2018年5月7日10时12分
变量间关系问题:年龄 - 血压、肺活量 - 体 重、糖尿病人血糖与胰岛素水平等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按公式(9-21)z 的 95%可信区间为 (1.3838-1.96/ 8 3 ,1.3838+1.96/ 8 3 ) =(0.5073,3.2749)
再按公式(9-22)将z作反变换,得到年龄与尿肌酐含 量的总体相关系数95%可信区间为(0.4678,0.9971)。
102
14
四、决定系数(coefficient of determination)
第二节 直线回归
102
22
一、直线回归的概念
目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数
关系。
102 23
例9-1
某地方病研究所调查了8名正常儿童的尿
肌酐含量( mmol/24h )如表9-1 。估计尿肌酐含量( Y )
102 11
(二)总体相关系数的可信区间
不等于零时呈偏态分布 由于相关系数的抽样分布在 的可信区间需要先将其进行 (大样本情况下亦如此) , 所以 某种变量变换, 使之服从正态分布, 然后再估计其可信区间。
102
12
具体步骤如下
1.首先对 r 作如下 z 变换
z tanh r 或
1
102 17
例如当样本足够大时,身高 Y 与家庭中的每月用电量 X 的线性回归关系具有统计学意义(回归系数的假设检验
P 0.05 ) ,但这种结果很难说有什么专业上可解释的实际
意义。 同理,相关系数的假设检验只是在冒一定风险情况下 说明 0 ,总体中仍然可能是 0.01, 0.04 等,这种 相关并不一定在专业上有意义。
估计方法。
102
19
3.资料的要求
直线相关分析要求 X与Y 服从双变量正态分布;
直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,
X可以是服从正态分布的随机变量也可以是能精确测量和严格 控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估 计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。
ˆ Y
计值, 称为回归方程的预测值 (predicted value) , 而 、b 分别为 和 的样本估计。
102 34
a
例9-1
某地方病研究所调查了8名正
常儿童的尿肌酐含量(mmol/24h)如表9-1。
估计尿肌酐含量(Y)对其年龄(X)的回
归方程。
102
35
表9-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h)
102
16
1.根据分析目的选择变量及统计方法
直线相关用于说明两变量之间直线关系的方向和密切程度,
X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量 Y对自变量X在数
值上的依存关系,其中应变量的定夺主要依专业要求而定,可
以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例 如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的 两种现象勉强作回归或相关分析。
3.对上一步计算出的 z 的上下限作如下变换,得到 r 1 的
可信区间
r tanh( z )
或
e2z 1 r 2z e 1
102
(9-22) 13
例9-7 对例9-5所得r值,估计总体相
关系数的95%可信区间。
1 z tanh 0.8818 1.3838 按公式(9-20)
102
20
4.结果解释及正确应用
反应两变量关系密切程度或数量上影响大小的统 计量应该是回归系数或相关系数的绝对值,而不是 假设检验的P值。
P 值越小只能说越有理由认为变量间的直线关系
存在,而不能说关系越密切或越“显著”。另外,
直线回归用于预测时,其适用范围一般不应超出样
本中自变量的取值范围。
102 21
(23.87) 2 72.2683 1.0462 8
lXY XY
( X )(Y ) n
(76)(23.87) 232.61 5.8450 8 102
38
4.求回归系数 b 和截距 a
l XY 5.8450 b 0.1392 l XX 42
a Y bX 2.9838 (0.1392)(9.5) 1.6617
102
ˆ 为各X处Y的总体均数的估计。即Y Y
29
1.a 为回归直线在 Y 轴上的截距。
a > 0 ,表示直线与 纵轴的交点在原点的 上方; a < 0 ,则交点在原 点的下方;
Y a<0
a=0 a>0
a = 0 ,则回归直线 通过原点。
0
X
102
30
2. b为回归系数,即直线的斜率。
b>0,直线从左下方走向 右上方, Y 随 X 增大而 增大; b <0 ,直线从左上方走 向右下方, Y 随 X 增大 而减小; b=0,表示直线与 X 轴 平行,X 与Y 无直线关系。
定义为回归平方和与总平方和之比,计算公 式为:
2 2 SS l l l 2 回 R XY XX XY SS总 lYY l XX lYY
(9-2பைடு நூலகம்)
R 取值在0到1之间且无单位,其数值大 小反映了回归贡献的相对程度,也就是在Y的 总变异中回归关系所能解释的百分比。
102
2
15
五、直线相关与回归应用的注意事项
上,此与两变量间严格的直线函数关系不同,称为直线 回归(linear regression),其方程叫直线回归方程,
以区别严格意义的直线方程。
双变量直线回归是回归分析中最基本、最简单的
一种,故又称简单回归。
102
28
直线回归方程的一般表达式为
ˆ Y a bX
(9 1)
的估计值,也读作Y hat 。
差平方和l XX 、 lYY 与离均差积和 l XY 。
102 37
3.计算有关指标
X X n 76 9.5 8
Y 23.87 Y 2.9838 n 8
l XX X 2 ( X ) n
2
(76) 2 764 42 8
lYY
Y
2
( Y ) 2 n
对其年龄(X)的回归方程。
102
24
表9-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h)
编 号 年龄 X
1 13
2 11
3 9
4 6
5 8
6 10
7 12
8 7
尿肌酐含量 Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
102
25
102
26
在定量描述儿童年龄与其尿肌酐含量 数量上的依存关系时,将年龄称为自变量
(independent variable),用 X 表示;尿肌
酐含量称为应变量 (dependent variable) ,
用 Y 表示。
102
27
由图9-1可见,尿肌酐含量 Y 随年龄 X 增加而
增大且呈直线趋势,但并非8个点子恰好全都在一直线
Y b>0
b=0
0
b<0 X
b 的统计学意义是:X 每增加(减)一个单位,Y 平均 改变b个单位。
102 31
二、直线回归方程的求法
残 差 (residual) 或 剩 余 值 , 即实测值 Y 与假定回归线上 的估计值 Y ˆ 的纵向距 ˆ 。 离 Y Y 求解 a、 b 实际上就是“合理 地”找到一条能最好地代表 数据点分布趋势的直线。
5.列出回归方程(回归直线绘制见图 9-1)
ˆ 1.6617 0.1392 X Y
102 39
此直线必然通过点( X , Y )且与纵坐标轴
相交于截距 a 。如果散点图没有从坐标系原
点开始,可在自变量实测范围内远端取易于读
数的 X 值代入回归方程得到一个点的坐标,
连接此点与点( X , Y )也可绘出回归直线。
102 2
第一节
直线相关
102
3
一、直线相关的概念
直线相关(linear correlation)又称简单相关(simple
correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说明。
目的:研究 两个变量X,Y数量上的依存(或相关) 关系。 特点:统计关系
102
18
2.进行相关、回归分析前应绘制散点图—第一步
(1) 散点图可考察两变量是否有直线趋势; (2) 可发现离群点(outlier)。
散点图对离群点的识别与处理需要从专业知识和现有
数据两方面来考虑,结果可能是现有回归模型的假设错
误需要改变模型形式,也可能是抽样误差造成的一次偶 然结果甚至过失误差。需要认真核对原始数据并检查其 产生过程认定是过失误差,或者通过重复测定确定是抽 样误差造成的偶然结果,才可以谨慎地剔除或采用其它
第八章
双变量相关与回归
Linear Regression and Correlation
102
1
双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:相关与回归 简单、基本——直线相关、直线回归
编 号 年龄 X
1 13
2 11
3 9