第八章直线相关与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章一元回归与相关分析
概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营养,湿度等许多因素有关。

相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应。

回归关系:X是非随机变量(如施肥)或随机变量(如穗长),Y是随机变量,对X的每一确定值x i都有Y的一个确定分布与之对应。

区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。

两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使y的残差平方和最小(最小二乘法),可得到相同的参数估计式。

因此主要讨论X为非随机变量(不包含有随机误差)的情况,所得到的参数估计式也可用于X为随机变量的情况。

2.分析目的不同。

回归分析是建立X与Y之间的数学关系式,用于预测;而相关分析研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这种共变关系的强弱。

分类:
从两个变量间相关(或回归)的程度分三种:
(1)完全相关。

一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物学研究中不太多见。

(2)不相关。

变量之间完全没有任何关系。

一个变量的值不能提供另一个变量的任何信息。

(3)统计相关(不完全相关)。

介于上述两情况之间。

知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。

一个变量的取值不完全决定另一个变量的取值,但可或多或少地决定它的分布。

科研中最常遇到。

研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;
研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。

一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。

对两个变量间的直线关系进行相关分析称为直线相关分析;
研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。

注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。

2.除X、Y等需研究的因素外,其他的要严格控制一致。

(身高与胸围的关系要控
制体重)
3.对子一般在5对以上
4.需限制自变量范围,结果不能随意外延。

第一节一元线性回归
(一)直线回归方程的建立
对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:
(x1,y1),(x2,y2),……,(x n,y n)
为直观看出x 和y 间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图
例11.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。

数据见表11.1。

试计算日龄X 与体重Y 之间的回归方程。

散点图对X 、Y 之间的关系有直观的、整体上的印象,但是否有某种规律性,是接近一条直线还是一条曲线等,哪一条直线或曲线可以最好地代表X, Y 之间的关系,不能做出判断。

图11.1 大白鼠日龄—体重关系图
一、 一元正态线性回归统计模型:
对于每个Y 的观察值y i 来说,由于总是带有随机误差,观察值就应该是在均值的基础上再加上一个随机误差,即:
i i i x y εβα++= (11.2)
其中),0(~2
σεNID i 。

随机误差服从正态分布。

这是一元正态线性回归的统计模型。

二、 参数α和β的估计
模型中的α和β是参数,一般不知道。

由于只能得到有限的观察数据,无法算出准确的α与β的值,只能求出估计值a 和b ,并得到y i 的估计值为:
i i bx a y
+=ˆ (11.3) a 和b 应使残差i i i y
y e ˆ-=最小。

为了避免使正负e i 互相抵消,定义使残差平方和∑=-n
i i i
y
y
1
2)ˆ(达到最小的直线为回归线,即令:
∑=--=n
i i i e bx a y SS 1
2)(,且SSe 对a 、b 的一阶偏导数等于0
⎪⎪⎩⎪⎪⎨
⎧=∂∂=∂∂00b
SS a
SS e e
得: ⎪⎪⎩⎪⎪⎨⎧=---=---∑∑==n i i i i n
i i i bx a y x bx a y 1
1
0)()2(0))(2(
整理后,得
⎪⎪⎩⎪⎪⎨⎧
=+=+∑∑∑∑∑=====n i n i n
i i i i i n i n i i i y x x b x a y x b an 1
11211
(11.4) 解此方程,得:
⎪⎪⎪⎩
⎪⎪⎪⎨⎧
-=---=-⋅-=∑∑∑∑∑∑∑=======x b y a x x
y y x x
n x x n y x y x b n
i i
n
i i i
n i n i i i n
i i n i i n
i i i 1
2
1
12121
11)()
)((/)()()(
这种方法称为最小二乘法 记 ∑=-=
n
i i
xx x x
S 12)(,称为X 的校正平方和;
∑=-=
n
i i
yy y y
S 12)(,称为Y 的总校正平方和;
∑=--=
n
i i i
xy y y x x
S 1
))((,称为校正交叉乘积和,
则: xx
xy S S b =
(11.7)
a 叫样本回归截距,是回归直线与y 轴交点的纵坐标,当x =0时, =
a ;
b 叫样本回归系数,表示x 改变一个单位,y 平均改变的数量;b 的符号反映了x 影响y 的性质,b 的绝对值大小反映了x 影响y 的程度;
y ˆ
叫做回归估计值,是当x 在在其研究范围内取某一个值时,y 值平均数α+βx 的估计值 回归方程的基本性质: 1
∑=-n
i i i
y
y
1
2)ˆ(最小 2
∑=-n
i i i
y
y
1
)ˆ(=0 3.直线通过(x ,y )
转化后得到回归方程的另一种形式(中心化形式):
在实际计算时,可采用以下公式:
∑∑∑===-
=-
=-
=n
i i i xy n
i i yy n
i i xx y x n
y x S y n y S x n x S 1
2
1212
2..1,.1,.1 例11.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。

数据见表11.1。

试计算日龄X 与体重Y 之间的回归方程。

∑∑∑======n
i n
i i
i
n
i i
y
x
x
1
1
21
,5.104,
810,
60
∑==n
i i
y
1
2,25.2394
∑==n
i i
i y
x 1
5.1390
,
5.1365.104605
1
5.1390,2.210)5.104(51
25.239490
)60(5
1
81022=⨯⨯-==-==-=∴
xy yy xx S S S
6996
.2125167.15/5.1045167
.190/5.136=⨯-=-====
∴x b y a S S b xx
xy
即:所求的回归方程为:y = 2.6996 + 1.5167 x
带有统计功能的计算器,只需把数据依次输入,然后按一下键就可得到上述结果。

根据直线回归方程可作回归直线,并不是所有的散点都恰好落在回归直线上,说明用 去估计y 是有偏差的。

)(ˆx x b y bx x b y y
-+=+-=y
ˆy
ˆ
三、直线回归的偏离度估计 偏差平方和
∑=-n
i i i
y y
1
2)ˆ(的大小表示了实测点与回归直线偏离的程度,因而偏差
平方和又称为离回归平方和。

统计学已经证明:在直线回归分析中离回归平方和的自由度为n -2。

于是可求得离回归均方为:

--)2/()(2
n y y 离回归均方是模型中σ2的估计值。

离回归均方的平方根叫离回归标准误,记为 ,即
S yx 的大小表示了回归直线与实测点偏差的程度,即回归估测值 与实际观测值y 偏差的程度,于是把离回归标准误Syx 用来表示回归方程的偏离度。

以后将证明: 利用此式先计算出 ,然后再求Syx 。

四、直线回归的显著性检验
x 和y 变量间即使不存在直线关系,但由n 对观测值(xi ,yi )也可以根据上面的方法求得一个回归方程。

显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。

需要判断直线回归方程的真实性。

先探讨依变量y 的变异,然后再作出统计推断。

1、 直线回归的变异来源
的分解图
1) 一元回归的方差分析
(1) 无重复的情况。

y 的总校正平方和可进行如下的分解:
yx S ∑
--=)2/()ˆ(2n y y S yx y
ˆx xy y SS
SP SS y y /)ˆ(2
2-=-∑
2)ˆ(∑
-y y )(y y -)ˆ()ˆ()(y y y y
y y -+-=-
∑∑∑∑∑=====--+-+-=-+-=-n i n
i n
i i i i i i i n
i n
i i i i i
y y y y y y y
y y y y
y y y
1
1
1
221
1
22
)ˆ)(ˆ(2)ˆ()ˆ()]ˆ()ˆ[()(
)(]
)())(([)
)(())(()ˆ()ˆ(1
1
21
1
1
=⋅-=----=--+-=--+--=--∑∑∑∑∑=====xx xy n i n
i i i i n
i i i i n
i i i i i n i i i S b S b x x b x x y y b x b bx bx x b y y x b a bx a bx a y y y y
y
∑∑∑===-+-=-∴n
i n
i n
i i i i i y y y
y y y 1
1
1
22
2
)ˆ()ˆ()( 即: SSy = SSe + SS R
y 的总校正平方和 残差平方和 回归平方和 自由度: n-1 n-2 1
反映了y 的总变异程度,称为y 的总平方和,记为SSy ;
反映了由于y 与x 间存在直线关系所引起的y 的变异程度,称为回归平方和,记为SS R ;
反映了除y 与x 存在直线关系以外的原因,包括随机误差所引起的y 的变异程度,称为离回归平方和或剩余平方和,记为SSe 。

把y 的总校正平方和分解成了残差平方和与回归平方和。

MS e 可作为总体方差σ2的估计量,而MS R 可作为回归效果好坏的评价。

如果MS R 仅由随机误差造成的话,说明回归失败,X 和Y 没有线性关系;否则它应显著偏大。

因此可用统计量
)
2/(-==
n SS SS MS MS F e R
e R (11.10) 对H 0: β = 0进行检验。

若F < F α(1, n-2),则接受H 0,否则拒绝。

简化公式:
对例11.1作方差分析 解:由以前计算结果:
SS y = 210.2,df = 4; SS e = 3.1704, df = 3,
2)(∑
-y y ∑-2)ˆ
(y y 2)(∑
-y y 22)]([)ˆ(∑
∑-=-=x x b y y SS R xy
x bSP SS b x x b ==-=∑
222)(x
xy
xy x xy SS SP SP SS SP 2
=
⋅=x
xy
y R y e SS SP SS SS SS SS 2
-=-=
∴ SS R = 210.2 −3.1704 = 207.03, df = 1 90.1953
/1704.303
.207==
F
查表得F 0.95(1, 3) = 10.13, F 0.99(1, 3) = 34.12
F > F 0.99(1, 3),拒绝H 0,差异极显著。

即应认为回归方程有效。

(2) 有重复的情况:
设在每一个x i 取值上对Y 作了m 次观察,结果记为y i1, y i2, ……y im , 则线性统计模型变为:
ij i ij x y εβα++=, i = 1, 2, … n, j = 1, 2, … m
估计值仍为:i i bx a y
+=ˆ 现在y 的总校正平方和可分解为: SS y = SS R + SS LOF + SS pe
其中SS LOF 称为失拟平方和,SS pe 为纯误差平方和,表达式和自由度分别为:
1,
..)(11
2-=-=∑∑==mn df y y SS n i m
j ij y
∑==-⋅=n
i i R df y y
m SS 1
21,..)ˆ(
n
mn df y y SS n df y
y m SS n i m
j i ij pe n
i i i LOF -=-=-=-⋅=∑∑∑===11
2.1
2.,
)(2
,)ˆ(
可试证明上述分解中的三个交叉项均为0。

统计检验步骤为: I. 令pe
LOF
MS MS F =
1,它服从F(n-2, mn-n)
若F 检验差异显著,则可能的原因有:
(1)除X 以外还有其他变量影响Y 的取值,而统计时没有加以考虑; (2)模型不当,即X 与Y 之间不是线性关系;
此时无必要再进一步对MS R 作检验,而应想办法找出原因,并把它消除后重作回归。

若差异不显著,则把MS LOF 和MS pe 合并,再对MS R 作检验: II. pe
LOF pe LOF R
df df SS SS MS F ++=
2,它服从F(1, mn-2)
若差异显著,说明回归是成功的,X, Y 间确有线性关系;若差异仍不显著,则回归失败,其可能的原因为:
(1)X ,Y 无线性关系;
(2)误差过大,掩盖了X, Y 间的线性关系。

如有必要,可设法减小实验误差,或增加重复数重做实验后再重新回归。

二)一元回归的t -检验 由于MS e 的自由度为n-2,因此上述两方差的自由度也均为n-2。

有了a 和b 的方差与均值,我们就可构造统计量对它们进行检验: H 0 : β = 0
H A : β ≠ 0 (双侧检验)
或: H A : β > 0 (或β< 0) (单侧检验)
统计量:e
xx
b b MS S b S b t ⋅=
=/
其中,Sb 为回归系数标准误。

当H 0成立时,t a ~ t(n-2),可查相应分位数表进行检验。

对例11.1中的β作t-检验:
H 0: β=0
解:2
/222
--=--=-=n S S S n bS S n SS MS xx xy yy xy yy e
e 0583.12
590
/5.1362.2102=--=
xx e b S MS b S b t ///==
99.131084.0/5167.190/0583.1/5167.1===
查表,t 0.995(3) = 5.841 < t ,∴ 差异极显著,应拒绝H 0,即β ≠ 0,或X 与Y 有着极显著的线性关系。

上述统计量还有一个用途:进行两个回归方程间的比较。

即检验H 0: β1 = β2和H 0: α1 = α2。

如果两H 0均被接受,则可认为两组数据是抽自同一总体,从而可将两回归方程合并,得到一个更精确的方程。

例11.3
是否可从它们得到统一的回归方程?
2
22122210:,:σσσσ≠=A H H
2565.11080
.01357
.021===
e e MS MS F 查表,F 0.975(6, 5) = 6.978 > F, ∴接受H 0,可认为两总体方差相等。

计算公共的总体方差:
1231
.011
1080
.051357.064
)2()2(212
211≈⨯+⨯=
-+-+-=
n n MS n MS n MS e e e
(2). 检验回归系数β1与β2是否相等:H 0: β1 = β2; H A : β1 ≠ β2
8766.103517.0066
.0)
162
1
875.2571(1231.0074.1140.1)
11(2
12
122
212
1=≈+⨯-=
+-=
+-=xx xx e b b S S MS b b S S b b t
查表,得t 0.975(11) = 2.201 > t, ∴接受H 0,可认为两回归系数相等。

共同总体回归系数的估计值为:
1146.1162875.257174
2942121212211≈++=++=+⋅+⋅=
xx xx xy xy xx xx xx xx S S S S S S b S b S b
(3). 再检验α1,α2是否相等:H 0: α1 = α2; H A : α1 ≠ α2
1702
.222556
.37
)
162
87875.257375.987181(1231.015
.3115.38)
1
1(2
22
2
2212112
122
212
1-≈-≈
+++⨯+-=
+++-=
+-=xx xx e a a S X n S X n MS a a S S a a t
查表,t 0.975(11) = 2.201, ,)11(975.0t t >∴ 接受H 0,可认为: α1 = α2。

若检验结果为α1 ≠ α2,此题即可结束;但若检验结果为α1 = α2,则需把全部原始数据放在一起,重新进行回归:
S xx = 902.9333, S xy = 965.4667, S yy = 1035.7333, x = 93.067, y = 68.533,
b =
xx
xy S S = 1.0693,
a =x
b y -= −30.9787
从而得到合并的回归方程x y
0693.19787.30ˆ+-=。

现在证明t 检验与前述的F 检验是一致的: 前已证明:SS e = S yy − b ⋅ S xy , ∴SS R = S yy − SS e = b ⋅ S xy , xx
e
b S MS S =
2
222
2t S b S S S b MS MS F b
xx b xy e R ==⋅⋅==∴
五、点估计与区间估计
前边已经证明a 和b 是α和β的点估计;但作为预测值仅给出点估计是不够的,一般要求给出区间估计,即给出置信区间。

α和β的区间估计
已经证明a 和b 是α和β的点估计,并求出了它们的方差。

因此给出置信区间就很容易了:
)2(~/--n t S MS b xx
e β
∴β的95%置信区间为:
xx e S MS n t b /)2(975.0-± (11.13)
同理
)2(~)
1(2
-+-n t S x n MS a xx
e α
∴α的95%置信区间为:
)1()2(2
975.0xx
e S x n MS n t a +-± (11.14)
这与以前假设检验中的置信区间求法完全一样。

若置信水平为99%,把分位数相应换为t 0.995(n-2)即可。

对例11.1中的α和β给出95%置信区间。

解:从前边的计算可知:
a = 2.6996,
b = 1.5167, S xx = 90, MS e = 1.0568, n = 5, 12=x 查表,得t 0.975(3) = 3.182
3887
.4)90
12
51(0568.1182.3)1()3(3448.090
0568
.1182.3)
3(2
2
975.0975.0=+⨯⨯=+=⨯=xx e xx e S x n MS t S MS t
∴ α的95%置信区间为:
2.6996 ± 4.3887, 即(-1.6891, 7.0883) β的95%置信区间为:
1.5167 ± 0.3448, 即(1.1719, 1.8615)
第二节 相关分析
直线相关分析是根据x 、y 的实际观测值,计算表示两个相关变量x 、y 间线性相关程度和性质的统计量——相关系数r 并进行显著性检验。

一、相关系数。

例:(1)X 7 7 1 6 5 3 8 9 3 1 1 总和50 Y 5 9 6 1 3 1 9 4 6 6 6 总和52 (2)X 9 8 7 9 6 5 3 3 1 1 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 (3)X 1 1 3 3 5 6 7 1 8 9 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 可见:(1)X 、Y 关系紊乱(2)X 减小、Y 也减小(3)X 增大、Y 减小
作散点图,如果再以X 和Y 的平均数作坐标原点,将原散点图划分为四个象限,如果各点均匀分布则 =0,落在2、4象限则小于0——负相关, 落在1、3象限则大于0——正相关,为消除变异程度(n-1)和单位的影响,需除以标准差。

yy
xx xy S S SPxy y y x x y y x x n y y n x x n y y x x SxSy
y y x x n r ⋅=
----=
-------=---=
∑∑∑∑∑∑2
2
2
2)
()())((1
)(1
)(1)
)(()
)((11
根据以前的推导结果,有:yy
e yy R
yy
xy yy
xx xy
S SS S SS S bS S S S r -==
=
⋅=12
2
性质: 1≤r 。

当1=r 时,从上式可看出SS e = 0,即用y
ˆ可以准确预测y 值。

此时若X 不是随机变量,则Y 也不是随机变量了。

当r = 0时,SS e = S yy ,回归一点作用也没有,即用X 的线性函数完全不能预测Y 的变化。

但这时X 与Y 间还可能存在着非线性的关系。

当10<<r 时,情况介于上述二者之间隔。

X 的线性函数对预测Y 的变化有一定作用,

∑--)()(y y x x ⎥⎥

⎤⎢⎢⎣⎡-⎥⎥⎦⎤⎢⎢⎣⎡--
=
∑∑∑∑∑∑∑n y y n x x n
y x xy 2222)()()
)((
但不能准确预测,这说明Y 还受其他一些因素,包括随机误差的影响。

综上,r 可以作为X ,Y 间线性关系强弱的一种指标。

非常直观,接近于1就是线性关系强,接近于0就是线性关系弱;而其他统计量都需要查表后才知检验结果。

二、决定系数和相关系数 前面已经证明了等式: 从这个等式:y 与x 直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y 的总平方和
中所占的比例的大小。

这个比例越大,y 与x 的直线回归效果就越好,反
之则差。

比值
叫 做 x 对 y 的决定系数,记为 r 2,即
决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。

显然有0≤r 2≤1。

因为:
而SPxy /SSx 是以x 为自变量、y 为依变量时的回归系数byx 。

若把y 作为自变量、x 作为依变量,则回归系数 bxy =SPxy /Ssy ,所以决定系数r 2等于y 对x 的回归系数与x 对y 的回归系数的乘积。

即决定系数反应了x 为自变量、y 为依变量和y 为自变量、x 为依变量时两个相关变量x 与y 直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。

但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异向增减。

另外,r 显著即一个显著的回归方程并不一定具有实践上的预测意义
如一个资料x 、y 两个变量间的相关系数r =0.5,在 df = 24 时 ,r 0.01(24) = 0.496,r >r0.01(24),表明相关系数极显著。

而r 2=0.25,即x 变量或y 变量的总变异能够通过y 变量或x 变量以直线回归的关系来估计的比重只占25%,其余的 75% 的变异无法借助直线回归来估计。

计算相关系数:根据公式
三、相关系数的显著性检验
在一般情况下r 不是正态分布,直接检验有困难。

但当总体相关系数ρ= 0时,r 的分布
近似于正态分布,此时用MSe 代替2
σ,就可以对0:0=ρH 作t 检验。

这种检验与对回归
系数b 的检验:0:0=βH 是等价的。

可证明如下: b 的t 检验统计量为:t = b/S b 。

b=S xy /S xx ,
=-∑2)(y y ∑
∑-+-22)ˆ()ˆ(y y y y 2)ˆ(∑
-
y y ∑
-2)ˆ(y y 2)(∑
-y y /)ˆ(2∑-y y 2)(∑
-y y ∑
∑--=
2
2
2)()
ˆ(y y y y r xy
yx y xy x xy y x xy b b SS SP SS SP SS SS SP y y y y r ⋅=⋅==--=∑
∑22
2
2)()ˆ(
2
1)2(1
)1(12
2
2--⋅=-⋅⋅-⋅=⋅--==
n r S S S n S S S S S n bS S S MS S xx yy xx
yy xx xy yy xx xy
yy xx
e
b 代入t 的表达式,得:
)2(~12
1212222---=--⋅=--⋅⋅
=
n t r
n r r n r r n S S S S t yy xx xx
xy 。

因此可用上述统计量对0:0=ρH 作统计检验。

为使用方便,已根据上述公式编制专门的相关系数检验表,可根据剩余自由度及自变量
个数直接查出r 的临界值。

若必须对ρ≠0的情况作统计检验,可采用反双曲正切变换: r
r
Z -+=
11ln
21 (11.20) 当n 充分大时,可证明Z 渐近正态分布N )31,
)1(2(--+
n n ρ
ξ, 其中ρ
ρξ-+=11ln 21。

利用统计量Z 可对210,ρρρρ==等进行检验。

但这一检验方法用得很少。

求出例11.1相关系数r ,并作统计检验。

解:利用以前的计算结果,可得:
99
.1399242
.012
599242.01299242
.02.210905
.1362
2
≈--⨯=
--=
≈⨯=⋅=r
n r Z S S S r yy xx xy
这里求得的Z 值与前面求得的t 值是相同的,它们本来就是同一个统计量。

查表,t 0.995(3) = 5.841 < t, ∴差异极显著,即X 与Y 有极显著的线性关系。

若直接查相关系数检验表,可得:剩余自由度为3,独立自变量为1,α=0.05的r 临界值为0.878, α=0.01的临界值为0.959, ∴差异仍为极显著。

二、 相关系数与回归系数间的关系
在X 和Y 均为随机变量的情况下,通常可以X 为自变量,Y 为因变量建立方程,也可反过来,以Y 为自变量,X 为因变量建立方程。

此时它们的地位是对称的。

取X 为自变量,Y 为因变量,回归系b 为:xx xy S S b /= 取Y 为自变量,X 为因变量,回归系数b’为:yy xy S S b /'=
',22b b r b b S S S r yy
xx xy
⋅='⋅=⋅=

即:相关系数实际是两个回归系数的几何平均值。

这正反映了相关与回归的不同:相关是双向的关系,而回归是单向的。

三种对回归方程统计检验的的比较:
1.对一元线性回归来说,它们的基本公式其实是等价的,因此结果也是一致的。

2.各有优缺点:对b的t检验可给出置信区间;方差分析在有重复的情况下可分解出
纯误差平方和,从而可得到进一步的信息;相关系数则既直观,又方便(有专门表格可查),因此使用广泛。

需注意,不论采用什么检验方法,数据都应满足以下三个条件:独立,抽自正态总体,方差齐性。

相关文档
最新文档