一元回归及简单相关分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、基本概念 回归方程:Yˆ a称 b为XY对X的回归方程。
回归线:根据回归方程所画出的直线称为回归线。 回归系数:一元线性回归线的斜率称为回归系
数,表示自变量每改变一个单位,因 变量平均改变的单位数。
3、最优回归线的估计原理
最小二乘法(method of least square)原理:
条件平均数:在具有回归关系的两变量之间, 对于自变量X的任一可能的值xi,因变量Y 与之对应的分布的平均数μY·X=xi,称为自变 量X=xi时因变量Y的条件平均数。
二、 相关 (correlation)
相关:设有两个随机变量X和Y,对于任一随机 变量的每一个可能的值,另一个随机变量都 有一个确定的分布与之相对应,即在Y对X存 在回归关系的同时,X对Y也存在回归关系, 则称这两个随机变量间存在相关关系。
t5,0.05/2=2.571,|t| > t5,0.05/2,拒绝H0,即拒绝α = 100。
结论: a不是抽自α = 100的总体 。
三、两个回归方程的比较
对两个回归方程的b和a的差异显著性检验 之后,就能判断它们是否来自同一总体。 若来自同一总体,则可以将它们合并为一 个回归方程。
⑴ 检验MSe1和MSe2有无显著差异:
130
115
135
85
89
94
106
125
137
107
115
103
103
128
128
93
92
110
110
143
127
103
115
113
128
132
155
92
120
108
131
121
132
78
95
121
117
129
148
105
95
110
121
112
117
93
105
108
114
120
134
85
98
111
SYY
SY Y
n i 1
yi2
n
2
yi
i1
n
2600
10 2 7
2585.71
③ 计算b和a: b SXY 200 .00 11.16 SXX 17.92
a y bx 108.57 11.16 2.4 81.79
4.0
1.6
2.56
4.8
2.4
5.76
和
0
17.92
Y
Y ’ =Y-110
Y ’2
80
-30
900
90
-20
400
95
-15
225
115
5
25
130
20
400
115
5
25
135
25
625
-10
2600
X’Y ’ 72 32 12 0 16 8 60 200
② 利用公式计算SXY ,SXX ,SYY :
116
130
132
93.1
101.9
109.3
117.6
125.5
134.5
每个NaCI含量下10次重复的散点图 “•”表示在各xi处y的平均值;“+”是第一次观测的数据
二、 一元正态线性回归模型
若X是可控制的变量,在实验无限重复之后, 则可以得到在各xi上的Y的条件平均数μY·X , 这些平均数构成一条直线。
1 n
x2 S XX
sa2
MSe
1 n
x2 S XX
Ee 0
vare
se2
MSe
SYY bSXY n2
二、b和a的显著性检验——t检验
1、b的显著性检验 N ( , 2 )
S XX
H0: β = 0(β0)
HA: β≠0(β0)
Y
Y
0
0
X
0
X
X
Y
Y
Y
Y
X
X
X
3、根据散点图考虑以下问题:
⑴ 两变量之间的关系是否密切,能否由 X来估计Y;
⑵ 两变量之间的关系是呈一条直线(即 线性的),还是呈某种曲线;
⑶ 是否存在某个点偏离过大; ⑷ 是否存在其他规律。
4、实例
【例】土壤内NaCI含量对植物的生长有很大的影响,NaCI
含量过高,将增加组织内无机盐的累积,抑制植物的生长。
结论:干物重在NaCI含量上的回归极显著。
2、a的显著性检验
N (,
1 MSe ( n
x2 S XX
))
H0: α=α0 HA: α≠α0
检验统计量为: t a 0
sa
df=n-2
| t |>tn-2,α/2时,拒绝H0,接受HA;
| t |<tn-2,α/2时,接受H0。
【例10.5】以例10.1中的数据为例,检验a是
H0: σ12=σ12
HA: σ12≠σ12
检验统计量为: F MSe大
MSe小
(df: n大-2, n小-2)
F >Fα/2时,拒绝H0,说明两回归线的总体方差不一致, 差异显著;
F<Fα/2时,接受H0,说明两回归线有一共同的总体方 差,估计值为:
MSe
n1
2MSe1 n2 n1 2 n2
2MSe2 2
⑵ 检验b1和b2有无显著差异:
H0: β1-β2=0
HA: β1-β2≠0
检验统计量为:
t b1 b2 sb21 sb22
t
或
b1 b2
MSe
S
1
X1X1
1 SX2X2
df: (n1-2)+(n2-2)
|t|>tα/2时,说明两回归线的回归系数差异显著;
n
n
n
xi yi
S XY S X Y xiyi i1 i 1
i 1
n
200
0
10 7
200 .00
SXX
S X X
n i 1
xi2
n
xi
2
i1
n
17.92 02 7
17.92
⑴ β的最小二乘估计:
b
n i 1
xi yi
n i 1
xi n
n i 1
yi
n
2
n i 1
xi2
xi
i 1
n
n i 1
xi x yi y
n
xi x 2
i 1
n
b SXY
在各种离差平方和中,以距平均数的离差平方和最小。
在回归问题中,则在xi处Y的实际观测值yi对条件平 均数μY·xi离差平方和最小,也就是使各散点到直线的 纵向距离的平方和最小。
即观测值与回归估计值之间的离差平方和 达到最小时的回归线作为最好的回归线。
n
L ( y yˆ )2
i
i
i 1
4、β和α的最小二乘估计
下表中的数据,是每1000g土壤中所含NaCI的不同克数(X), 对植物单位叶面积干物重(Y)的影响,作出7对数据的散点图。
土壤NaCI含量X / g.kg-1 0
0.8
1.6
2.4
3.2
4.0
4.8
干重Y / mg.dm-2
80 90
95
115
130
115
135
解:以 每 1000g 土 壤
中 NaCI 含 量 为 横轴,以单位叶 面积干物重为纵 轴,建立坐标系, 依据所给数据作 出散点图。
不同NaCI含量对单位叶面积干物重影响的散点图
增加每一NaCI含量下观测次数(10次重复观测值及平均值如下)
0
1
80
2
100
3
75
4
89
干重/ mg.dm-2
5
91
6
79
重复值
7
101
8
85
9
83
10
79
平均数
86.2
土壤NaCI含量 / g.kg-1
0.8
1.6
2.4
3.2
4.0
4.8
90
95
115
解: 否抽自α = 100的总体 。
t a 0
sa
sa2
MSe
1 n
x2 S XX
se2
MSe
SYY bSXY n2
MSe
SYY bSXY n2
2585.71 11.16200 70.74
5
sa 5.73
t 81.79 100 3.18 5.73
土壤NaCI含量X / g.kg-1 0
0.8
1.6
2.4
3.2
4.0
4.8
干重Y / mg.dm-2
80 90
95
115
130
115
135
解:① 列出回归方程计算表:(编码法)
X
X ’=X-2.4
X ’2
0
-2.4
5.76
0.8
-1.6
2.56
1.
0
3.2
0.8
0.64
回归(regression):设有两个随机变量X和Y, 如果对于变量X的每一个可能的值xi,另一 个随机变量Y都有一个确定的分布与之相对 应,则称随机变量Y对变量X存在着回归。
2、自变量与因变量
自变量(independent variable):在具有回归关系的 变量中,自身发生变化从而引起其他变量随之 发生变化的变量,称为自变量,也称解释变量。 随机变量X为自变量。
MSe
1 n1
x12
S S X1X1
X2X2
1 n2
x22
S S X1X1
X2X2
df: (n1-2)+(n2-2) |t|>tα/2时,说明两回归线的a差异显著;
|t|<tα/2时,说明两回归线的a有一共同的总体,合并
④ 得到回归方程,作出回归线:
Yˆ a bX 81.79 11.16X
干物重在NaCI含量上的回归线
第三节 一元线性回归的检验
一、b、a和e的数学期望值与方差
Eb varb S XX
sb2
MSe S XX
E a
vara
关二相关correlation回归变量间的依存关系相关变量间的依存关系相关变量间的互依关系回归名称的由来英国统计学家fgalton18221911年和他的学生现代统计学的奠基者之一年和他的学生现代统计学的奠基者之一kpearson18561936年在研究父母身高与其子女身高的遗传问题时观察了在研究父母身高与其子女身高的遗传问题时观察了1078对夫妇以每对夫妇中父亲的身高作为解释变量对夫妇以每对夫妇中父亲的身高作为解释变量x而取他们的一个成年儿子的身高作为被解释变量而取他们的一个成年儿子的身高作为被解释变量y应变量将结果在平面直角坐标系上绘成散点图发现趋势近乎一条直线
μY =α+βX
Y =α+βX+ε
Y :NID(α+βX, σ2)
ε :NID(0, σ2)
三、参数α和β的估计
1、估计直线的一般表达式: Yˆ a bX
a:截距(intercept),直线与Y轴交点的纵坐标, 表示X=0时Y的平均值。
b:斜率(slope),回归系数(regression coefficient)。 意义:X每改变一个单位,Y平均改变b个单位。 b>0,Y随X的增大而增大(减少而减少)—— 斜上; b<0,Y随X的增大而减小(减少而增加)—— 斜下; b=0,Y与X无直线关系—— 水平。 |b|越大,表示Y随X变化越快,直线越陡峭。
|t|<tα/2时,说明两回归线有一共同的总体回归系数,估
计值为:
b S b X1X1 1 S X2 X2 b2
S S X1X1
X2X2
⑶ 检验a1和a2有无显著差异:
H0: α1-α2=0
HA: α1-α2≠0
检验统计量为:
t
a1 a2
s2 a1
s2 a2
t
或
a1 a2
检验统计量为: t b 0
sb
df=n-2
| t |>tn-2,α/2时,拒绝H0,接受HA,说明两变量间 存在显著的线性关系,回归显著;
| t |<tn-2,α/2时,接受H0,说明两变量间不存在显著 的线性关系,回归不显著。
【例10.2】以例10.1中的数据为例,进行回归系数
解:
b的显著性检验。
因变量(dependent variable):依据自变量的变化而 发生变化的随机变量称为因变量,也称为反应 变量。随机变量Y 为因变量。
3、一元回归与多元回归
一元回归:只有一个自变量的回归,称为一元 回归,也称为简单回归。
多元回归:有多个自变量的回归,称为多元回归。
4、 条件平均数 (conditional mean)
第8章第一节
一元回归及 简单相关分析
Simple Regression and Correlation Analysis
内 容概要
第一节 回归与相关的基本概念 第二节 一元线性回归方程 第三节 一元线性回归的检验 第四节 一元非线性回归 第五节 相关
第一节 回归与相关的基本概念
一、 回归
1、 回归的概念
回归——变量间的依存关系 相关——变量间的互依关系
第二节 一元线性回归方程
一、 散散点点图图 (scatter diagram):
1、概念
用自变量X为横轴,因变量Y为纵轴,在XY
平面内标出(x1, y1),(x2, y2),…,(xn, yn) 这
些点,就构成一幅散点图。
2、常见类型的散点图
0
0
yi y 2
i 1
S XX
X和Y的校正交叉乘 积 和 , 用 SXY 表 示 。 X的校正平方和, 用SXX表示。 Y的总校正平方和, 用SYY表示。
⑵ α的最小二乘估计:
a y bx
x
1 n
n i 1
xi
y
1 n
n i 1
yi
四、回归方程的计算实例
【 例 10.1】 根 据下 表 中的 数 据 , 计 算干 物 重在 NaCI含量上的回归方程。
t b 0
sb
sb2
MSe S XX
MSe
SYY bSXY n2
MSe
SYY bSXY n2
2585.71 11.16200 70.74
5
sb
MSe S XX