第九章 直线回归与相关分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SS x = ∑ x 2 −
134.7 2 = 2323.19 − = 55.1788 8
a = y − b x = 14.4125 − (−2.5317) ×16.8375 = 57.04
二、直线回归的数学模型
y=a+βx+ε a为总体回归截距,β为总体回归系数, ε为 为总体回归截距, 为总体回归系数 为总体回归系数, 为 为总体回归截距 随机误差 如果是样本资料: 如果是样本资料: y=α+bx+e α、b、e分别估计总体 、β、 ε 分别估计总体a 、 分别估计总体 、
Байду номын сангаас二节 直线回归
一、直线回归方程的建立
ˆ y = a + bx
公式1
上式读作“y依x的直线回归方程”,其中 是自 的直线回归方程” 其中x是自 上式读作“ 依 的直线回归方程 变量, ˆ 是与x值相对应的依变量 的点估计值, 变量, y 是与 值相对应的依变量 的点估计值, = 值相对应的依变量y的点估计值 a称为回归截距,b是回归直线的斜率,称为回 称为回归截距, 是回归直线的斜率 是回归直线的斜率, 称为回归截距 归系数 为了使公式1能最好地反应 能最好地反应y和 两变量间的数量 为了使公式 能最好地反应 和x两变量间的数量 关系, 得出: 关系,根据最小二乘法 得出:
2
df = 8 − 2 = 6
95% L1 53.85681 L2 60.22319
99% L1 52.21701 L2 61.86299
(二)总体回归系数β的置信区间
L1=α-tasb L2=α+tasb df=n-2 计算例1回归系数的 回归系数的95%和99%置信区间 计算例 回归系数的 和 置信区间
(三)t检验
H0:β=0;HA: β≠0。 ; 。 该方法是检验样本回 归系数b是否来自 是否来自β=0 归系数 是否来自 的双变量总体, 的双变量总体,以推 断线性回归的显著性。 断线性回归的显著性。 回归系数的标准误s 回归系数的标准误 b和 t值为: 值为: 值为
sb =
sy / x SS x
的变异程度,称为离回归平方, 所引起的 y 的变异程度,称为离回归平方,记为 Q。 。
U=bSP Q=SSy-U 由于直线回归只有1个自变量 个自变量, 由于直线回归只有 个自变量,所以回归平方和的 自由度为1,回归平方和等于回归方差, 自由度为 ,回归平方和等于回归方差,离回归平 方和的自由度为n-1-1=n-2,回归平方和除以相应 方和的自由度为 , 自由度离回归方差,记为s 自由度离回归方差,记为 y/x2。 sy/x为离回归标准 习惯上称作回归估计标准误。 差,习惯上称作回归估计标准误。
2 2 2 2 2 2 2 2
n=8
∑ x = 134.7 = 16.8375 x=
n 8
∑ y = 115.3 = 14.4125 y=
n 8
SP = ∑ xy −
(∑ x)(∑ y ) n (∑ x) 2
134.7 ×115.3 = −139.6937 = 1801.67 − 8
n SP − 139.6938 b= = = −2.5317 SS x 55.1788 y = 57.04 − 2.5317 x
sy / x
Q 23.6060 = = = 1.9835 n−2 8−2
变异来源 回归 离回归 总变异
df 1 6 7
F 0.01 F 0.05 SS F s2 353.6628 353.6628 89.89142 5.987374 13.74519 23.606 3.934333 377.2688
2
ˆ L1 = y − t a s y ˆ ˆ L2 = y + t a s y ˆ
根据例1,估计出黏虫孵化历期平均温度为 ℃ 根据例 ,估计出黏虫孵化历期平均温度为15℃时, 历期天数为多少( 置信区间)。 历期天数为多少(取95%置信区间)。 置信区间
x = 15 df = n − 2 = 8 − 2 = 6 ˆ y = a + bx = 57.04 + (−2.5317) × 15 = 19.0645 sy = sy / x ˆ 1 ( x − x )2 1 (15 − 16.8375) 2 + = 1.9835 × + = 0.8559 n SS x 8 55.1788
a = y − bx
∑ xy − (∑ x)(∑ y) / n = ∑ ( x − x)( y − y) = SP b= SS ∑ x − (∑ x ) / n ∑ ( x − x)
2 2 2
x
例1:有人研究了黏虫孵化历期平均温度(x,℃) :有人研究了黏虫孵化历期平均温度( , 与历期天数( )之间关系,试验资料如下表, 与历期天数(y,d)之间关系,试验资料如下表, 试配合直线回归方程。 试配合直线回归方程。
x y
11.8 30.1
14.7 15.6 16.8 17.1 18.8 17.3 16.7 13.6 11.9 10.7
19.5 8.3
20.4 6.7
∑ x = 11.8 + 14.7 + ... + 20.4 = 134.7 ∑ x = 11.8 + 14.7 + ... + 20.4 = 2323.19 ∑ y = 30.1 + 17.3 + ... + 6.7 = 115.3 ∑ y = 30.1 + 17.3 + ... + 6.7 = 2039.03 ∑ xy = 11.8 × 30.1 + 14.7 ×17.3 + ... + 20.4 × 6.7 = 1801.67
如果两个变量是平行关系, 如果两个变量是平行关系,只能用相关分析进行研 究两个变量之间相关程度和性质,不能用一个变量 究两个变量之间相关程度和性质, 的变化去预测另一个变量的变化。 的变化去预测另一个变量的变化。 回归和相关分析, 回归和相关分析,需注意的问题 (1)变量间是否存在相关以及在什么条件下会发生 ) 什么相关问题,都必须由学科本身决定。 什么相关问题,都必须由学科本身决定。 (2)研究两个变量之间的关系时,要求其余变量尽 )研究两个变量之间的关系时, 量保持在同一水平。 量保持在同一水平。 (3)两个变量成对观测值 )两个变量成对观测值≥5 的取值区间, (4)回归预测必须限制自变量 的取值区间,超出这 )回归预测必须限制自变量x的取值区间 个区间,变量间的关系类型可能会发生改变。 个区间,变量间的关系类型可能会发生改变。
sa = s y / x a −α t= sa
1 x + n SS x
2
L1=α-tasa L2=α+tasa df=n-2 计算例1资料回归截距的 资料回归截距的95%和99%置信区间 计算例 资料回归截距的 和 置信区间
sa = s y / x
1 x 1 16.8375 + = 1.9835 × + = 1.3009 n SS x 8 55.1788
ˆ L1 = y − t0.05 s y = 19.0645 − 2.447 × 2.1603 = 13.7782 ˆ L2 = y + t0.05 s y = 19.0645 + 2.447 × 0.8559 = 24.3508
第三节 直线相关
一、相关系数和决定系数 如果两个变量间呈线性关系,又不需要由x来估计 如果两个变量间呈线性关系,又不需要由 来估计 y,只需了 和y相关以及相关的性质,可通过计算 相关以及相关的性质, ,只需了x和 相关以及相关的性质 x和y相关程度和性质的统计数-相关系数来进行 相关程度和性质的统计数- 和 相关程度和性质的统计数 研究。 研究。 相关系数r为 相关系数 为: SP
95% L1 -3.18503 L2 -1.87837 99% L1 -3.52158 L2 -1.54182
(三)总体平均数µx/y置信区间
对于给定的x,预测总体的平均数 对于给定的 ,预测总体的平均数µx/y时:
sy = sy / x ˆ
sy ˆ
称为回归估计标准误 称为回归估计标准误
1 (x − x) + n SS x
sy / x
Q = n−2
(二)F检验
H0:两变量间无线性关系;HA:有线性关系。 两变量间无线性关系; 有线性关系。
U /1 U F= = • (n − 2) Q /( n − 2) Q
试检验例1直线回归关系的显著性 试检验例 直线回归关系的显著性 U=bSP=-2.5317×(-139.6937)=353.6628 × Q=SSy-U=377.2688-353.6628=23.6060
sy = sy / x
1 (x − x) 1+ + n SS x
2
ˆ L1 = y − t0.05 s y ˆ L2 = y + t0.05 s y
根据例1,若某年的历期平均温度为 ℃ 根据例 ,若某年的历期平均温度为15℃,该年 的历期天数为多少( 置信概率) 的历期天数为多少(95%置信概率) 置信概率
r=
SS x • SS y
决定为r 决定为 2。
Excel计算相关系数为:“数据分析”中的 计算相关系数为: 数据分析” 计算相关系数为 相关系数
r与b符号取决于 ,二者符号相同。r的绝对值越 与 符号取决于 符号取决于SP,二者符号相同。 的绝对值越 接近于1相关程度越高;越接近于0,越无相关性。 接近于 相关程度越高;越接近于 ,越无相关性。 相关程度越高 R为正表示正相关,为负表示负相关。 为正表示正相关, 为正表示正相关 为负表示负相关。 求例1的相关系数和决定系数 求例 的相关系数和决定系数
ˆ L1 = y − t0.05 s y = 19.0645 − 2.447 × 0.8559 = 16.9701 ˆ ˆ L2 = y + t0.05 s y = 19.0645 + 2.447 × 0.8559 = 21.1589 ˆ
(四)单个y值的置信区间
单个y观测值的标准误为: 单个 观测值的标准误为: 观测值的标准误为
三、直线回归的假设检验
(一)直线回归的变异来源

(y − y)2 =

ˆ (y − y)2 +

ˆ (y − y)2
的总变异程度, 的总平方和, ∑ ( y − y ) 2 反映了 y 的总变异程度,称为 y 的总平方和,记
ˆ 为 SS y ;∑ ( y − y ) 2 反映了由于 y 与 x 间存在直线关系所引起的 y ˆ 的变异程度,称为回归平方和, 的变异程度,称为回归平方和,记为 U; ∑ ( y − y) 2 为随机误差
F检验的结果与 检验的结果一致。事实上, 检验的结果与t检验的结果一致 事实上, 检验的结果与 检验的结果一致。 统计学已证明,在直线回归分析中, 统计学已证明,在直线回归分析中,这二 种检验方法是等价的, 种检验方法是等价的,可任选一种进行检 验。
四、直线回归的区间估计
(一)总体回归截距a的置信区间 总体回归截距 的置信区间 回归截距a的标准误 的标准误s 值为: 回归截距 的标准误 a和t值为: 值为
b−β t= sb
检验法检验例1回归关系的显著性 用t检验法检验例 回归关系的显著性 检验法检验例
sb =
sy / x
1.9835 = = 0.2670 SS x 55.1788
b − β − 2.5317 − 0 t= = = −9.48 sb 0.2670 df = n − 2 = 8 − 2 = 6 | t |= 9.48 > t0.01 = 3.707
x = 15 df = n − 2 = 8 − 2 = 6 ˆ y = a + bx = 57.04 + (−2.5317) ×15 = 19.0645 sy = sy / x 1 ( x − x )2 1 (15 − 16.8375) 2 1+ + = 1.9835 × 1 + + = 2.1603 n SS x 8 55.1788
第九章 直线回归与相关分 析
第一节 回归和相关的概念
对两个变量,一个变量用符号 表示 表示, 对两个变量,一个变量用符号x表示,另一 个变量用y表示 表示, 个变量用 表示,通过试验或调查获得两个 变量的成对观测值,可表示为( 变量的成对观测值,可表示为(x1,y1), ),…, (x2,y2), , (xn,yn)。 如果两个变量属于因果关系, 如果两个变量属于因果关系,一般用回归分 表示原因的变量称为自变量, 表示 表示, 析,表示原因的变量称为自变量,用x表示, 表示结果的变量称为依变量, 表示 表示。 表示结果的变量称为依变量,用y表示。可 取值预测y取值范围 用x取值预测 取值范围。 取值预测 取值范围。
相关文档
最新文档