第十二章 线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定因果关系。 ③若变量之间不存在相关关系,不要刻意去寻求两变量间的某种关
系,并且用回归与相关来分析,这样做毫无意义。
(X)
物理量 0 2 1 5 4 2 6 2 5 7
(Y)
㈠平均数方法 将N对数据按奇偶顺序分为两组,然后分别代入设定的回归方程求 和,计算
和
第一组(奇数组) 1=a+0·b 3=a+1·b 4=a+4·b 6=a+6·b 8=a+5·b 22=5a+16·b… ⑴
第二组(偶数组) 1=a+2·b 3=a+5·b 5=a+2·b 7=a+2·b 9=a+7·b 25=5a+18·b…⑵
变异来源 回归
剩余 总计
表11-3 回归方程的方差分析表
SS
df
MS
31.755
1
31.755
38.345
8
70.1
9
4.793
F 6.63*
二、回归系数的显著性检验 (一)回归系数检验的基本思想 从总体中抽取样本计算的样本回归系数与总体回归系数之间存在着 抽样误差,即对于样本的回归系数
来说,即使抽自一个回归系数
2、最小二乘法的原理 就
方程而方,对平面上任何一条直线我们都可以用数量( )去刻划点( , )到这条直线的远近。其中, 是实际观测值, 是估计值。由于 ,所以当我们用 去估计 时,要使其估计的误差平方和 尽可能小。当 最小时,方程 所表示的直线就是最优拟合直线。所以求最优拟合方程的问题就可 以归结为根据实际观测值求出 方程中的两个常数 和 ,使 的值最小。
r2称为测定系数,表示回归平方和在总平方和中所占的比例。 第三节 回归方程的应用
一、用样本回归方程进行预测或估计 例12:下表是20名工作人员的智商和某一次技术考试成绩,根据这
个结果求出考试成绩对智商的回归方程。如果另有一名工作人员智商为 120,试估计一下若让他也参加技术考试,将会得多少分? 被试 1 2 3 4 5 6 7 8 9 10 智商 89 97 126 87 119 101 130 115 108 105
方程中,每一点到直线沿Y轴方向的距离平方和为:
由 分别求 , 的偏导数,并令它们等于0,则有
经整理,并省略X与Y字母下面的下标,上面两式分别写成:
两边同除以N,得
根据例11-1中的数据,使用最小二乘法求回归方程。 代入公式
得b=0.81 再代入公式
得a=1.95 则,回归方程为:
五、回归系数与相关系数的关系
∵
∴
又∵
∴ 即:总平方和 = 误差平方和 + 回归平方和 回归平方和的公式推导如下。
∵ ,
∴
——所有Y值的总平方和;——由回归直线表示的线性关系解释的 那部分离差平方和;——回归直线无法解释的那个离差平方和。回归方 程效果的好坏取决于回归平方和在总平方和中所占的比例,即
比例愈大说明回归效果越好,自变量 与因变量 之间的线性关系越显著;反之则越差。
为自变量预测因变量
时,方程为
以
为自变量预测因变量
时,方程为
四、一元线性回归模型建立方法 例12-1:下表中10对数据是为确定某心理量与物理量之间的关系而 做的实验结果(表中物理量是取对数后的值)。假设两者呈线性关系, 试以这10对数据结果建立该心理量与物理量的回归方程。 被试 A B C D E F G H I J 心理量 1 1 3 3 4 5 6 7 8 9
(X)
考试 55 74 87 60 71 54 90 73 67 70
(Y)
被试 11 12 13 14 15 16 17 18 19 20 智商 84 121 97 101 92 110 128 111 99 120
(X)
考试 53 82 58 60 67 80 85 73 71 90
(Y)
1)计算X、Y变量的平均数 , 2)代入公式计算b,a
第一节 线性回归模型的建立方法 一、回归分析与相关分析的关系 回归分析是根据一个已知变量来预测另一个变量平均值的统计方 法。 回归与相关之间既存在着密不可分的关系,也有本质的区别。从关 系看,若两变量无相关时(即r=0),则不存在预测的问题;若两变量 存在关系,那么相关程度愈高,误差愈小,预测的准确性越高。当变量 完全相关时(即r=1),意味着不存在误差,其预测将会完全准确的。 从区别看,一是相关表示两个变量双方向的相互关系,回归只表示一个 变量随另一个变量变化的单方向关系。二是回归中有因变量和自变量的 区分,相关并不表明事物的因果关系,对所有的研究变量平等看待,不 作因变量、自变量的区分 二、回归分析的内容 (一)建立回归方程 (二)检验方程的有效性 (三)利用方程进行预测 三、回归模型与回归系数 1、用来表达变量之间规律的数学模型称为回归模型。 2、回归模型的分类 (1)线性回归模型和非线性回归模型 (2)简单回归模型(一个自变、一个因变量)和多重回归模型 (两个以上自变量) (3)一元线性回归是指只有一个自变量的线性回归(linear regression),对具有线性关系的两个变量,回归的目的首先是找出因变 量(一般记为
第一步,将成对资料绘制散点图,从散点图中点子的分布形状判 断X和Y是否有线性关系。
第二步,建立回归模型。 第三步,回归方程显著性检验。 第四步,计算回归估计标准误差。 第五步,根据建立的回归模型进行预测,估计真值预测区间。 2、注意事项 ①一种模型只要在当初抽取样本的同一范围内应用才有效。 ②进行回归与相关分析时,不要认为某一变量发生的变化一定是由 另一变量(或另几个变量)的变化所引起的,回归分析并不能准确地确
⑴与⑵联立,成二元一次方程组: 22=5a+16·b… ⑴
25=5a+18·b…⑵ 解得a=-0.4,b=1.5,代入设定的方程
答:该心理量与物理量的回归方程为 (二)最小二乘法 1、所谓最小二乘法,就是如果散点图中每一点沿Y轴方向到直线
的距离的平方和最小,就是使误差的平方和最小,则在所有直线中这条 直线的代表性是最好的,它的表达式就是所要求的回归方程。
以例11-1的回归方程为例,检验其方程效果。 1)建立假设 :方程效果不显著,即自变量X与因变量Y之间没有显著的线性
关系。 :方程效果显著,即自变量X与因变量Y之间存在着显著的线性 关系。
2)方差分析 ① 求平方和
② 求均方
③ 求F值
3)比较与决策 当分子自由度为1,分母自由度为8时, 。因为, > , <0.05,效果显著。所以接受研究假设,拒绝虚无假设,说明自变 量 与因变量 之间存在显著的线性关系。 4)列方差分析表摘要
∴
百度文库同理,
∴ 六、线性回归的基本假设 1、线性关系假设 2、正态性假设 3、独立性假设 4、误差等分散性假设
第二节 回归模型的检验与估计 就是回归方程在一定程度上揭示了特定变量之间的相关关系,并找 出了代表这一关系比较合适的数学模型。但方程的效果如何,只有在两 变量具有显著的线性相关关系时,所建立的回归方程才是有效的。对求 得的回归方程进行显著性检验,看是否真实地反映了变量间的线性关 系,称为回归模型的有效性检验。 一、回归方程效果的检验 线性回归模型的有效性检验通常使用方差分析的思想和方法进行。 根据方差分析的原理,在回归的方差分析中总变异被分解为自变量的变 异和误差的变异。其分析过程也是从总平方和的分解到自由度的分解, 再到均方,最后是进行自变量对误差影响程度进行比较。
② 计算t值
4)比较与决策 当 时, ,> , <0.05,关系显著。拒绝虚无假设,接受研究假设,表明两个变量 之间存在显著的线性关系。
三、测定系数 在回归方程的方差分析中曾指出,回归平方和对总平方和的贡献越 大,说明回归方程越显著,因而回归平方和在总平方和中所占的比例是 评价回归效果的一个指标。这个比例越大回归效果越好,若这个比例达 到1,则表明此时Y的变异完全由X的变异来解释,没有误差。若为0, 则说明Y的变异与X无关,回归方程无效。
回归方程为: 当x =120时,代入回归方程计算,得:
二、真值的预测区间 预测是将已知变量值作为自变量代入相应的回归方程而推算出另一 个变量的估计值及置信区间统计方法。 预测的标准误:
预测区间:
如例12-5,当X=97时Y的真值进行估计。 1) 计算预测标准误
= 6.5 2)计算预测置信区间 查t表,有 ,则置信区间为: 三、回归分析与相关分析的综合运用 1、具体步骤
)关于自变量(一般记为
)的定量关系。 3、一元线性回归方程
代表X与Y的线性关系,X为自变量, Y 为对应于X的Y变量的估计
值,常数a表示该直线在Y轴的截距,常数b表示该直线的斜率。在回归 分析中,b叫做回归系数。
因回归表示两个变量单方向的推算关系,所以既可以用
去预测
,也可以用
去预测
。因此,回归方程有两个。 以
(二)回归系数的标准误 在方程
中,当回归线上与所有自变量( )相对应的各个因变量 的残值(即 )都呈正态分布,且残值的方差齐性时,可以直接用殖值( )的估计误差及自变量 的离差平方和表示回归系数的标准误,即有
∵ ∴ 又∵ ∴
如例11-1的方程采用回归系数进行显著性检验。 1)建立假设 : , : 2)计算统计量 ① 求样本回归系数的标准误
的总体,因抽样误差的影响,样本回归系数
也有可能不为0。若
在以
为中心的抽样分布上出现误差的概率较大(即 >0.05),则
与
之间无显著差异,其差异主要是抽样误差,可忽略不计,说明
是来自
总体。这时即使计算的
值较大也不能认为 与 之间存在线性关系。相反,若 在以 的抽样分布上出现误差的概率较小(即 <0.05,则 与 之间存在显著差异,说明 并非来自 的总体。这时即使计算出的 值较小,也应承认 与 存在着线性关系。回归系数的检验采用 检验法,其公式为