第十一章 简单回归分析
概率论与数理统计-回归分析
第11章 回归分析设x 为普通变量,Y 为随机变量。
如果当x 变化时,Y 随着x 的变化大体上按某种趋势变化,则称x 与Y 之间存在相关关系,即),0(~,)(2σεεN x f Y +=例如,某地人均收入x 与某种商品的消费量Y 之间的关系;森林中树木的断面直径x 与高度Y 之间的关系;某种商品的价格x 与销售量Y 之间的关系;施用氮肥、磷肥、钾肥数量1x ,2x ,3x 与某种农作物产量Y 之间的关系。
在生产实践和科学研究中,常常有这样的问题:由实验或测量得到变量间的一批离散样点,要求由此建立变量之间的近似函数关系或得到样点之外的数据。
我们确定的函数要求在某种距离意义下的误差达到最小(通常用最小二乘法,即考虑使各数据点误差平方和最小)。
由一个(或几个)普通变量来估计或预测某个随机变量的取值时,所建立的数学模型及所进行的统计分析称为回归分析。
§11.1 一元线性回归假设有一批关于x 与Y 的离散样点),(,),,(),,(2211n n y x y x y x集中在一条直线附近,说明x 与Y 之间呈线性相关关系,即),0(~,2σεεN bx a Y ++=称为一元线性回归模型。
一、模型中的参数估计 1、b a ,的估计 首先引进记号∑∑∑∑∑=====-=-=-===ni i i xy ni i yy ni i xx ni ini iyx n y x S y n y S x n x S y n y x n x 11221221111按最小二乘法可得到xxxyS S b =ˆ x b y a ˆˆ-= 称x b a yˆˆˆ+=为Y 关于x 的一元线性回归方程。
2、2σ的估计)ˆ(21ˆ22xx yy S b S n --=σ求出关于的一元线性回归方程。
解:先画出散点图如下计算出 3985193282503.6714510======xy yy xx S S S y x n483.0ˆ==xxxyS S b 735.2ˆˆ-=-=x b y a所求的回归方程是x y483.0735.2ˆ+-=。
CHAP11 回归分析精品PPT课件
回归分析的模型
按是否线性分:线性回归模型和非线性回 归模型 按自变量个数分:简单的一元回归,多元 回归
回归分析的模型
基本的步骤:利用SPSS得到模型关系式, 是否是我们所要的,要看回归方程的显著 性检验(F检验)和回归系数b的显著性检 验(T检验),还要看拟合程度R2 (相关系数 的平方,一元回归用R Square,多元回归 用Adjusted R Square)
奇异值(Casewise或Outliers)诊断
概念 奇异值指样本数据中远离均值的样本数
据点,会对回归方程的拟合产生较大偏差影响。 诊断标准
一般认为,如果某样本点对应的标准化残 差值超出了[-3,+3]的范围,就可以判定该 样本数据为奇异值。
线性回归方程的预测
点估计
y0 区间估计
95%的近似置信区间: [y02Sy,y0+2Sy]. x0为xi的均值时,预测区 间最小,精度最高.x0越远离均值,预测区 间越大,精度越低.
11.1 线性回归(Liner)
一元线性回归方程: y=a+bx a称为截距 b为回归直线的斜率 用R2判定系数判定一个线性回归直线的拟合
程度:用来说明用自变量解释因变量变异的 程度(所占比例)
回归方程
回归方程的显著性检验 目的:检验自变量与因变量之间的线性关系是否 显著,是否可用线性模型来表示. 检验方法: t检验 F检验(一元回归中,F检验与t检验一致, 两种检 验可以相互替代)
回归分析的过程
Байду номын сангаас在回归过程中包括:
Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归
回归分析的过程
简单回归分析
一、线性回归分析若是自变数与依变数都是一个,且Y 和X 呈线性关系,这就称为一元线性回归。
例如,以X 表示小麦每667m 2有效穗数,Y 表示小麦每667m 2的产量,有效穗数即属于自变数,产量即属于依变数。
在这种情形下,可求出产量依有效穗数而变更的线性回归方程。
在另一种情形下,两类变数是平行关系很难分出哪个是自变数,哪个是依变数。
例如,大豆脂肪含量与蛋白质含量的关系,依照需要确信求脂肪含量依蛋白质含量而变更的回归方程,或求蛋白质含量依脂肪含量而变更的回归方程。
回归分析要解决的问题要紧有四个方面:一是依如实验观看值成立适当的回归方程;二是查验回归方程是不是适用,或对回归方程中的回归系数的进行估量;三是对未知参数进行假设考试;四是利用成立起的方程进行预测和操纵。
(一)成立线性回归方程用来归纳两类变数互变关系的线性方程称为线性回归方程。
若是两个变数在散点图上呈线性,其数量关系可能用一个线性方程来表示。
这一方程的通式为:上式叫做y 依x 的直线回归。
其中x 是自变数,y ˆ是依变数y 的估量值,a 是x =0时的y ˆ值,即回归直线在y 轴上的截距,称为回归截距,b 是x 每增加一个单位时,y 将平均地增加(b >0时)或减少(b <0时) b 个单位数,称为回归系数或斜率(regression coefficient or slope )。
要使 能够最好地代表Y 和X 在数量上的互变关系,依照最小平方式原理,必需使将Q 看成两个变数a 与b 的函数,应该选择a 与b ,使Q 取得最小值,必需求Q 对a ,b 的一阶偏导数,且令其等于零,即得:()()⎩⎨⎧∑=∑+∑∑=∑+212xyx b x a yx b an ()()∑∑=--=-=nn Q bx a y yy Q 1min212ˆbx a y +=ˆ()1.7ˆbx a y+=由上述(1)解得:将()代入(2),那么得:()的分子 是x 的离均差与y 的离均差乘积总和,简称乘积和(sum of products ),可记为SP ,分母是x 的离均差平方和,也可记为SS x 。
管理统计学习题参考答案第十一章
十一章1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。
既可以从描述统计的角度,也可以从推断统计的角度来说明。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
由于相关分析不能指出变量间相互关系的具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了一个重要的方法。
在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此,在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
简单线性回归的假设检验
第十一章 简单线性回归分析二、线性回归的假设检验回归方程有统计学意义吗? • 假设检验包括两个方面:1. 回归模型是否成立(model test ):方差分析2. 总体回归系数是否为零(parameter test ): t 检验。
X Y 1584 . 0 1353 . 0 ˆ + - =总变异的分解: YY - YY - ˆ YY ˆ - YPXY Y 图103 Y 的总变异分解示意图总变异的分解:å å å - + - = - 2 2 2) ˆ ( ) ˆ ( ) ( Y Y Y Y Y Y 残差回归 总 SS SS SS + = 1 - = n 总 n 1 = 回归 n 2- = n 残差 n 残差回归 总 n n n + =残差SS 总SS 回归SS 图114 回归效果示意图回归模型的假设检验:H :总体回归方程不成立或总体中自变量 X 对因变量Y 没有贡献H :总体回归方程成立或总体中自变量 X 对因1变量Y 有贡献a =0.05残差回归 残差 残差 回归回归 MS MS SS SS F = = n n / /对例 101 的回归方程 X Y1584 . 0 1353 . 0 ˆ + - = 进行方差分 析,结果如表 102 所示(假设检验步骤略)。
表102 简单线性回归模型方差分析表变异来源SS df MS F P 回归 0.0530 1 0.0530 41.376 <0.0001 残 差 0.0282 22 0.0013总 变 异 0.0812 23由表 102 首行末列可见,P<0.0001,按a =0.05 水准, 可认为 NO 浓度与车流量之间的回归方程具有统计学 意义。
回归系数的假设检验: H :b =0H :b ≠01a =0.05b S b t 0 - = 2n u =- ( ) å - = 2 . X X S S X Y b 2 . - = n SS S X Y 残差残差的标准差接上例,经计算得(假设检验步骤略):X Y S . =0.0358, b S =0.0246,|t |= F =6.432, 2 n u =- =22由统计量t 得P <0.0001,按a =0.05水准,拒绝0 H ,故可认为该回归系数具有统计学意义。
第十一章(理) 第四节 正态分布、线性回归
第十一章(理) 第四节 正态分布、线性回归1.111222则有 ( )A .μ1<μ2,σ1<σ2B .μ1<μ2,σ1>σ2C .μ1>μ2,σ1<σ2D .μ1>μ2,σ1>σ2解析:μ反映正态分布的平均水平,x =μ是正态曲线的对称轴,由图知μ1<μ2,σ 反映正态分布的离散程度,σ越大,曲线越“矮胖”,表明越分散,σ越小,曲线越 “高瘦”,表明越集中,由图知σ1<σ2. 答案:A2.已知随机变量ξ服从正态分布N (3,σ2),则P (ξ<3)= ( ) A.15 B.14C.13D.12解析:根据正态分布的知识可知此正态分布图象的对称轴为x =3,而P (ξ<3)表示对 称轴左边图象的面积,对称轴左右两边图象面积相等,整个图象的面积为1. 答案:D3.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξ<c -1),则c = ( ) A .1 B .2 C .3 D .4解析:由题意得随机变量ξ相应的正态密度曲线关于直线x =2对称,又P (ξ>c +1) =P (ξ<c -1),因此(c +1)+(c -1)2=2,c =2.答案:B4.设随机变量ξ服从标准正态分布N (0,1),已知Φ(-1.96)=0.025,则P (|ξ|<1.96)=( ) A .0.025 B .0.050 C .0.950 D .0.975 解析:P (|ξ|<1.96)=Φ(1.96)-Φ(-1.96) =1-2Φ(-1.96)=0.950. 答案:C5.已知随机变量ξ服从正态分布N (2,σ2),P (ξ≤4)=0.84,则P (ξ≤0)= ( ) A .0.16 B .0.32C .0.68D .0.84解析:根据正态分布曲线的对称性,得P (ξ≤0)=1-P (ξ≤4)=1-0.84=0.16. 答案:A6.对有线性相关关系的两个变量建立的回归直线方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .大于0 C .能等于0 D .只能小于0解析:因为b =0时,r =0,这时不具有线性相关关系,但b 能大于0也能小于0. 答案:A7.以下是两个变量x 和y 的一组数据:则这两个变量间的回归直线方程为 ( ) A.y ^=x 2 B.y ^=x C.y ^=9x -15 D.y ^=15x -9 解析:根据数据可得x =4.5,y =25.5, ∑i =1n x 2i =204,∑i =1nx i y i =1 296.b =1221niii nii x ynx y xnx ==--∑∑=1 296-8×4.5×25.5204-8×4.52=9,a =y -b x =25.5-9×4.5=-15. ∴y ^=9x -15. 答案:C8.已知回归直线方程y ^=4.4x +838.19,则可估计x 与y 的增长速度之比约为________. 解析:x 与y 的增长速度之比即为回归直线方程的斜率的倒数14.4=1044=522.答案:5229.某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势,统计近4个月这种病的新发病鸡只数的线性回归分析如下表所示:该养殖小区这种病的新发病鸡总只数约为________.解析:由上表可得:y ^=94.7x +1 924.7,当x 分别取9,10,11,12时,得估计值分别 为:2 777,2 871.7,2 966.4,3 061.1,则总只数约为2 777+2 871.7+2 966.4+3 061.1≈11 676. 答案:11 67610.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的 生产能耗y (吨标准煤)的几组对照数据:(1)请根据上表提供的数据,求出y 关于x 的回归直线方程y ^=bx +a ;(2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的回归 直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解:(1)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x —=3+4+5+64=4.5, y —=2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86,b =66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a =y —-b x —=3.5-0.7×4.5=0.35. 故回归直线方程为y ^=0.7x +0.35.(2)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨).。
统计学课件 第十一章 一元线性回归
相关系数的显著性检验
(例题分析)
各相关系数检验的统计量
作者:张占贞 作者:张占贞
青岛科技大学经济与管理学院 青岛科技大学经济与管理学院
统计学
STATISTICS (第三版 第三版)
§11.2
一元线性回归
11.2.1 11.2.2 11.2.3 11.2.4
一元线性回归模型 参数的最小二乘估计 回归直线的拟合优度 显著性检验
统计学
STATISTICS (第三版 第三版)
变量间的关系
作者:张占贞 作者:张占贞
青岛科技大学经济与管理学院 青岛科技大学经济与管理学院
统计学
STATISTICS (第三版 第三版)
函数关系
是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y y 随变量 x 一起变化,并完 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 3. 各观测点落在一条线上
作者:张占贞 作者:张占贞 青岛科技大学经济与管理学院 青岛科技大学经济与管理学院
统计学
STATISTICS (第三版 第三版)
相关系数的经验解释
|r|≥0.8时,可视为两个变量之间高度相关 0.5≤|r|<0.8时,可视为中度相关 0.3≤|r|<0.5时,视为低度相关 |r|<0.3时,说明两个变量之间的相关程度 极弱,可视为不相关 5. 上述解释必须建立在对相关系数的显著性 进行检验的基础之上
3. 根据显著性水平α=0.05,查t分布表得tα/2(n-2)=2.069 由于 | t|=7.5344>tα/2(25-2)=2.069 , 拒绝 H0 , 不良贷 款与贷款余额之间存在着显著的正线性相关关系
第十一章 简单回归分析_PPT幻灯片
独立(independent)
❖ (2)每个个体观察值之间相互独立,如果该条 件不满足,名义上有n个个体的资料,实际 上提供的信息却没有这么多,导致回归估 计值不够准确和精确;
❖ 解决办法:利用专业知识。
正态性(nomal)
❖ 线性模型的误差项服从正态分布,如果该条 件不成立,在正态分布假设下对总体回归系 数的假设检验和置信区间估计的结论均无意 义。
若把上述线性回归模型的适用条件的四个关键英语单词 的首写字母连在一起,恰好为“LINE”,便于记忆。模 型的线性、正态性以及方差齐性可用图11-3表示。
❖ 样本回归方程 Ya是b对X两变量总体间线性关系的
一个估计。根据散点图我们可以假定:对于X各个 取值,相应Y的总体均数µyIx在一条直线上,表示为。
❖ (2)但在实际生活当中,由于其它因素的干扰, 许多双变量之间的关系并不是严格的函数关系,不 能用函数方程反映,为了区别于两变量间的函数方 程,我们称这种关系式为线性回归方程,这种关系 为线性回归.
一、线性回归的概念及其统计描述
❖ 目的:研究应变量Y和自变量X的数量依存关 系,建立一个方程式,从而可由X变量的大小 推算出Y变量的估计值。
❖ 解决办法:残差的直方图、正态概率图来考 察这一条件是否成立。
方差相等(equal variance)
❖ 指在自变量X取值范围内,不论X取什么值, Y都具有相同的方差。
❖ 如果这一条件不满足,回归参数的估计有偏 性,置信区间估计及检验的结论均无效。
❖ 解决办法:采用散点图或残差的散点图判断 等方差性。
Y :是由自变量X推算应变量Y的估计值
(读作Y hat) a:是回归直线在Y轴上的截距,即X=0时的Y值;
b: 为样本的回归系数,即回归直线的斜率,表示 当X变动一个单位时,Y平均变动b个单位。
简单回归分析及其应用
简单回归分析及其应用简单回归分析是一种常用的统计分析方法,用于研究两个变量之间的关系。
在本文中,将深入探讨简单回归分析的基本原理和应用场景,以帮助读者更好地理解和运用该方法。
一、简单回归分析的基本原理简单回归分析基于线性回归模型,假设两个变量之间存在线性关系。
其数学表达式可以表示为:Y = β₀ + β₁X + ε其中,Y表示因变量,X表示自变量,β₀和β₁是回归系数,ε是误差项。
简单回归分析的目标是通过拟合回归方程,找到最佳的回归系数,从而预测因变量Y的取值。
二、简单回归分析的应用场景简单回归分析可以应用于各种实际问题中,以下列举几个常见的应用场景。
1. 市场营销分析在市场营销领域,可以使用简单回归分析来研究广告投入和销售额之间的关系。
通过对历史数据的回归分析,可以预测在不同广告投入下的销售额,为市场营销决策提供依据。
2. 经济增长预测简单回归分析可以应用于经济领域,用于预测某一指标(如GDP)与其他因素(如人口增长率、投资额等)之间的关系。
通过建立回归模型,可以预测未来的经济增长趋势,为政府制定经济政策提供参考。
3. 教育评估在教育领域,可以使用简单回归分析来研究学生的学习成绩与其他因素(如家庭背景、学习时间等)之间的关系。
这有助于了解不同因素对学生成绩的影响程度,为制定教育改革方案提供依据。
4. 金融风险管理简单回归分析在金融领域也有广泛应用。
例如,可以使用该方法来研究股票收益率与市场指数之间的关系,以评估投资组合的风险。
同时,还可以利用简单回归分析来预测债券收益率与利率之间的关系,为债券投资决策提供参考。
三、简单回归分析的步骤进行简单回归分析通常需要以下步骤:1. 数据收集收集相关的自变量和因变量的数据。
确保数据的准确性和完整性。
2. 拟合回归方程根据收集到的数据,使用回归模型进行参数估计,得到最佳的回归系数。
3. 检验模型拟合度通过计算拟合优度等指标,评估回归模型的拟合程度。
常用的指标包括R方值、均方误差等。
第十一章简单回归分析(7版)
b 的统计学意义是:X 每增加(减)一个 单位,Y 平均改变b个单位
19
二、回归模型的适用条件
线性回归模型的适用条件是:
——线性(linear)
——独立(independent)
——正态(normal)
——等方差(equal variance)
20
样本回归方程,它是对两变量总体间 线性关系的一个估计。根据散点图我们可 以假定,对于 X 各个取值,相应 Y 的总体均 数 Y | X 在一条直线上(图 11-2) ,表示为
ˆ 实际上是 X 所对应 Y 的总体均 相互独立。 Y
数 Y | X 的一个样本估计值,称为回归方程的
b 分别为 和 预测值 (predicted value) ,而 a 、
的样本估计。
28
解题步骤
1.由原始数据及散点图观察两变量间是否有直 线趋势 2.计算 X 、Y 的均数 X 、Y ,离均差平方和 l XX 、
样本:从总体随机抽取的n对变量值
(X1,Y1), (X2,Y2), …, (Xn,Yn)
目的:研究X和Y的数量依存关系,即研究一 个变量如何随另一个变量变化的常用方法。 方法:回归与相关
直线回归、直线相关
3
一、线性回归的概念及其统计描述
7
一、直线回归的概念及其统计描述
目的: 研究应变量Y对自变量X的数量依存关系。 特点:统计关系。X值和Y值的均数的关系, 不同于一般数学上的 X和Y的函数关系
x值和y值的均数的关系不同于一般数学上的x和y的函数关系为了直观地说明直线回归的概念以14名健康妇女体重x与基础代谢y数据表101进行回归分析得到图111所示散点图scatterplot10编号基础代谢kjd体重kg编号基础代谢kjd体重kg41756507397064864435053739832446346023711050501586402085171153555710398744781245606597497066281348744621535976731450292615表10114名健康妇女的基础代谢率与体重11在定量描述健康妇女体重x与基础代谢y数据的数量上的依存关系时将体重称为自变量independentvariable用表示
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y | X X
(9 2)
5
ˆ Y a bX 称为样本回归方程,它是对
两变量总体间线性关系的一个估计。
6
1 概述
Y 因变量 (dependent variable, response variable) X 自变量 (independent variable)
ˆ 简单回归的形式:Y
i 1
n
n
0.4999 0.78655 0.4040
ˆ sy,x为 Y 的剩余标准差(或回归的剩余标准差) :
s y .x ˆ ( Y Y )
i 1 i i 2
n2
3.2492 0.4999 13
X的离均差平方和为 :
14.7 2 ( X i X ) 2 14.81 0.4040 15 i 1
( X X )(Y Y ) l b l (X X )
2
XY XX
a Y bX
ˆ Y a bX
表 12-1 15 例健康成人凝血酶浓度(X)与凝血时间(Y)的测量值 No 自变量 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 . X 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 1.1 1.0 0.7 Y 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17
18
③绘制回归直线
计算不太接近的两点的Y值: ˆ Y 21.77393 6.9802 X X=1.1单位/毫升时 Y=21.77393-6.9802×1.1=14.0957(s) X=0.6单位/毫升时 Y=21.77393-6.9802×0.6=17.5858 (s)
③绘制回归直线
图12-3 凝血酶浓度(X)与凝血时间(Y)的散点分布及拟合直线
4 回归方程的意义及性质
ˆ a bX Y
1) b的意义: 2) a 的意义:
b 的意义
回归系数b称为斜率(slope),表示自变量增 加一个单位时,应变量平均改变的量。 ˆ Y 21.77393 6.9802 X 凝血酶浓度每增加1 单位/ml,则凝血时间平 均减少 6.9802秒 b 的单位为 (Y的单位/X的单位) 回归与相关均表示两变量间的线性关系,故 回归系数b与相关系数r的正负号是相同的。
38
Y的总变异分解
ˆ ˆ Y Y Y Y Y Y
Y Y
2
ˆ Y 2 ˆ Y Y Y
2
总变异 SS总
回归平方和 SS回
剩余平方和 SS剩
39
6 因变量总变异的分解
P
(X,Y)
Y
(Y Y )
Y
(Y Y)
( Y) Y
恰好为“LINE”。
给定X时,Y是正态分布、等方差示意图
y
x
给定X时,Y是正态分布、不等方差示意图
y
x
3 估计回归参数,建立回归模型
最小二乘法(least square estimation,LSE)
基本思想:使各实测值Y与回归直线上对应的估 ˆ ˆ 计值 Y 之差的平方和 (Y Y ) 2为最小,在这个 准则下,可导出a、b的最小二乘估计如下:
SS 19.68416
3.24917 22.93333
v 1
13 14
MS F P 19.6841 78.76 <.01
0.24994
44
决定系数
R
2
SS回 SS总
决定系数反映了回归贡献的相对程度,也就是在Y的总变异中回归 能解释的百分比。因此,R2越接近1,说明应用相关分析的 意义越大,即贡献越大;相反的意义亦成立。
对于两变量,R2=r2
45
回归系数的 t 检验
b0 tb , sb
n2
sY . X sb l XX sY X
ˆ Y Y
2
n2
46
总体回归系数的假设检验
建立假设,确定检验水准 H0: β=0,即两指标间无直线回归关系; H1:β≠0 ,即两指标间有直线回归关系; = 0.05 计算检验统计量:
反应变 量
①先作散点图,以判断两变量间是否呈线性趋势
17
血间 凝时y
13 .6 1.2 x
凝 酶 度 血 浓 x
凝血酶浓度(X)与凝血时间(Y)数据
no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计 x 1.1 1.2 1 .9 1.2 1.1 .9 .6 1 .9 1.1 .9 1.1 1 .7 14.7 y 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17 224 x2 1.2 1.4 1 .81 1.4 1.2 .81 .36 1 .81 1.2 .81 1.2 1 .49 14.81 y2 196 169 225 225 169 196 256 289 196 256 225 256 196 225 289 3368 xy 15.4 15.6 15 13.5 15.6 15.4 14.4 10.2 14 14.4 16.5 14.4 15.4 15 11.9 216.7
②求直线回归方程
回归系数b:
( X i )( Yi )
i 1 i 1 n n
b
l xy l xx
X iYi
i 1
n
n ( X i ) 2
i 1 n
X
i 1
n
2 i
(14.7)(224) 216.7 15 6.98020 2 (14.7) 14.81 15
a 的意义
ˆ a bX Y
a 截距或常数项(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同
ˆ 估计值 Y 的意义
给定X时,Y的平均值。
ˆ X=1.1时, Y =14.0957, 即凝血酶浓度为1.1单 位/ml的健康成人中,估计其平均凝血时间
为14.0957秒。 X=0.6时,ˆ =17.5858, Y 即凝血酶浓度为0.6单位/ml的健康成人中,
35
样本回归系数 b
总体回归系数
H0:总体回归系数为0, =0,
即两指标间无直线回归关系;
H1:总体回归系数不为0,0;
即两指标间有直线回归关系;
=0.05。
36
回归系数的 方差分析
37
6 因变量总变异的分解
P
(X,Y)
Y
(Y Y )
Y
(Y Y)
( Y) Y
Y
Y
X
估计其平均凝血时间为17.5858秒
ˆ Y Y 的意义
ˆ Y Y 为残差:点到直线的纵向距离。各点残差要求尽可能小.
回归直线的有关性质
直线通过均点 ( X ,Y ) 直线上方各点到直线的纵向距离之和
= 直线下方各点到直线的纵向距离之和 ˆ 即: (Y Y ) 0
各点到该回归线纵向距离平方和较到其它任
H 0:两指标间无直线回归关系; H 1:两指标间有直线回归关系。 = 0.05。 lXX,lYY,lXY
SS总= lYY= 22.93333 SS回 = lXY 2/ lXX == 19.68416
SS剩 = lYY – lXY 2/ lXX= 3.24917
43
方差分析表
变异来源 回 归
剩 余 总变异
大;
b<0,直线从左上方走向右下方,Y 随 X 增大而减
小;
b=0,表示直线与 X 轴平行,X 与Y 无直线关系。
b 的统计学意义是:X 每增加(减)一个 单位,Y 平均改变b个单位。
9
2 回归模型的前提假设
线性(linear) 独立(independent) 正态(normal) 等方差(equal variance)
b t / 2 , n 2 S b
29
观测对象 p (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
实测值
实测值ቤተ መጻሕፍቲ ባይዱ
预测Y的均值
残差
Xp
(2) 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 1.1 1.0 0.7
ˆ 何直线者为小。 即 Y Y
2
最小
26
ˆ )2 的意义 ( Y Y
残差平方和或剩余平方和 (residual sum of squares)。 综合表示点距直线的距离。
在所有的直线中,回归直线的残差平方和 是最小的。(最小二乘)
5总体回归系数β的统计推断
区间估计 假设检验
总体回归系数β的置信区间
Y
Y
X
40
Y的总变异分解
SS总 SS回 SS剩
总 回 剩
总 n 1, 回 1, 剩 n 2
41
方差分析表
变异来源
回 归 剩 余 总变异
SS
SS回 SS剩 SS总
v
1 n-2 n-1
MS
F
SS回/1 MS回/ MS剩 SS剩/n-2
42
回归方程的假设检验---方差分析
n
截距a:
224 14.7 a Y bX ( 6.98020 ) 21.77393 15 15
ˆ Y 21.77393 6.9802 X
由凝血酶浓度x估计凝血时间y
观测对象 p (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 实测值 实测值 预测Y的均值