第7章 相关与回归分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章相关与回归分析
学习内容
一、变量间的相关关系
二、一元线性回归
三、线性回归方程拟合优度的测定
学习目标
1. 掌握相关系数的含义、计算方法和应用
2. 掌握一元线性回归的基本原理和参数的最小二
3. 掌握回归方程的显著性检验
4. 利用回归方程进行预测
5. 了解可化为线性回归的曲线回归
6. 用Excel 进行回归分析
一、变量间的相关关系
1. 变量间的关系(函数关系)
1)是一一对应的确定关系。
2)设有两个变量x和y,变量y 随变量x一起变化,
并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值,
则称y 是x的函数,记为y = f (x),其中x 称为自变量,y 称为因变量。
3)各观测点落在一条线上。
4)函数关系的例子
–某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)。
–圆的面积(S)与半径之间的关系可表示为S = π R2。
–企业的原材料消耗额(y)与产量x1、单位产量消耗x2、原材料价格x3间的关系可表
示为y =x1 x2 x3。
单选题
下面的函数关系是()
A、销售人员测验成绩与销售额大小的关系
B、圆周的长度决定于它的半径
C、家庭的收入和消费的关系
D、数学成绩与统计学成绩的关系
2. 变量间的关系(相关关系)
1)变量间关系不能用函数关系精确表达。
2)一个变量的取值不能由另一个变量唯一确定。
3)当变量 x 取某个值时,变量 y 的取值可能有几个。
4)各观测点分布在直线周围。
5)相关关系的例子
–商品的消费量(y)与居民收入(x)之间的关系。
–商品销售额(y)与广告费支出(x)之间的关系。
–粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系。
–收入水平(y)与受教育程度(x)之间的关系。
–父亲身高(y)与子女身高(x)之间的关系。
3. 相关图表
1)相关表:将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它
们之间的相互关系。
2)相关图:也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用
点描绘出来,通常以直角坐标轴的横轴代表自变量x,纵轴代表因变量y。
4. 相关关系的类型
相关关系的图示(散点图)
5. 相关关系的测度(相关系数)
1)对变量之间关系密切程度的度量。
2)对两个变量之间线性相关程度的度量称为简单相关系数。
3)若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ。
4)若是根据样本数据计算的,则称为样本相关系数,记为 r。
样本相关系数的计算公式
化简为
相关系数取值及其意义
a)r 的取值范围是 [-1,1]。
|r|=1,为完全相关。
(r =1,为完全正相关。
r =-1,为完全负相关。
)
b)r = 0,不存在线性相关关系。
c)-1<r<0,为负相关。
d)0<r<1,为正相关。
e) |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切。
单选题
①下列哪两个变量之间的相关程度高()
– A、商品销售额和商品销售量的相关系数是0.9
– B、商品销售额和商业利润率的相关系数是0.84
– C、平均流通费用率与商业利润率的相关系数是0.94
– D、商品销售价格与销售量的相关系数是-0.91
②下列关系中,属于正相关关系的有()
– A、合理限度内,施肥量和平均单产量之间的关系
– B、产品产量与单位产品成本之间的关系
– C、商品的流通费用与销售利润之间的关系
– D、流通费用率与商品销售量之间的关系
③变量之间的相关程度越低,则相关系数值()
A、越小
B、越接近于0
C、越接近于-1
D、越接近于1
④已知Σ(X-X¯)2是Σ(Y-Y¯)2的两倍,并已知Σ(X-X¯) (Y-Y¯)是Σ(Y-Y¯)2的1.2倍,则相关系数r为()
A、不能计算
B、0.6
C、1.2/
D、
多选题
变量之间的不完全相关可以表现为()
A、零相关
B、正相关
C、负相关
D、曲线相关
E、相关系数为1
求X与Y的相关系数
二、一元线性回归
1. 什么是回归分析?(内容)
1)从一组样本数据出发,确定变量之间的数学关系式。
2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中
找出哪些变量的影响显著,哪些不显著。
3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取
值,并给出这种预测或控制的精确程度。
回归分析与相关分析的区别
1)相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,
处在被解释的地位,x 称为自变量,用于预测因变量的变化。
2)相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变
量,自变量 x 可以是随机变量,也可以是非随机的确定变量。
3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变
量 x 对变量 y的影响大小,还可以由回归方程进行预测和控制。
多选题
线性相关分析的特点表现为()
– A、两个变量之间的地位是对等关系
– B、只能算出一个相关系数
– C、相关系数有正负号
– D、相关的两个变量必须都是随机变量
– E、不反映任何自变量和因变量的关系
回归模型的类型
2. 一元线性回归
1)涉及一个自变量的回归。
2)因变量y与自变量x之间为线性关系。
–被预测或被解释的变量称为因变量,用y表示。
–用来预测或用来解释因变量的一个或多个变量称为自变量,用x表示。
3)因变量与自变量之间的关系用一条线性方程来表示。
3. 一元线性回归模型(概念要点)
1)当只涉及一个自变量时称为一元回归,若因变量y 与自变量 x 之间为线性关系时
称为一元线性回归。
2)对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。
3)描述因变量 y 如何依赖于自变量 x 和误差项ε的方程称为回归模型。
4)一元线性回归模型可表示为: y =(a+bx)+ ε
◆y 是 x 的线性函数(部分)加上误差项。
◆线性部分反映了由于 x 的变化而引起的 y 的变化。
◆误差项ε是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对
y 的影响,不能由 x 和 y之间的线性关系所解释的变异性。
◆a和 b称为模型的参数。
5)基本假定
◆误差项ε是一个期望值为0的随机变量,即E(ε)=0。
◆对于一个给定的 x 值,y 的期望值为E ( y ) = a+ b x。
◆对于所有的 x 值,ε的方差σ2都相同。
◆误差项ε是一个服从正态分布的随机变量,且相互独立,即ε~N( 0 ,σ2 )。
–独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关。
–对于一个特定的 x 值,它所对应的 y 值与其他 x所对应的 y 值也不相关。
4. 回归方程
1)描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。
2)一元线性回归方程的形式如下: E( y ) =β0+ β1x
–方程的图示是一条直线,也称为直线回归方程。
–β0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值。
–β1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。
5. 估计(经验)回归方程
1)总体回归参数β0和β1都是未知的,必须利用样本数据去估计。
2)用样本统计量a和b代替回归方程中的未知参数β0和β1,就得到了估计的回归方程。
3)简单线性回归中估计的回归方程为:yˆ = a + bx
单选题
劳动消耗和产量之间的回归方程为Y=18+2.1X,这意味着劳动消耗每增加一单位时,产量增加的单位为()
A、8
B、2.1
C、20.1
D、2.1%
6. 参数a和b的最小二乘估计
一元回归方程数值试验
1)使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法。
即:
2)用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直
线都小。
3)根据最小二乘法的要求,可得求解a和b的标准方程如上图。
参数a和b的最小二乘估计(例题)
某从事饮食业的企业家认为高校后勤社会化是一个很好的投资机会,他得到10组高校人数与周边饭店季营业额的数据资料,并想根据数据决策其投资规模。
7. 回归系数与相关系数的关系
b-回归系数 r-相关系数
单选题
在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0.8时,则其回归系数为()
A、8
B、0.32
C、2
D、 12.5
多选题
①相关系数与回归系数()
- A、回归系数大于零则相关系数大于零
- B、回归系数小于零则相关系数小于零
- C、回归系数大于零则相关系数小于零
- D、回归系数小于零则相关系数大于零
- E、回归系数等于零则相关系数等于零
②直线回归方程y=a+bx 中的b 称为回归系数,回归系数的作用是()
– A、可确定两变量之间因果的数量关系
– B、可确定两变量的相关方向
– C、可确定两变量相关的密切程度
– D、可确定因变量的实际值与估计值的变异程度
– E、可确定当自变量增加一个单位时,因变量的平均增加量
三、线性回归方程拟合优度的测定
1. 离差平方和的分解
1)因变量 y 的取值是不同的,y 取值的这种波动称为变差。
变差来源于两个方面:
-由于自变量 x 的取值不同造成的。
-除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响。
2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 y − y
来表示。
图解
三个平方和的关系
三个平方和的意义
1)总平方和(SST)总偏差
-反映因变量的 n 个观察值与其均值的总离差。
2)回归平方和(SSR)回归偏差
-反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与y 之间的线性关系引起的 y的取值变化,也称为可解释的平方和。
3)残差平方和(SSE)剩余偏差
-反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。
-
2. 判定系数r2
1)回归平方和占总离差平方和的比例。
2)反映回归直线的拟合程度。
3)取值范围在 [ 0 , 1 ] 之间。
4)r2 →1,说明回归方程拟合的越好;r2→0,说明回归方程拟合的越差。
5)判定系数等于相关系数的平方,即r2=(r)2。
r2等于多少?
3. 估计标准误差 S yx
1)实际观察值与回归估计值离差平方和的均方根。
2)反映实际观察值在回归直线周围的分散状况。
3)从另一个角度说明了回归直线的拟合程度。
4)计算公式为:
S yx越小,拟合越好;S yx越大,拟合越差。
5)相关系数与估计标准误差在数量上具有以下关系:
r值与估计标准误差负相关。
单选题
①回归估计的估计标准误差的计量单位与()
– A、自变量相同
– B、因变量相同
– C、自变量及因变量相同
– D、相关系数相同
②计算估计标准误差的依据是()
– A、因变量的总变差
– B、因变量的回归变差
– C、因变量的剩余变差
– D、因变量数列
多选题
估计标准误差是反映()
– A、回归方程代表性大小的指标
– B、估计值与实际值平均误差程度的指标
– C、自变量与因变量离差程度的指标
– D、因变量估计值的可靠程度的指标
– E、回归方程适用价值大小的指标
判断题
①回归系数b和相关系数r都可用来判断现象之间相关的密切程度。
( )
②只有当相关系数接近于1时,才能说明两个变量之间存在高度相关关系。
( )
③相关关系和函数关系都属于完全确定性的依存关系。
( )
④不具有因果关系的两个变量之间,一定不存在相关关系。
()
⑤负相关是指两个量之间的变化方向相反,即一个呈下降(上升)而另一个呈上升(下降)趋势。
()
⑥假定变量x与y的相关系数是0.8,变量m与n的相关系数为-0.9,则x与y的相关密切程度高。
( )
⑦正相关指的就是两个变量之间的变动方向都是上升的( )
⑧若直线回归方程Y=170—2.5X,则变量x和y之间一定存在负的相关关系。
( )
⑨在其他条件不变的情况下,相关系数越大,估计标准误差就越大;反之,估计标准误差就越小。
可见估计标准误差的大小与相关系数的大小是一致的。
()
⑨相关系数的数值越大,说明相关程度越高;同理,相关系数的数值越小,说明相关程度越低。
()
计算题
要求:(1)建立回归直线方程,估计教育经费为500万元的在校学生数;
(2)计算估计标准误差。
②有10个同类企业的生产性固定资产年平均价值和工业总产值资料如下:
(1)说明两变量之间的相关方向;
(2)建立直线回归方程;
(3)计算估计标准误差;
(4)估计生产性固定资产(自变量)为1100万元时总产值(因变量)的可能值。
用Excel进行回归分析
第1步:选择“数据”下拉菜单
第2步:选择“数据分析”选项
第3步:在分析工具中选择“回归”,然后选择“确定”
第4步:当对话框出现时
–在“Y值输入区域”方框内键入Y的数据区域
–在“X值输入区域”方框内键入X的数据区域
–在“置信度”选项中给出所需的数值
–在“输出选项”中选择输出区域
–在“残差”分析选项中选择所需的选项。