回归分析与独立性检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析与独立性检验
知识要点及解析
1.函数关系与相关关系的区别?
函数关系是一种确定性关系,而相关关系是一种非确定性关系.
2.回归公式∑∑∑∑====--=
---=n
i i
n
i i
i n
i i
n
i i
i
x n x
y x n y
x x x y y
x x b
1
2
2
1
1
2
1
)
()
)((ˆ x b y a ˆˆ-= a x b y
ˆˆˆ+= 3.回归分析的步骤?
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.
4.回归直线的性质 a x b
y ˆˆ+= ⑴回归直线 过样本点的中心()y x , 其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==n
i i y n y 1
1
⑵回归直线的斜率的估计值b
ˆ的意义:
解释变量x 每增加一个单位,预报变量y 就增加b
ˆ个单位. 5.求线性回归方程的五个步骤: ⑴计算y x x y x 、、、2
⑵计算
∑=n
i i
i y
x 1
⑶计算
∑=n
i i
x
12
⑷代入系数公式求b
ˆ⑸代入公式计算a ˆ 例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的
能耗y (吨标准煤)的几组数据:
⑴画出散点图;
⑵求出线性回归方程a x b y
ˆˆˆ+= ⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回
归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
a x
b y
ˆˆˆ+=
例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:
⑴画出散点图;
⑵求出根据身高预报体重的回归方程a x b y
ˆˆˆ+= ⑶根据以上回归方程预测一名身高为172cm 的女大学生的体重.
例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y 与
月份x 之间有较好的线性相关关系,其线性回归方程为a x y
ˆ7.0ˆ+-=, 请你预测该厂5月份的用水量大约为多少百吨?
6.线性回归模型y=bx+a+e 中随机误差e 产生的原因?
⑴选用的函数模型不恰当引起的误差 ⑵忽略了某些因素的影响 ⑶存在观测误差 7.如何发现数据中的错误?
先分别计算出残差a x b y y y e i
i i i ˆˆˆˆ--=-=然后选取横坐标为编号或解释变量x 或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说
明数据的采集有可能错误。 8.如何衡量模型的拟合效果?
方法1:在残差图中,残差点比较均匀落在带状水平区域内,说明选用的模型比较合适;带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
例题1:根据一位母亲记录儿子3~9岁身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)
的线性回归方程 93.7319.7ˆ+=x y
,若用此方程预测儿子10岁时的身高,下列有关叙述正确的是( )
A .身高一定为145.83cm;
B .身高大于145.83cm;
C .身高小于145.83cm;
D .身高在145.83cm 左右
例2.用两个模型分别去拟合某组数据,这两个模型的残差图(以样本编号为横坐标)分别
如图1、图2,试判断这两个模型哪一个的拟合效果更好,为什么?
例3.下表是某产品的广告费x 与销售额y 的统计数据.由散点图可知广告费x 与销售额y
之间有较好的线性相关关系,其线性回归方程为a x y
ˆ4.9ˆ+= , 根据此模型,请你预测广告费为6万元时,销售额大约为多少万元?
方法2:残差平方和:
残差i e
ˆ的平方和越小,回归模型拟合效果越好. 方法3:相关指数R 2
: ()()
∑∑==---
=n i i
n
i i i
y y
y y
R 1
2
12
2
ˆ1 其中
. 在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,相关指数R 2
越接近于1(越大),回归模型拟合效果越好。
例题:在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2
如
下,其中拟合效果最好的模型是( )
A .模型1的R 2
=0.98 B .模型2的R 2
=0.80 C .模型3的R 2
=0.50 D .模型4的R 2
=0.25 9.用线性回归模型进行预报时应注意的几个问题:
⑴样本数据来自哪个总体
,预报时也仅适用这个总体
⑵模型的时效性,利用不同时间段的样本数据建立的模型,只能用来对那段时间范围的数据进行预报
⑶建立模型时,变量的取值范围决定了预报时模型的适用范围,通常不能超出太多 ⑷在回归模型中,因变量的值不能由自变量完全确定.
()
102≤≤R