回归分析的基本思想及其初步应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章:统计案例
回归分析的基本思想及其初步应用实例
为172cm的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.
(1)做散点图:
从散点图可以看出和有比较好的
相关关系.
(2) = =
所以
于是得到回归直线的方程为
(3)身高为172cm的女大学生,由回归方程可以预报其体重为
新知:用相关系数r可衡量两个变量之间关系.计算公式为
r =
r>0, 相关, r<0 相关;
相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;
,两个变量有关系.
x y
8
1
i i
i
x y
=
=
∑
8
2
1
i
i
x
=
=
∑
8
1
82
2
1
8
8
i i
i
i
i
x y x y
b
x x
=
=
-
==
-
∑
∑
a y bx
=-≈
y=
r>
例1某班5名学生的数学和物理成绩如下表:
(2) 求物理成绩y 对数学成绩x 的回归直线方程;
(3) 该班某学生数学成绩为96,试预测其物理成绩;
练习1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)
x y y x y bx a =+3 2.543546 4.566.5⨯+⨯+⨯+⨯=
当堂检测
1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与视力 C.人的身高与体重
D.匀速直线运动中的位移与时间
2. 在画两个变量的散点图时,下面哪个叙述是正确的( ) A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上
C. 可以选择两个变量中任意一个变量在x 轴上
D. 可选择两个变量中任意一个变量在 y 轴上 3. 回归直线必过( )
A. B. C. D. 4.越接近于1,两个变量的线性相关关系 .
5. 已知回归直线方程,则时,y 的估计值为 .
6、一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验
(2)求回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制
在什么范围内?
相关指数:表示 对 的贡献,公式为:
的值越大,说明残差平方和 ,说明模型拟合效果 .
残差分析:通过 来判断拟合效果.通常借助 图实现.
残差图:横坐标表示 ,纵坐标表示 .
残差点比较均匀地落在 的区的区域中,说明选用的模型 , 带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越
y bx a =+(0,0)(,0)x (0,)y (,)x y r 0.50.81y x =-25x =2R 2R =2R
为了对、y 两个变量进行统计分析,现有以下两种线性模型:,
,试比较哪一个模型拟合的效果更好?
例2 假定小麦基本苗数x
与成熟期有效苗穗y 之间存在相关关系,今测得5组数据如下: (2)求回归方程并对于基本苗数56.7预报期有效穗数; (3)求,并说明残差变量对有效穗数的影响占百分之几. (参考数据:
,
)
x 6.517.5y x =+717y x =+2R 21
1
5101.51,6746.76,n
n
i i i i i x x y ====∑∑5
2
1
()50.18i
i y
y =-=∑5
21
()9.117i
i i y
y =-=∑
练1. 某班5名学生的数学和物理成绩如下表:
(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差.并作出残差图评价拟合效果.
练习:
1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 如下 ,其中拟合
效果最好的模型是( ).
A. 模型 1 的相关指数为 0.98
B. 模型 2 的相关指数为 0.80
C. 模型 3 的相关指数为 0.50
D. 模型 4 的相关指数为 0.25
2. 在回归分析中,残差图中纵坐标为( ). A. 残差 B. 样本编号 C. x D.
3. 通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).
A.回归分析
B.独立性检验分析
C.残差分析
D. 散点图分析
4.越接近1,回归的效果 .
5. 在研究身高与体重的关系时,求得相关指数
,可以叙述为“身高解释了的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .
2i i e y y =-2R 2R 2R 2R 2R n e 12,,,n e e e 2R 2R =69%