拓展资料:破解回归分析三个关键问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
破解回归分析三个关键问题
回归分析是统计案例重要内容之一,本文对回归分析所涉及的知识点以问题形式进行归纳,希望对同学们有所帮助。
问题一:如何利用回归分析的方法对两个具有线性相关关系的变量进行研究呢
回答:利用回归分析的方法对两个具有线性相关关系的变量进行研究的步骤为:
(1)画出两个变量的散点图;(2)求回归直线方程;(3)用回归直线方程进行预报。
其中求回归直线方程是关键,而对于线性回归模型^
^^a x b y +=来说,估计模型中的未知参数^
^b a 和的最好方法就是用最小二乘法估计,其计算公式为∑∑==---=
n
i i
n
i i i
x x
y y x x
b 1
2
1
^
)()
)((,.^
^x b y a -=
例1、一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某及其零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度变化,下表是抽样试验结果:
(1)如果y 与具有线性相关关系,求线性回归方程;
(2)若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制在什么范围内
解:(1)由题意得660,25.8,5.124
12
===∑=i i
x
y x ,4384
1
=∑=i i i y x ,
则7286.05
.12466025
.85.124438442
4
1
2
2
4
1≈⨯-⨯⨯-=
--=
∑∑==i i
i i
i x
x
y x y
x b ,8575.0-=-=x b y a ,
所以y 关于的线性回归方程为y=(2)要使10≤y ,即
108575.07286.0≤-x ,解得.9019.14≤x
因此,机器的转速应该控制在15转/秒以下。
点评:本题中准确求出回归方程是作出正确判断的前提。
问题二:判断解释变量与预报变量y 是否具有线性相关关系,先作出散点图,从点的分布特征来判定是否线性相关。
那么,如果作图不准,出现误差怎么办怎样更好地判定两个变量相关关系的强弱
回答:给定样本数据),(i i y x (i=1,2,…,n ),单纯由散点图判定其是否大致在一条直线附近直观性太强,回归分析时通常还用相关系数r 来检验两个变量之间线性相关关系的强弱。
样本相关系数的具体计算公式为:∑∑∑===----=
n
i i
n
i i
n
i i
i
y y
x x y y
x x r 1
2
1
21)()()
)((,r 的绝对
值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系,通常当|r|
大于时,认为两个变量有很强的线性相关关系。
例2、假设关于某设备的使用年限(年)和所支出的维修费用y (万元)有如下的统计资料:
年限(年)
2 3 4 5 6
费用y (万元)
(1)判断是否线性相关;如果线性相关,求出线性回归方程;
(2)求相关指数2R ,并说明模型的拟合度。
解:设使用年限(年)是解释变量,维修费用y (万元)是预报变量。
(1)画出散点图如下图:
由散点图可知y 对是线性相关的,计
算相关系数得976.0≈r ,由于>,因此有较强的线性相关关系,设线性回归方程为^
^
^
a x
b y +=,计算得1.0,23.1^
^
==a b ,即得线性回归方程为.08.023.1^
+=x y
(2)9587.078
.15651
.01)()(11
2
12
^
2=-=---
=∑∑==n i i
n
i i i
y y
y y
R ,由于2R 接近1,说明
模型拟合度较高。
其使用年限解释了%的维修费用支出。
点评:通过相关指数2R 来衡量回归模型的拟合度是一种重要的方法。
在线性回归模型中,2R 反映了回归平方和在总偏差平方和中所占的比重,该比重越大,残差平方和在总偏差平方和中所占的分量就越小,模型的拟合度则越高。
因此,相关指数2R 越大,模型的拟合度越高;2R 越小,模型的拟合度越低。
问题三:课本上大多是研究线性回归问题,那么非线性回归问题如何进行统计分析呢
回答:对于非线性回归问题进行回归分析的方法是:画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图像作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决。
若题目中已给出转换公式,则可直接运用,不必画图。
例3、《格林童话》这本书非常受学生的欢迎,某厂家想投资印刷,已知图书的成本费y (千元)与印刷册数y (千册)有关,经统计得到数据如下:
书的成本费y 与印刷册数的开方x 之间是否有线性相关关
系,如果有,求出y 与的回归方程。
解:首先作变量变换,令u=x ,则题目所给数据变成如下
表所示的数据:
可以求得r=,由r=>,因此变量y 与u 之间具有很强的线性相关关系,并且计算得到942.1813.0^
+=u y ,最后回代u=
x 可得
942.1813.0^
+=x y ,因此
y 与的回归方程为942.1813
.0^
+=x y
点评:本题中通过变量变换,即令u=x ,并通过对u 与y
作相关性检验,判定出y 与u 之间具有很强的线性相关关系后,求出y 对u 的回归直线方程,最后再回代u=x ,得到
y 对的回
归方程。