多元回归分析的应用研究.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
摘要: (1)
关键词: (1)
Abstract: (1)
Key words: (1)
引言 (2)
1 一元线性回归的思想及其应用举例 (4)
1.1 一元线性回归模型 (5)
1.2 一元线性回归模型的检验 (6)
1.3 一元线性回归模型举例 (7)
2 多元线性回归模型的思想及其应用举例 (10)
2.1 多元线性回归的数学模型 (10)
2.2 多元线性回归模型的检验 (11)
2.3 多元线性回归模型应用举例 (12)
2.3.1 研究问题的提出 (12)
2.3.2 数据采集与多元回归分析 (12)
2.3.3 EXCEL作回归分析确定待定系数的值 (13)
2.3.4 总结 (14)
3 前进法、后退法、逐步回归法思想及其举例 (15)
3.1 前进法 (15)
3.1.1 前进法回归分析的应用 (16)
3.1.1.1 回归方程 (16)
3.1.1.2 回归方程及系数检验 (16)
3.2 后退法 (16)
3.2.1 后退法回归分析的应用 (17)
3.2.1.1 回归方程 (17)
3.2.1.2 回归方程及系数的检验 (17)
3.3 逐步回归法 (17)
3.3.1 逐步回归分析的应用 (18)
3.3.2 研究结果比较 (19)
致谢 ................................................................................................................... 错误!未定义书签。
参考文献.. (19)
附录 (20)
多元回归分析的应用研究
摘要:回归分析方法是多元统计分析的各方法中应用最广泛的一种,也是数理统计中最成
熟最常用的方法,主要是研究变量间的相互依赖关系。
首先,本文通过建立一元线性回归模型,阐述了一元线性回归模型的基本统计思想以及它在实际问题研究中的应用原理。
然后,
28推广建立了多元线性回归,运用SPSS等统计软件建立了由熟料化学成分分析结果预测d 抗压强度的模型,来指导水泥生产配比的调整,其更好的论证了多元线性回归,最优回归模型的检验、评价及预测。
最后,通过前进法、后退法、逐步回归法,阐述了各个方法的思想以及步骤,论证了在多元回归方法中,并不是所有的自变量都对因变量有显著影响这一思想,举例说明了各方法的优缺点,保证所有子集为最优回归子集。
同时我们也看出线性回归模型在解决这类经济增长、预测问题上有很好的效果,其作用具有很好的参考价值。
关键词:一元线性回归;多元线性回归;前进法;后退法;逐步回归
Multiple Regression Analysis of Applied Research
Abstract:Regression analysis method is the most widely used in various methods of multivariate statistical analysis of a, is also the most mature and most commonly used method in mathematical statistics, mainly is the study of mutually dependent relationship between variables. First of all, through the establishment of a yuan linear regression model, this paper expounds the basic statistical idea of a yuan linear regression model and its application in the actual problem research principle.Then, established the multivariate linear regression, using the statistical software of SPSS was established by the clinker chemical composition analysis result prediction model of compressive strength, to guide the adjustment of the ratio of cement production, its better demonstrates the multiple linear regression, the optimal regression model of inspection, evaluation and prediction.Finally, through the former entered, regressive method, stepwise regression method, this paper expounds the different methods of thought and steps, demonstrated in multivariate regression method, and not all the independent variables on the dependent variable has a significant impact on the ideas, the advantages and disadvantages of each method is illustrated by an example, ensuring that all subsets of the optimal subset regression.At the same time we also see that the linear regression model to deal with the problem of this kind of economic growth, forecast has very good effect, its action has the very good reference value.
Key words:A yuan linear regression;Multiple linear regression;Before the law;Back
method;Stepwise regression method
引言
回归分析是对客观事物数量依存关系的分析,是一种重要的统计分析方法,广泛地应用于各类社会现象变量之间的影响因素和关联的研究。
由于客观事物的联系错综复杂,很多现象的变化往往受到两个或多个因素的影响。
为了全面揭示这种复杂的依存关系,准确的测定现象之间的数量变动,提高预测和控制的准确度,就要建立多元回归模型进入深入、系统的分析。
多元回归分析是研究多个自变量与某个应变量之间相关关系的一种常用统计方法。
一般地,我们有定义1.1
εχβχβχββ++++=p p 22110y
称为多元线性回归模型,其中22D 0σσεε;=,=E 是未知参数。
p 10,...,,βββ 是1p +个未知参数,0β称为回归参数,p 10,...,,βββ称为回归系数,y 称为被解释变量,p 21,χχχ 是p 个可以精确测量并控制的一般变量,称为解释变量(自变量),为了区别,称(1.1)为理论回归模型。
在回归模型中,因变量y 和自变量x 都是一维的,称它为一元回归模型;若x 是多维,y 也是多维,则称它为多重回归模型。
多元回归分析,是经济预测中常用的一种方法,通过建立经济变量与解释变量之间的数学模型,对建立的数学模型进行t F R 、、检验,在符合判定条件的情况下把给定的解释变量的数值代入回归模型,从而计算出经济变量的未来值即预测值。
对于回归模型中的解释变量,有两种处理方法:一种当作确定性变量处理,另一种当作随机变量处理,所得计算公式式相同。
其一般步骤是:首先取得解释变量和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的;然后根据这些数据确定经验公式的类型,建立数学模型,列出待估参数;再用这些数据进行拟合;最后作统计分析。
数据拟合是计算方法的内容,它也能解决回归分析中的数据拟合,但回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析。
就回归分析的发展而言,它自身的完善和发展至今是统计学家研究的热点课题。
例如自变量的选择、稳健回归、回归诊断、投影寻踪、分位回归、非参数回归等模型仍有大量研究文献出现。
在回归模型中,当自变量代表时间、因变量不独立并且构成平稳序列时,这种回
归模型的研究就是统计学中的另一个重要分支—时间序列分析。
[]1它提供了一系列动态数据的处理方法,帮助人们科学的研究分析所获得的动态数据,从而建立描述动态数据的统计模型,以达到预测、控制的目的。
对于满足基本假设的回归模型,它的理论已经成熟,但对于违背基本假设的回归模型的参数估计问题近些年仍有较多研究。
在实际问题的研究应用中,人们发现经典的最小二乘估计的结果并不总是令人满意,统计学家从多方面进行努力试图克服经典方法的不足。
例如,为了克服设计矩阵的病态性,提出了以岭估计为代表的多种有偏估计。
斯泰因(Stein )于1955年证明了当维数P 大于2时,正态均值向量最小二乘估计的不可容性,既能够找到另一个估计在某种意义上一直优于最小二乘估计,从此之后人们提出许多新的估计,其中主要有岭估计、压缩估计、主成分估计、Stein 估计,以及特征根估计。
为了解决自变量个数较多的大型回归模型的自变量的选择问题,人们提出了许多关于回归自变量选择的准则和算法;为了克服最小二乘估计对异常值的敏感性,人们提出了各种稳健回归;为了研究模型假设条件的合理性及样本数据对统计推断影响的大小,产生了回归诊断;为了研究回归模型中未知参数非线性的问题,人们提出了许多非线性回归方法,这其中有利
用数学规划理论提出的非线性参数估计方法、样条回归方法、微分几何方法等;为了分析和处理高维数据,特别是高维非正态数据,产生了投影寻踪回归、切片回归等。
近年来,新的研究方法不断出现,如非参数统计、自助法、刀切法、经验贝叶斯估计等方法都对回归分析起着渗透和促进作用。
就回归分析的应用而言,多元回归方法因其实用性及有效性,在现今社会越来越多的领域得到广泛应用。
早些时候,苑玉风]11[应用多元回归分析和逐步回归分析,研究某种汽车发动机用球墨铸铁活塞环球化率的影响因素,并建立了相关关系。
李金海[]12在多元回归数学模型基础上,提出了多元回归方法的应用步骤。
另外这一方法也被广泛的应用于预报各种气象参数,牛桂萍,黄祖英[]13用多元回归分析做暴雨的长期预报,虽然误差较大,但他们同时指出有待于因子本身作进一步的改进。
此外,多元回归分析方法也被越来越多的应用于预报各种自然灾害,王震宇[]14等将这一方法用于滑坡预报,并用实例证明了能在一定程度上解决滑坡的预报问题。
袁宇[]15运用多元回归分析法,建立了化学污染面积,纵身与诸条件的关系,快速估算预测出突出性化学污染危害,并提前做出防范措施。
索南仁欠[]16也提出了水质污染的多元回归分析方法,这一方法的建立有助于我们更好地直观了解水质的最显著污染因素及在具体治污过程中,更有针对性地实施合理治污方案。
对于太湖大面积的蓝藻事件,如果我们也应用这一方法,提前预测并做好防范工作,那污染所带来的危害及经济损失一定会有所减少。
由此看来,回归模型技术随着它自身的不断完善和发展以及应用领域的不断扩大,必将在统计学中占有更重要的位置,也必将为人类社会的发展起着它独到的作用。
1 一元线性回归的思想及其应用举例
一元线性回归是描述两个变量之间统计关系的最简单的回归模型。
一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以
及它在实际问题研究中的应用原理。
[]1
在实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素的关系。
如影响粮食产量的因素非常多,但在众多的因素中,施肥量是一个最主要的因素,我们往往需要研究施肥量这一因素与粮食产量之间的关系;在消费问题的研究中,影响消费的因素很多,但我们可以之研究国民收入与消费额之间的关系,因为国民收入是影响消费的最主要因素;保险公司在研究火灾损失的规律时,把火灾发生地与最近的消防站距离作为一个最主要的因素,研究火灾损失与火灾发生地和最近的消防站距离之间的关系。
上述几个例子都是研究两个变量之间的关系,它们的一个共同点是:两个变量之间有着密切的关系,但它们之间密切的程度并不能有一个变量唯一确定另一个变量,即它们之间的关系是一种非确定性的关系。
那么它们之间到底有什么样的关系呢?下面将举例说明。
用下表1-1数据做出销售额数据与广告额数据之间的散点图,并对其做一元回归分析。
表 1-1 产品销售额与广告额数据
广告额(万元)产品销售额(万元)广告额(万元)产品销售额(万元)4894 6809 5511 7784
4703 6465 6107 8724
4748 6569 5052 6992
5844 8266 4985 6822
5192 7257 5576 7949
5086 7064 6647 9650
运用EXCEL 。
得出销售额与广告额之间的散点图如下图 1-1所示:
图1-1 销售额与广告额的散点图
由图1所示的趋势线和回归方程和拟合的R 平方值得到销售额与广告额之间的一元回归直线方程为:
1.63241223.9y x =-
()11-
拟合度为0.9979R 2=,其拟合度非常高,拟合效果好,因此,该方程可以用于解释销售额的变化和销售额的预测。
如每增加1万元的广告额,销售额将会增加1.6324万元。
1.1 一元线性回归模型
通过以上例子我们看出它只考虑两个变量间的关系,即x 与y 间的线性关系可以看做
是回归模型的特例,那么我们就可以定义一元线性回归模型的数学形式如下:
01y x ββε
=++
()21-
称为变量y 对x 的一元线性理论回归模型。
其中,01,ββ 是未知参数,0β称为回归常数,1β称为回归系数,y 称为被解释变量(因变量),p χχχ ,,21是p 个可以精确测量并控制的一般变量,称为解释变量(自变量),ε是随机误差,且()
2,0~σεN
为了由样本数据得到回归参数0β和1β的理想估计值,使用普通最小二乘估计。
定义离差平方和为
()()
2
011,01n
i i i y ϑββββχ==--∑
()31-
为寻找参数01,ββ的估计值01,ββ∧∧
,定义的离差平方和达到最小,则满足
()0
1
2
01
1
2
,
1
,01min 01n i n
i i i i i y y ββ
ϑββββχββχ∧
∧
==∧∧
⎛⎫= ⎪⎝
⎭
=⎛⎫--∑ ⎪⎝⎭--∑
()41-
对其分别求偏导数,并令其为零,则有00110110
0111
2020n
i
i i n i
i i i y y ββββϑ
ββχβϑββχχβ∧∧∧∧
==∧∧==∂⎧⎛⎫
=---= ⎪⎪
∂⎝⎭⎪⎨∂⎛⎫
⎪=---= ⎪⎪∂⎝
⎭⎩∑∑
经整理其方程组得到01,ββ的最小二乘估计为()(
)()
1
121n
i i i n i y x x x y y i x x βββ∧∧∧
==⎧=-⎪⎪⎪--⎨=⎪⎪
⎪⎩
∑-∑
其中11
11,n n
i i i i x x y y n n ====∑∑得到其回归直线01y x
ββ∧∧
=+
1.2 一元线性回归模型的检验
(1)t 检验,其检验回归系数的显著性。
原假设为01:0βH = 对立假设是11:0βH ≠构造统计量为
t ∧
=
()51-
其中,
2
2112n i i i n y y σ∧
=∧
=
-⎛
⎫-∑
⎪⎝⎭
是2
σ的无偏估计,2
1
n
xx
i L i x x =∧
=⎛⎫-∑
⎪⎝⎭
当原假设成立时,其t 统计量服从自由度为2n -的t 分布,给定显著性水平α,当2
t t α≥时接受0H ,认为y 对x
的一元线性回归不成立。
(2)F 检验。
01:0βH =,根据平方和分解式
()
2
2
2
1
1
1
n
n
n
i i i i i i i y y
y y y y ===∧
∧
=+⎛⎫
⎛⎫---∑∑
∑
⎪ ⎪⎝⎭
⎝⎭
()61-
简写为SST SSR SSE =+ 构造统计量2
SSE
1
SSR F -=
n 其中F 服从自由度为()1,2n -的F 分布,给定显著性水平,当
(
)2,1F F ->n α说明回归方程显著,x 对y 有显著的线性关系。
1.3 一元线性回归模型举例
某快餐店已经在全国建立了多家分店。
其成功的重要经验之一就是:店要建在学校附近。
在新建立一家分店之前,管理层需要对这个新店的年销售额做出估计, 这一估计用于确定新建餐馆的规模。
管理人员认为, 设在某校园附近餐馆的年销售额与该学校的人数有关。
初步的看法是,设在规模大、学生人数多的学校附近的餐馆的年销售额高于设在规模小、学生人数少的学校附件的餐馆的年销售额。
为研究新餐馆的年销售额y 随当地学生人数x 的变化规律,该快餐店收集了它的10个坐落在校园附近的销售分店的年销售额与其所在地学生人数的数据,这些数据如表1-2
表1-2 10个分店的年销售额及分店驻地学生人数
餐馆序号i
学生人数(1000人)i x 年销售额(1000人)i y
1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10
26
202
图1-2 学生人数与餐馆年销售额关系散点图
譬如,对第一个分店,2=i x ,58y =i 表示该店坐落在有2000名学生的一所学校附近,年销售额为5800元;第二分店附近的一所学校有6000名学生,它的销售额达105000元;余类
推。
以学生人数为横轴,年销售额为纵轴,将观察结果组成的数据对()i i y x ,()
10,.....,2,1=i
在直角坐标系中描出相应的散点图。
如图1-2,从图1-2可见,数据点大致落在一条直线附近,这显示y x ,这两个变量近似地就有线性关系。
设随机变量y 与变量x 之间存在某种线性相关关系,这里,x 是可以控制的(或可以观察的)变量,设
()
210,0~;σεεββN ++=x y ()71- 其中,ε称为随机误差。
未知参数εββ,,10都不依赖于x ,式(1-1)称为一元线性回归模型。
它描述了相依变量y (销售额)与一个独立变量x (学生人数)之间的线性关系。
按前述假设,(1-7)式等价于方程()x y 10ββ+=E ,该式表示当x 已知时,可以精确地算出数学期望()y E ,由于ε表示不可控制的随机因素,通常就用()y E 作为y 的估计值, 由样本得到(1-7)式10ββ,的估计10∧
∧
ββ,则方程
x
y 10∧
∧∧+=ββ ()81-
为y 关于x 的估计回归方程或回归方程,其图形称为回归直线,式中y 表示()y E 的估计。
系数10∧
∧ββ, 采用最小二乘法计算,这里我们用matlab 的多项式拟合命令实现,其程序见附录1所示,得00.500.6010==∧
∧ββ,
因此,用最小二乘法求得的估计回归方程是:605+=∧
x y
回归直线如图1-2所示,可以看到它与所有的数据点都很接近。
如果有充足的理由相信这个方程真实地反映了x 与y 之间的关系。
对于给定的x 的值,我们就能够预测出可以信赖的y 的值,譬如,若一个新建的分店坐落在一所16000名学生的学校附近,那么有:14060165=+⨯=y
即,这家分店的年销售额会达到140000元。
变量x 与y 之间线性关系是统计意义上的,因此必须要对这种线性关系作统计检验。
假定x 与y 的回归具有()x y 10ββ+=E 的形式。
如果变量x 与y 之间确有这样的关系,即变量x 的值对y 的值施加了影响,则1β不会为零。
因此,应该检验假设
,
:,:001110≠H =H ββ (1)t 检验
经推导可知,1β的估计∧
1β服从正态分布,即′⎪⎭
⎫ ⎝
⎛∧∧
2111
β
σββ,:其中()
∑=-=∧n
i x x 1
2
2
2
1
σσβ而2
σ得无
偏估计为SSE n SSE ,2
2
-=∧σ残差平方和,可以得出1530=SSE ,故,25.191815302==σ
于是2
1
∧
βσ
中的估计量就是()
3367.02
1
2
21
=-=
∑=∧∧n
i i x x S σ
β,故可使用t 检验法对0H 进行检验,检验
统计量
()2:t 1
11--=∧
∧
n t S βββ ()91-
当0H 为真时,01=β此时()2-n t :S t 1
1∧
∧
=ββ其的0H 拒绝域是:
()2t 2
-11
1
->∧
∧
n S
α
ββ
其中,α-1为显著性水平。
当假设010=H β:被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著。
将表1-2中的数据带入,可以计算出0.5803S 1
=∧β,且51=∧
β而对01.0=α和自由度为
82=-n 的条件下,可以计算出临界值()36.3899.0=t 现在
3.368.621
1
>=∧
∧
ββS ,故在显著水
平99.01=-α下拒绝0H ,即认为01≠β,认为回归效果是显著的。
(2)F 检验
在回归模型中只有一个独立变量的情况下t 检验和F 检验产生同样的结论。
也就是说,若用t 检验法拒绝了0H ,改用F 检验法同样会得到拒绝0H 的结论。
当0H 为真时,统计量
()
2
2
2
1
1
1
n
n
n i i i i i i i y y
y y y y ===∧
∧
=+⎛⎫⎛⎫---∑∑
∑ ⎪ ⎪
⎝⎭⎝⎭
简写为SSE +=SSR SST
其中F 服从自由度为()1,2n -的F 分布,将表2的数据带人,可以计算得14200SSR =又知1530SSE =且82=-n ,所以通过计算可得74.2484F =对于0.01=α,得出
(
)2586.118,1F 1=-α 由于()8,1F F 1α-≥成立,故拒绝0H 所获结论与t 检验相同。
由次,我们有充分的理由相信方程605+=∧
x y 真实地反映了y 与x 之间的关系。
由以上可以看到,通过一元回归模型很好的解决的该快餐店的销售额估计,从而使其扩
大经营有依可循,能有效的避免决策失误,减少经济损失,增大经济效益.可以说线性回归模型在解决这类经济增长、预测问题上有很好的效果。
[]20
2 多元线性回归模型的思想及其应用举例
2.1 多元线性回归的数学模型
设随机变量y 与一般变量p χχχ,...,,21的线性回归模型为
εχβχβχββ++++=p p 22110y ()12- 其中,p βββ,...,,10 是1+p 个未知参数,0β称为回归参数,p βββ,...,,10称为回归系数,
y 称为被解释变量(因变量),p χχχ ,,21是p 个可以精确测量并控制的一般变量,称为
解释变量(自变量),ε是随机误差,且
()2,0~σεN
称
()p p χβχβχββ +++=E 22110y ()22- 为理论回归方程。
对一个实际问题,获得n 组观测数据()
()n i y i ip i i 2,1;,,22=χχχ则线性回归模型式可
以表示为⎪⎪⎩
⎪⎪
⎨
⎧++++=++++=++++=n np p n n p p p p εχβχβχββεχβχβχββεχβχβχββ
22110n 2
2222211021
112211101y y y ()32- 写成矩阵形式为εβ+X =y 其中
⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n 21εεεε ⎥⎥
⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎣⎡=p ββββ 10 ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y 21y y y ⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎣⎡=X np n n p χχχχχχχχχ 21p 2222111211111 ()42-
对于多元线性回归方程未知参数p βββ,...,,10的估计与一元线性回归方程的参数估计原理一样,采用最小二乘估计,即寻找p βββ,...,,10的估计值∧
∧
∧
∧
p ββββ 210,,即离差平方和ϑ最小。
使其满足
(
)∑----∑⎪⎭⎫ ⎝⎛----==∧
∧∧∧=∧∧∧∧=⎪⎭
⎫
⎝
⎛n
i n i p
ip p i i i ip p i i i y y p
1
2
,,
,1
2
21022110min 22110,,,2
10
χβχβχββχβχβχβββ
βββββββϑ
()52-
对其分别求偏导数p βϑβϑβϑ∂∂∂∂∂∂
,,10,并令其为0,
⎪⎪⎪⎪⎪⎪⎪
⎩
⎪⎪⎪⎪⎪⎪
⎪⎨
⎧=⎪⎭⎫
⎝⎛-----=∂∂=⎪⎭⎫
⎝⎛-----=∂∂=⎪⎭⎫ ⎝⎛-----=∂∂=⎪⎭⎫
⎝⎛-----=∂∂∑∑∑∑=∧∧∧∧==∧∧∧∧==∧∧∧∧==∧∧∧∧=∧∧∧∧02020
20
212211021221102112211011221100221
100ip n i ip p i i i p
i n i ip p i i i i n i ip p i i i n i ip p i i i y y y y p
p χχβχβχβββϑχχβχβχβββϑχχβχβχβββϑχβχβχβββϑββββββββ ()62- 以上方程组经整理后,用矩阵形式表示的正规方程组0y '=⎪⎭
⎫ ⎝
⎛-X ∧
βχ
移向得y ''X =X X β当()1'-X X 存在时,即得回归参数的最小二乘估计为 ()y '1'X X X =-∧
β 得出多元线性回归预测模型为p p χβχβχββ∧
∧
∧
∧
∧
+++= 22110y
2.2 多元线性回归模型的检验
对于多元线性回归方程的显著性检验与一元线性回归方程的显著检验既有相同之处,也有不同之处。
下面将介绍两种统计检验方法即F 检验和t 检验。
(1)F 检验,F 检验是对整个回归方程的显著性检验,为此提出原假设
021:0===H p βββ
为建立对0H 进行检验的F 统计量,利用总离差平方和的分解
()
∑⎪⎭
⎫ ⎝⎛-∑⎪⎭⎫ ⎝⎛-∑-===∧+∧=n
i n i n i y y y y y y i i i 1
2
121
2 ()72- 简写为SSE +=SSR SST 则F 统计量如下()
1-p -n /SSE p /SSR F =
在正态假设下,当原假设021:0===H p βββ 成立时F 服从自由度为()1p ,p --n 的
F 分布,于是,可以利用F 统计量对回归方程的总体显著性进行检验。
当()
1p ,F F -->n p α时,拒绝原假设0H ,认为在显著性水平α下,y 与p χχχ ,,21有显著的线性关系即回归方程是显著的,反之,当()
1p ,F F --≤n p α时,认为回归方程不显著。
(2)t 检验,t 检验是用来对每个回归系数是否有意义进行的检验。
构造t 统计量
∧
∧
=
σ
βjj j
j
c t
()82-
其中jj c 是矩阵 ()1'-X X 主对角线的第j 个元素,j t 服从自由度为()1--p n 的t 分布。
当给定显著性水平α,如果()12
--=p n t t j α则认为j χ对y 有显著影响,否则认为其线性效果
不显著。
(3)R 检验,R 检验是用于检验回归方程对样本观测值的拟合程度,其计算公式为
()
∑-∑⎪
⎭⎫ ⎝⎛-==∧
=n i n i i
i i i y y y y 1
2
1
2
-
1R ()92-
复相关系数R 说明p χχχ,...,,21这一组影响因素与y 的相关程度,值越接近1,说明利用多元线性回归的效果越好。
2.3 多元线性回归模型应用举例
2.3.1 研究问题的提出
水泥熟料的d 28强度在水泥生产中是一个关键性的指标,甚至可以说是水泥熟料质量好坏的结论性指标。
由于其测量周期长,数据不能及时反馈给用户,同时企业又不能因为此项指标的缺失而拒绝发货,因此多数水泥企业出厂管理采用强度累计增长率即二元回归的方法预测水泥熟料强度。
经过长期实践证明,累计增长率的方法确实可以作为预测水泥熟料强度的依据,但要做到水泥企业的精细化管理,其预测的准确程度还有待商榷。
[]
22
影响水泥熟料强度的因素很多,如:矿物组成数量、化学成分、熟料的烧结状况、熟料矿物晶体的晶型等。
累计增长率的方法完全忽略了这些关系,本文提及的多元回归分析强调化学成分与水泥熟料强度的关系,运用多元回归的方法预测水泥熟料的d 28强度。
众所周知水泥熟料的水化产物主要有4种,分别为:AF C A C S C S C 4323、、、。
其中对水泥熟料
d 28强度起主要作用的是S C 3和AF C A C S C 432、、对水泥熟料的影响较大。
水泥熟料的
强度是其矿物组成物理特性的表现,直接获取水泥熟料水化产物的含量比较困难,但其化学成分通过化学分析的方法却能得到较精确的结果,水泥熟料的化学成分能间接反映其水化产物。
MgO CaO f 、-是水泥熟料水化的有害成分,含量过高会影响水泥的安定性。
因此本文选取水泥熟料中的MgO CaO f Loss O Fe O AL CaO 、、、、、、-32322S iO 化学成分的含量与水泥熟料d 28强度进行多元回归分析。
2.3.2 数据采集与多元回归分析
选取生产工艺状况比较稳定、熟料全分析及物检数据准确度符合分析、检验要求、并具有代表性的若干组检验数据作为回归分析基础数据,原始数据应不少于20 组。
在此采集千业水泥公司6、7 月份熟料检验结果列于附录表2-1
根据常规熟料化学分析项目,建立多元线性回归分析的数学模型如下:
M X CaO f X Loss X Fe X AL X S X C X b Y ⨯+⨯+⨯+⨯+⨯+⨯+⨯+=7654321—
式中:Y 为预测的熟料d 28抗压强度MPa ;M CaO f Loss F A S 、、、、、、-C 分别表示熟料化学分析中MgO CaO f Loss O Fe O AL CaO 、、、、、、-32322S iO 的百分含量;7654321X X X X X X X 、、、、、、、b 为待定系数。
2.3.3 EXCEL 作回归分析确定待定系数的值
创建一个EXCEL 工作表,并将所采集的数据组熟料化学分析及物检数据输入表中。
然后将光标移到b 列、回归系数行的单元格,单击“fx 粘贴函数”打开粘贴函数中的“函数分类(C )”选择其中“查找与引用”,在“函数名(N)”中选择“INDEX ”然后按“确定”,此时在编辑栏中出现“=INDEX()”。
再在“=INDEX()”的括号内输入表格定位:(LINEST(I5:I30,B5:H30),8),此时编辑栏中显示=INDEX(LINEST(I5:I30,B5:H30),8),单击编辑栏的“√”即可得出b 的值。
将光标移到x1下回归系数行的单元格,采用同样方法输入=INDEX(LINEST(I5:I30,B5:H30),7),,即可得出x1的数值,移动光标到相应系数下单元格,同样方法,只需将公式中最后一个数字依次改为“6、5、4、3、2、1”,即可依次得出
7654321X X X X X X X 、、、、、、的值。
在EXCCEL 中可以方便地用所求公式对强度结果进行验算,将光标移到上面EXCCEL 工作表的单元格J5,单击后单击“fx 粘贴函数”打开粘贴函数中的“函数分类(C )”选择其中“全部”,在“函数名(N)”中选择“SUMPRODUCT ”然后按“确定”,此时在编辑栏中出现“=SUMPRODUCT()”。
再在“=SUMPRODUCT()”的括号内输入:“B5:H5,C2:I2”,然后再加上b 即“+B2”,此时编辑栏中显示=SUMPRODUCT(B5:H5,C2:I2)+B2。
单击编辑栏的“√”,即可得出6.17 的d 28抗压强度预测值见表2-1。
将光标移到单元格J5 的右下角,当其变为黑十字时,按下鼠标左键,向下拖至单元格J30,即可得出所有相应的d 28抗压强度预测值。
将光标移到工作表的单元格K5,单击后在上方编辑栏内输入公式“J5-I5”即可得出6.17 的物理检测值和预测值的差,采用同样方法向下拖至单元格K30,即可得出所有相应的误差值。
其统计分析结果见表2-1 其预测公式在SPSS 中选择工具一数据分析一回归,[]9其输出结果见下表2-2,以及附录表2-3
将所有结果保留2位有效数字,则水泥熟料d 28强度预测公式(1)为:
表2-2 系数表
模型 非标准化系数 标准系数 t Sig. B
标准误差
试用版
1
(常量) 2.017 1.000 2.017 .059 x1 .687 .011 .953 61.450 .000 x2 .537 .012 .661 45.534 .000 x3 .878 .026 .399 34.349 .000 x4 -1.088 .030 -.364 -36.399 .000 x5 -1.497 .021 -.780 -71.426 .000 x6
.126
.008
.170
14.897
.000 x7 .477 .011 .509 44.921
.000
765432148.013.050.110.187.053.067.002.2y x x x x x x x ++--+++=
()450.61 ()534.45 ()349.34 ()399.36- ()426.71- ()897.14 ()921
.44 式中:每个回归系数下面括号中的数值是与其互相对应的t 值.其中y 为水泥熟料d 28强度
预测值,71X ~X 分别代表水泥熟料中:MgO CaO f Loss O Fe O AL CaO 、、、、、、-32322SiO 元素的含量。
由以上回归方程可以看出,它与EXCEL 所得到的回归系数值极匹配,所选取的回归方程准确性较好,在实际测量中结果也令人满意。
下面对模型进行检验。
(1)t 检验根据显著性水平24226df 05.0=-==,α,查t 分布表,得()064.224t 2
=α
通过统计软件计算处理得到
064
.2t 39.36t 064
.2t 53.45t 064
.2t 45.61t 2
42
22
1=>==>==>=αααb b b ()102-
从以上可得三个回归系数的t 检验均通过,同理7653,,,x x x x 检验通过,所选择的自变量是影响d 28强度的的主要因素。
(2)F 检验通过计算机得到000.0741.1804F =P =,根据显著性水平
18df 7df 05.021===,,α,查F 分布表得 3.85(7,18)F 0.05=,因为
000.0741.1804F =P =,,85.3F 741.8041F 0.05=>=
所以,F 检验通过,表明回归方程的回归效果显著。
7654321,,,,,,x x x x x x x 整体上对y 有高度显著的线性关系。
(3)复相关系数999.0R =,决定系数999.0R 2=,由决定系数看回归方程高度显著。
本文所得的回归经验公式是建立在生产工艺较稳定,化学分析结果和熟料强度有较好的线性相关关系的基础上。
采用此方法,对焦作千业水泥有限责任公司2007年6月17日至2007 年7月16日期间生产较为正常的熟料d 28抗压强度进行了预测(见附录表2-1),与物检实际d 28抗压强度相比,其绝对强度误差最大值为a MP 0.1-,绝对平均强度误差为a .438MP 0,相关性很好,并且以水泥熟料水化机理、矿物组成与其强度的关系为依据,强调水泥熟料中化学成分对其强度的影响,选用多元回归的分析方法,打破传统累计增长率的预测形式、预测模型更加科学,具有指导水泥生产配比调整的意义。
2.3.4 总结
在多元线性回归分析中,我们知道回归方程中所包含的自变量越多,那么回归平方和SSR 就越大,则剩余平方和SSE 就越小,一般情况下剩余标准差也随之减少,回归方程效果越好,而精度也越高。
[]4在“最优”回归方程中总希望包括尽可能多的自变量,特别是对因变量y 有显著影响的自变量不能遗漏。
但回归方程所包括的自变量太多,也带来不利的一面,首先,若要求自变量多,则在预测时必须测定许多量,并且计算也不方便;其次,如果在回归方程中包括有对因变量y 不起作用或作用极小的自变量,那么剩余平方和SSE。