数学建模解多元线性回归问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
公司年销售额的分析
摘 要
公司年销售额通常和很多因素有关,但它们之间并不是确定性关系,所以我们用回归分析来处理,并建立了多元线性回归模型。本文用最小二乘的方法给出了变量间相关关系的回归方程,针对各因素对公司年销售额的影响我们与偏回归平方和联系起来,并将各因素的影响程度进行了排序。还通过F 检验和T 检验分别验证了回归方程的显著性和方程系数的显著性。最后我们采用了逐个剔除的方法找出了影响年销售额的主要因素,并且建立了新的回归方程,再次进行检验,新回归方程高度显著,最后得到了个人可支配收入、价格、投资和广告费密切相关的结论。
第一问:我们首先对附表1的数据进行处理,利用MATLAB 对残差向量进行分析,剔除其中的异常点。然后建立起多元线性回归模型,采用最小二乘的方法来估计回归方程的参数i 。我们引入偏回归平方和i Q 的概念来判定各因素对年销售额的影响程度,并对各因素的影响程度由深到浅进行了排序。
第二问:通过对回归平方和回S 和剩余平方和剩S 的分析,并且运用F 检验法
来判定线性回归方程的显著性。由于回归方程显著并不意味着每个自变量1x ,2x ,3x ,…8x 对因变量y 的影响都是重要的。所以我们对方程系数的显著性用T 检验
法进行了检验。最后通过逐个剔除的方法找出了其中的主要因素,主要因素为:
个人可支配的收入、价格、投资、广告费这四个方面。
第三问:通过逐个剔除的方法建立了新的回归方程,并对新的回归方程进行显著性检验,对方程系数进行显著性检验。得到了公司的年销售额与个人可支配收入、价格、投资和广告费密切相关的结论。
关键词:多元线性回归 最小二乘法 F 检验 T 检验 偏回归平方和
1 问题重述
在经济流通领域中,某公司的年销售额(y )与个人可支配的收入(1x );商人的回扣(2x );价格(3x );研究与发展费(4x );投资(5x );广告费(6x );销售费用(7x );总的工业广告预算(8x )等有关。附表1中是某公司的原始数据。建立模型,分析各因素对年销售额的影响程度。并对所做模型进行检验,找出影响销售额的主要因素。最后分析主要因素与销售额的关系,并给出结论。
2 问题分析
对于公司年销售额的分析,我们知道,和y 有关的变量有8个,研究y 与变量1x ,2x ,3x ,…8x 之间的定量关系的问题为多元回归问题。又因为许多多元非线性回归问题都可以化为多元线性回归问题,所以对于本问题我们建立了多元线性回归的数学模型。
第一问:
首先对附表1的数据进行处理,对残差向量进行,剔除其中的异常点。然后我们建立了多元线性回归的数学模型,并采用了最小二乘法来估计参数。把模型写成矩阵的形式,化简整理得其正规方程组,通过对正规方程组的求解,最后得到回归方程。
对于各因素对年销售额的影响程度,由于利用偏回归平方和i Q 可以衡量每个变量在回归中所起的作用大小(即影响程度),我们对每个变量i x 的偏回归平方和i Q 进行了计算,最后把影响程度由深到浅的各因素进行了排序。
第二问:
回归方程的显著性检验:事先我们并不能断定随机变量y 与一般变量1x ,2x ,3x ,…8x 之间是否确有线性关系。在求线性回归方程前线性回归模型只是一种假
设,所以在求出线性回归方程之后,我们需要对其进行统计检验。将总的平方和
总S 分解为回归平方和回S 和剩余平方和剩S ,运用F 检验法来判定线性回归方程
的显著性。
回归系数的显著性检验:由于回归方程显著并不意味着每个自变量1x ,2x ,
3x ,…8x 对因变量y 的影响都是重要的。而我们要找出响销售额的主要因素,即
从回归方程中剔除那些次要的、可有可无的变量,这就需要我们对每个变量进行
考察。显然,如果某个变量对y 的作用不显著,那么在多元线性回归模型中,它前面的系数j β就可以取值为零。因此,检验因子i x 是否显著等价于检验假设
00=i H β: 。最后再运用T 检验法来辨别模型中哪些因子是显著的。
第三问:
由于回归系数之间存在相关性,当从原回归方程中剔除一个变量时,其他变量,特别是与它密切相关的一些变量的回归系数就会受到影响,剔除一个变量后,这个变量对y 的影响很大部分转加到另一个变量对y 的影响上。所以,我们对回归系数进行一次检验后,只能剔除所有不显著因子中t 值最小的,然后重新建立新的回归方程,再对新的回归系数逐个进行检验,直到余下的回归系数都显著为止。
3 符号说明
4 模型假设
1.影响销售额的各个因素相互之间关联性不大,即相互独立。
2.异常值认为是人为因素引起的,可将其剔除。
5 模型的建立与求解
第一问:
5.1模型Ⅰ “多元线性回归的数学模型” 5.1.1 模型的建立
1、处理数据
我们先通过MATLAB (程序见附录1)对原始数据进行检验,对残差向量进行分析,得到了残差向量分析图,剔除其中的异常点。 2、设随机变量
假如变量y 与另外8个变量1x ,2x ,3x ,…8x 的在联系是线性的,它的第α次试验数据是
),,...,;(821ααααx x x y α=1,2,…,8 (1)
那么这一组数据可以假设有如下的结构式:
⎪⎪⎩⎪⎪⎨
⎧+++++=+++++=+++++=,
....................................................................,..., (383888382238110382)
238822221102118812211101εββββεββββεββββx x x y x x x y x x x y (2) 其中0β,1β,…,8β是9个待估计参数,1x ,2x ,3x ,…8x 是8个可以精确测
量的一般变量,
,1ε,2ε…38ε是38个相互独立且服从同一正态分布),0(σN 的随机变量,这就是多元线性回归的数学模型。
令
⎪
⎪⎪⎪⎪⎭
⎫ ⎝⎛=821y y y Y
, ⎪⎪
⎪⎪
⎪
⎭
⎫
⎝⎛=388382
3812822
21
181211111x x x x x x x x x X
, ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=810ββββ , ⎪⎪⎪⎪
⎪⎭
⎫
⎝⎛=3821εεεε ,
那么多元线性回归的数学模型(2)可以写成矩阵形式
.εβ+=X Y (3)