回归分析在数学建模中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Keywords:Multiple linear regression analysis;parameterestimation;inspection
目录
引言
回归分析是研究生活中多个相关变量变化的一种最常见的数学方法,运用它来解决实际问题,不仅可以使问题简单化 ,还可以对未来的数据进行预测。本文主要将回归分析应用于研究家庭食品支出和家庭收入以及我国民航客运量和国民收入、消费额、铁路客运量、民航航线里程、来华入境人数之间的关系。
根据题中所给出的数据,我们可以画出散点图,
由图我们可只看出,家庭收入 与家庭食品支出 之间存在线性关系。
表3.1 样本数据计算表
序号 家庭收入 食品支出
1 20 7 400 49 140
2 30 6 900 36 180
3 30 8 1024 64 256
4 40 12 1600 144 480
5 15 9 225 81 135
回归分析主要研究的内容是:(1)从一组数据出发,确定这些变量(参数)之间的定量关系,所得到的表达式称为回归方程;(2)对求得的回归方程的可信度进行检验;(3)在有关的许多变量中,判断变量的显著性,即哪些是显著的,哪一些是不显著的,显著地保留,不显著的忽略;(4)利用所求得的回归方程进行预测和控制。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和多个自变量时,叫做多元回归分析。另外,依据描述自变量和因变量之间的函数关系是线性的还是非线性的,把回归分析又分为线性回归分析和非线性回归分析。本文主要研究线性回归分析。
经过检验,当回归方程有意义时,便可用它来进行预测。当给定 时求出预测值 即可。
2.2 多元线性回归分析的模型
线性回归模型适合于分析一个因变量和多个自变量之间的相关关系。现假设一个回归模型中有 个自变量,即有 , 则该回归模型可以表示为:
(2)
其中 服从 ,并且独立同部分布。
上式中, 表示个体 在因变量 中的取值, 为截距的总体参数, 为斜率的总体参数。由于该回归模型中包含多个自变量,因此将(2)式称为ຫໍສະໝຸດ Baidu元线性回归模型。
3.2建立模型
假设家庭收入为 ,家庭食品支出为 ,那么可以设这两种变量之间的关系为: ,其中 为回归参数, 是随机误差,并且 服从 ;
假设我国民航客运量为 ,国民收入、消费额、铁路客运量、民航航线里程和来华旅游入境人数分别为 , , , 和 。则设变量之间的关系为:
,
其中 为回归参数 为不可测量的误差变量。
上式中, , ,
2.1.1回归参数 和 的估计
用最小二乘法估计 的值,即取它们的一组估计值 ,使其随机误差 的平方和达到最小,即使 与 的最佳拟合。若记

显然有 并且关于 可微,则由多元函数存在极值的必要条件得
则称 为 的最小二乘估计,其中
, ,
于是可得到经验回归方程 。
其中有 , 则 是 的无偏估计。
用 检验法进行显著性检验,取显著水平 。因为
拒绝域为 ,而
所以拒绝 ,也就是说家庭收入 对家庭食品支出 有着显著的影响。
取 ,即当家庭收入为4200元时,食品支出的预测值为:
(百元)
置信度为95%的预测区间为
通过计算可以得到,
因此可得预测区间为:(4.3518,18.1546),即有95%的把握估计当家庭收入为4200元时,家庭食品支出额在435到1815.46元之间。
关键词:多元线性回归分析;参数估计; 检验
Abstract
Regression analysisand analysis of varianceistheinquiryand processing ofthecorrelation betweentwoimportant branches,whereintheregressionanalysismethodisthe mostcommonly used mathematicalpredictionmethod,it is theuse of statisticaldata to determinetherelationship between the variables,andbased onthisrelationshippredict futuretrends.introducesa linear regressionanalysisandmultiple linear regression analysismethodgeneralway of thinkingandthe general steps,anduse them toresearch and analysisthatweencounterin our life,are difficult todetermineasafunctionrelationship between the variablesinthesolving process,theregression equation is establishedbytheregression equationto predict.
摘 要
回归分析和方差分析是探究和处理相关关系的两个重要的分支,其中回归分析方法是预测方面最常用的数学方法,它是利用统计数据来确定变量之间的关系,并且依据这种关系来预测未来的发展趋势。本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤,并且用它们来研究和分析我们在生活中常遇到的一些难以用函数形式确定的变量之间的关系。在解决的过程中,建立回归方程,再通过该回归方程进行预测。
2 线性回归分析模型
线性回归分析是回归分析中较为简单的一类,并且它在现实生活中的应用及其泛。线性回归分析则是研究和处理变量之间的线性相关关系的数学方法。根据所研究自变量的多少,可以将线性回归分析分为一元线性回归分析和多元线性回归分析。
2.1 一元线性回归的模型
一元线性回归模型又称简单直线回归模型,它是根据成对的两种变量的数据,配合直线方程式,根据自变量的变动,来推算因变量发展趋势和水平的方法。它是研究相关的两种数量变动与存在关系的一种方法。
于是可求得 的最小二乘估计 。
从而可得经验回归方程 ,称 为残差向量。
通常有 为 的最小二乘估计。
2.2.2多元线性回归分析方程的显著性检验
假设 不全为0。
当 成立时,构造统计量 服从 ,对于给定的显著性水平 (一般取值为0.01或0.05),检验的拒绝域为 。当多元线性回归方程经过检验是显著的之后,并且其中每一个系数均显著不为0时,便可以用此方程进行预测。即给定 ,将其代入回归方程,可得到: 。
3.4 多元线性回归分析在我国民航客运量与其影响因素中的应用
为了研究我国民航客运量的变化趋势及其成因,现以民航客运量作为因变量,以国民的收入、消费额、铁路客运量、民航航线里程以及来华旅游入境人数作为影响国民航客运量的主要因素。根据《2004年统计摘要》可以获得1988-2003年统计数据见下表4.2。
3 实例应用
3.1问题提出
食品是人们生活中不可缺少的。每个家庭都必须在食品支出上加以重视,然而,一个家庭的收入是该家庭食品支出的先决条件。也就是说,家庭收入影响着家庭食品支出。那么它们之间到底有什么关系呢?另外,在现实生活中,影响某一变量的因素不止一个,有时候从表面上看,诸多的因素好像都与某一因变量有着某种相关关系,其实不然。在这些因素中有的因素对该变量是显著性的或起决定性作用,而有的因素则是不显著的。要解决这类问题,我们就必须借助于多元线性回归。例如:在我国民航客运量的研究中,影响民航客运量的因素是多方面的,其中包括国民收入、铁路客运量、民航航线里程等。下面本文将分别解决以上的两个问题。
1回归分析的背景来源及其概念
1.1回归分析的背景
“回归”这一概念是在19世纪80年代由英国的统计学家弗朗西斯·高尔顿在研究父代身高和子代身高之间的关系时提出来的。他发现不管父代身高是高或是矮,子代的身高都有回归父辈平均身高的趋势,他把这种现象称作回归。现如今,回归分析已经成为社会科学定量分析研究中最基本、应用最为广泛的一种数据处理方法。它不但可以给出描述自变量和因变量之间相关关系的函数表达式,还可以用来预测因变量的取值。在现实生活中,影响某一现象的因素常常是多方面的。社会科学的研究不可能像自然科学研究那样运用实验的方法来进行解决,人们为了弄清和解释事物之间变化的真实原因和规律,就必须借助一些经验数据并进行整理分析。而回归分析的最大优点恰恰就在于它可以通过统计方法来对干扰因素加以控制,从而帮助我们来发现自变量与因变量之间的关系。
1.2回归分析的基本概念
一切运动着的事物都是相互联系、相互制约的,从而,描述事物和事物运动的变量之间也是相互联系、相互制约的。变量之间的关系总体可以分为两类:一类叫做确定关系,即函数关系,它的特征是:一个变量随其他变量的确定而确定。例如球的体积 和半径 之间的关系 ;另一类关系叫做相关关系,这类关系的特征是:变量之间的关系很难用一种精确的方法表示出来。例如农业上的施肥量和亩产量之间有一定的关系,但是由施肥量不能精确地算出亩产量,由亩产量也不能精确地计算出施肥量。而回归分析就是用来处理和描述这种相关关系的。那么,什么是回归分析呢?我们大家都知道,数学分析和高等数学是研究连续变量之间的关系,泛函分析是研究函数集之间的关系,而回归分析则是研究随机变量之间的相关关系的一种数学方法。它是最常用的数理统计方法,能解决决策、控制、生产工艺优化等问题。目前,回归分析在工农业生产及科学研究中有着极其广泛的作用,同时也在实验数据的处理、经验公式的推导、产品的统计质量管理、市场的预测、气象预报和医学卫生等许多领域都常常会运用回归分析。
如果我们定义一下的矩阵:
此时,我们可以采用矩阵的表达形式,将一般的多元线性回归模型表示为: (3)
上面的式子也常常简记为: 。这里, 表示因变量的向量, 表示总体参数的向量, 表示由所有自变量和一列常数1所组成的矩阵, 则表示随机误差变量的向量。
2.2.1 回归参数 和 的估计
类似于一元线性回归分析的参数估计,求多元线性回归分析的回归系数 的估计值 ,就是求最小二乘函数 达到最小的 值。
表4.2 民航统计数据表
年份 /万人 /亿元 /亿元 /万人 / 万km /万人
1998 231 3010 1888 81491 14.89 180.92
3.3 关于家庭收入与家庭食品支出的应用
为了研究家庭收入和该家庭食品支出之间的关系,随机调查了10个家庭,所得数据如下:
家庭收入和食品支出数据 单位:百元
1
2
3
4
5
6
7
8
9
10
家庭收入
20
30
32
40
15
26
13
38
35
40
食品支出
7
6
8
12
9
11
4
10
9
10
首先设家庭收入为 (单位:百元),家庭食品支出为 (单位:百元)
2.1.2 一元线性回归方程的显著性检验
根据回归方程求出估计值 以后,现在的问题是: 与 之间是否确实存在这种线性关系呢?也就是说 是否为 ,这就需要对回归方程作显著性检验。
显著性检验法有 检验法、 检验法和 检验法,而 检验法是最常用、最基本的检验方法。只要判断出 与 的大小即可,当
时,则说明 的假设不成立,即模型中的一次项 是必要的。换而言之,模型对水平 而言是显著的,反之就是不显著的。
一元线性回归模型的一般形式:
(1)
上式中, 表示 随 的变化而线性变化的部分, 是随机误差,是其它一切不确定因素影响的总和,它的值是不可测的,通常假定 服从 ,
称函数 为一元线性回归函数。 为回归常数, 为回归系数,他们统称为回归参数。其中称 为回归自变量或回归因子;称 为回归因变量或响应变量。
若 , , , 是 的一组观测值,那么一元线性回归模型可表示为:
6 26 11 676 121 286
7 13 4 169 16 52
8 38 10 1444 100 380
9 35 9 1225 81 315
10 40 10 1600 100 400
289 84 9263 792 2624
通过以上计算可以得到家庭食品支出 对家庭收入 的样本回归方程是:
该方程说明,当收入为零时,家庭的食品支出也必须有2.1056元。这部分的支出可看作是基本支出或固定支出水平;在一定的范围内,收入每增加100元,食品支出就增加21.78元。
相关文档
最新文档