关于一元线性回归的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于一元线性回归的研究
一、摘要
随着社会的进步,科学技术的发展,地理科学专业越来越与人们的生活息息相关,并且运用到科学研究中去,包括计量地理学的许多科学研究方法。
计量地理学中的回归分析方法是最为基本的定量分析工具,很多表面看来好像与回归分析无关、并且好像难以解决的数学方法,可以通过回归分析方法的到简明的解释。回归被用于研究可以测量的变量之间的关系。线性回归则被用于研究特殊的关系,即可用直线或多维的直线描述的关系。
严格讲,回归分析方法就是处理变量之间具有相关关系的一种数理统计方法。在各种回归分析方法中,一元线性回归方法最为基本。所以一元线性回归方法很是受到人们的亲耐,并且得到广泛的运用,甚至可以说是被用于几乎是所有的研究领域,当然其中包括工学、物理、生物、科技、经济和人文科学等等。但是回归分析方法也存在着一定的局限性,它对数据的处理是一大难题,且一般的社会工作者不太可能也没有必要对数理统计有深入的了解。但是通过回归分析方法,我们可以更好地理解因子分析、判别分析、自回归分析、功率谱分析、小波分析、神经网络分析、其他等等。可以通过建立回归分析与因子分析、判别分析、时间序列分析、灰色系统的预测分析等的数学联系。通过熟练掌握这一分析方法,也将有助于其他数学工具的学习。
关键词:一元线性回归方法最小二乘法
二、引言
研究一个变量(因变量)对于一个或多个其他变量(解释变量)的数量依存关系。其目的在于根据已知的解释变量的数值来估计或预测因变量的总体平均值。分析因变量与解释变量之间的统计依赖关系,目的在于通过后者的已知或设定值去估计或预测前者的均值。(前一个变量被称为被解释变量或应变量,后一个(些)变量被称为解释变量或自变量。)
回归分析方法的主要内容可以概括为以下三点:(1)先从一组地理数据出发,然后确定这些要素和变量之间的定量数学表达式,也就是我们所说的回归模型(2)根据一个或者几个要素(自变量)的值来预测或者控制令一个要素(因变量)的取值(3)从影响某一地理过程中的许多要素中,找出哪一些要素和变量是主要的,而哪一些要素是次要的,以及这些要素之间又存在一些什么关系。
回归分析的基本步骤如下:(1) 首先画出两个变量的散点图。(2) 然后求回归直线方程。(3)最后用回归直线方程进行预报。
回归分析方法所研究的地理数学模型,根据要素和变量可以分为一元地理回归模型和多元地理回归模型两种。而一元地理回归方法所要处理的问题,就是要解决两个要素和变量之间的定量关系。当然,两个要素和变量之间的数量关系,有可能是线性关系,也有可能是非线性关系。由此就产生了一个很重要的问题,即如何正确地分析与判断各要素之间的关系是线性回归模型还是非线性回归模型,如何正确地分析与判断在非线性回归模型中曲线又属于哪种模型。所以,应该首先判定回归方程的类型,然后才能正确地求出回归模型的参数。不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变
量(解释变量):前者是随机变量,后者不是。
三、关于一元线性回归模型的建立
一元线性回归分析的主要步骤:1、建立回归模型,研究某一经济现象,先根据经济理论,选择具有因果关系的两个变量(Y,X),建立线性回归模型,确定解释变量和被解释变量。如果不明确两个变量是否为线性关系,也可以根据散点图来分析。建立回归模型可以是根据经济理论,也可以根据相同或相似经济现象的历史分析经验来建立回归模型。建立模型时,不仅要考虑理论或经验的依据,同时也要考虑数据的可利用程度。2、收集数据,并经过适当的加工整理,得到适于回归分析的样本数据集。3、估计模型参数。利用样本数据,以OLS得到模型参数的估计值。4、对回归模型和参数估计值进行检验。检验回归结果是否正确反映经济现象,是否与理论相符。包括理论检验和统计检验。经济理论检验:参数的符号,大小是否与理论和实际相符。若不符,寻找原因(数据?模型设定?理论错误?)统计检验:拟和优度检验,估计量、回归方程的显著性检验。
5、预测:对于解释变量的特定值,带入回归方程得到因变量的预测值;在给定的置信水平上,得到因变量预测值的置信区间。
假设有两个要素(变量)x和y。x为自变量,y为因变量。x可以表示降雨量、蒸发量、土壤中的无机质或有机质含量、地理纬度、地理经度等,y可以是河川径流量、土壤含水量等。由此可以假定一元线性模型结构为y=A+Bx+E (1-1),在式子中,A、B为待定参数,E为随机变量。参数A、B一般总是未知的,但是可以通过最小二乘法估算。最小二乘估计OLS的性质(高斯- 马尔柯夫定理)在所有线性无偏估计量中,OLS估计量有最小方差,即OLS是BLUE (Best Linear Unbiased Estimator)。1.线性性 2.无偏性3.最小方差性建立一元线性地理回归模型,就是用已有的地理数据来确定a和b的值。现在以杭州市月平均气温x(c)和月平均降水量y(mm)为例,列成表计算如下:
编号x y x^2 y^2 x*y
1 4.5 7
2 20.25 5184 324
2 6.5 85 42.25 7225 552.5
3 10 125 100 15625 1250
4 16.
5 127 272.25 16129 2095.5
5 21 157 441 24649 3297
6 25 211 625 44521 5275
7 29 147 841 21609 4263
8 29 148 841 21904 4292
9 24.5 150 600.25 22500 3675
10 19 78 361 6084 1482
11 13 61 169 3721 793
12 7 51 49 2601 357
合计205 1412 4362 191752 27656
(1)将列表中的x、y、x^2、y^2、x*y的合计值和n值分别代入公式,经过计算之后便可以得到回归系数b。
b = (x*y的求和—x的求和*y的求和/n) / (x*x的求和—x的求和的平方/n) = (27656—205*1412/12) / (4362—205*205/12) = 3534.33 / 859.92 = 4.11
(2)将表中的x的平均值和y的平均值代入公式中,经过计算后便可以得到常数a。
a = y的平均值—b*x的平均值= 117.67 —(4.11*17.08) = 47.47