对比分析最小二乘法与回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对比分析最小二乘法与回归分析
摘要
最小二乘法是在模型确定的情况下对未知参数由观测数据来进行估计,而回归分析则是研究变量间相关关系的统计分析方法。
关键词:最小二乘法回归分析数据估计
目录
摘要 (2)
目录 (3)
一:最小二乘法 (4)
主要内容 (4)
基本原理 (4)
二:回归分析法 (6)
回归分析的主要内容 (6)
回归分析原理 (7)
三:分析与总结 (10)
一:最小二乘法
主要内容
最小二乘法又称最小平方法是一种数学优化技术。它通过定义残差平方和的方式,最小化残差的平方和以求寻找数据的最佳函数匹配,可以从一组测定的数据中寻求变量之间的依赖关系, 这种函数关系称为经验公式.利用最小二乘法可以十分简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
基本原理
考虑超定方程组(超定指未知数大于方程个数):
其中m代表有m个等式,n代表有n个未知数(m>n);将其进行向量化后为:
,
,
显然该方程组一般而言没有解,所以为了选取最合适的让该等式"尽量成立",引入残差平方和函数S
(在统计学中,残差平方和函数可以看成n倍的均方误差当时,
取最小值,记作:
通过对进行微分求最值,可以得到:
如果矩阵非奇异则
有唯一解:
二:回归分析法
回归分析是确定两种或两种以上变量间相互依赖的相关关系的一种统计分析方法。回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,建立不同的回归模型,确立不同的未知参数,之后使用最小二乘法等方法来估计模型中的未知参数,以分析数据间的内在联系。当自变量的个数等于一时称为一元回归,大于1时称为多元回归,当因变量个数大于1时称为多重回归,其次按自变量与因变量之间是否呈线性关系分为线性回归与非线性回归。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,叫一元线性回归。
回归分析的主要内容
①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。
②对这些关系式的可信程度进行检验。
③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量加入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
④利用所求的关系式对某一生产过程进行预测或控制。
回归分析原理
○1在回归分析中自变量),,,(21m x x x x =是影响因变量y 的主要因素,是人们能控制或能观察的,而y 还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作
⎩⎨⎧++++=)
,0(~2110σεεβββN x x y m m 其中σ未知。现得到n 个独立观测数据),,,(1im i i x x y ,m n n i >=,,,1 ,由上式得
⎩⎨⎧=++++=n
i N x x y i i im m i i ,,1),,0(~2110 σεεβββ 记
⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=nm n m x x x x X 111111, ⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=n y y Y 1
T n ][1εεε =,T m ][10ββββ =
表为
⎩⎨⎧+=)
,0(~2σεεβN X Y ○
2参数估计 用最小二乘法估计模型中的参数β。
由这组数据的误差平方和为
∑=--==n
i T i X Y X Y Q 12)()()(ββεβ
求β使)(βQ 最小,得到β的最小二乘估计,记作βˆ,可以推出
Y X X X T T 1)(ˆ-=β
将βˆ代回原模型得到y 的估计值
m
m x x y βββˆˆˆˆ110+++= 而这组数据的拟合值为βˆˆX Y
=,拟合误差Y Y e ˆ-=称为残差,可作为随机误差ε的估计,而
∑∑==-==n i n
i i i i
y y e Q 1122
)ˆ( 为残差平方和(或剩余平方和),即)ˆ(β
Q 。 ○
3 统计分析 不加证明地给出以下结果:
(i )βˆ是β的线性无偏最小方差估计。指的是βˆ是Y 的线性函数;βˆ的期望等于β;在β的线性无偏估计中,βˆ
的方差最小。
(ii )βˆ服从正态分布
))(,(~ˆ12-X X N T σββ
(iii )对残差平方和Q ,2)1(σ--=m n EQ ,且
)1(~22--m n Q
χσ
由此得到2σ的无偏估计
22ˆ1
σ=--=m n Q s 2s 是剩余方差(残差的方差),s 称为剩余标准差。
(iv )对Y 的样本方差∑=-=n
i i y y S 12)(进行分解,有
U Q S +=, ∑=-=n
i i y y
U 12)ˆ( 其中Q 残差平方和,反映随机误差对y 的影响,U 称为回归平方和,反映自变量对y 的影响。
○
4回归模型的假设检验 因变量y 与自变量m x x ,,1 之间是否存在如模型所示的线性关系是需
要检验的,显然,如果所有的|ˆ|j
β ),,1(m j =都很小,y 与m x x ,,1 的线性关系就不明显,所以可令原假设为
),,1(0:0m j H j ==β
当0H 成立时由分解式定义的Q U ,满足
)1,(~)
1/(/----=m n m F m n Q m U F 在显著性水平α下有α-1分位数)1,(1---m n m F α,若)1,(1--<-m n m F F α,接受0H ;否则,拒绝。