第15章第1节极值与最小二乘法
关于多元函数的极值和最值计算
关于多元函数的极值和最值计算多元函数的极值和最值计算是高等数学中的重要部分,它涉及到多元函数的极大值和极小值的求解以及在给定区域内的最大值和最小值的确定。
在这篇文章中,我们将详细介绍多元函数的极值和最值计算的方法和步骤。
首先,让我们来了解一下多元函数的概念。
在高等数学中,一个多元函数是指具有多个变量的函数,它通常被表示为f(x1,x2,...,xn),其中x1,x2,...,xn是变量,f是一个函数。
多元函数与一元函数不同,它的输入变量不再是一个实数,而是多个实数。
因此,多元函数的求解方法也与一元函数有所不同。
下面我们将分别介绍多元函数的极大值和极小值的求解方法。
首先是多元函数的极大值和极小值的求解。
要求解多元函数的极大值和极小值,我们需要找到函数的驻点(即导数等于零的点)以及临界点(即定义域的边界点)。
第一步是计算多元函数的偏导数。
在多元函数中,我们根据变量的个数来计算偏导数。
例如,对于一个两个变量的函数f(x1,x2),我们需要计算f对x1的偏导数∂f/∂x1和f对x2的偏导数∂f/∂x2第二步是找到偏导数为零的点。
我们将得到一个方程组,其中每个方程都是一个偏导数等于零的方程。
通过求解这个方程组,我们可以找到多元函数的驻点。
第三步是找到临界点。
临界点是指函数定义域的边界点。
我们需要判断多元函数在这些边界点是否存在极值。
为此,我们可以计算函数在边界点处的取值,并与其他驻点的函数值进行比较。
通过这些步骤,我们可以确定多元函数的极大值和极小值。
接下来,让我们介绍多元函数在给定区域内的最大值和最小值的确定方法。
要确定多元函数在给定区域内的最大值和最小值,我们需要利用拉格朗日乘数法。
首先,确定给定区域的边界条件。
给定区域可以是一个封闭区域,也可以是一个开放区域。
第一步是通过拉格朗日乘数法构建一个方程。
这个方程的形式是多元函数加上一个或多个约束条件的等式。
拉格朗日乘子是用来考虑约束条件对函数极值的影响的。
线性参数的最小二乘法处理
W1、 +1″, +10″, +1″, +12″,
W2、 +6″, +4″,
W3、
W4„
Wn
+2″ , -3″ , +4″ +12″, +4″ +3″, +4″
+12″, +12″, +12″
W12
2
12
W22
2 2
W32
32
最小值
3
即 ∑(PW2)=(P1W21)+(P2W22)+(P3W32)
的测量结果 yi 最接近真值,最为可靠,即: yi=∠i+Wi 由于改正数 Wi 的二次方之和为最小,因此称为最小二乘法。 二 最小二乘法理 现在我们来证明一下,最小二乘法和概率论中最大似然方法(算术平均值方法) 是一致的。 (一)等精度测量时 (1)最大似然方法 设 x1,x2„xn 为某量 x 的等精度测量列,且服从正态分布,现以最大似然法和最小 二乘法分别求其最或是值(未知量的最佳估计量) 在概率论的大数定律与中心极限定理那一章我们讲过,随着测量次数的增加,测 量值的算术平均值也稳定于一个常数,即
2 i 1
n
曾给出: vi2
i 1
n
n n 1 n 2 ,由此可知 x vi2 / i2 为最小,这就是最小二乘法的基本 i n i 1 i 1
含义。引入权的符号 P ,最小二乘法可以写成下列形式:
Pv
i 1
n
2 i i
最小
在等精度测量中, 1 2 ... , P1 P2 ... Pn 即: 最小二乘法可以写成下列形式:
最小二乘法简介PPT课件
在实际问题中,σi2通常是未知的,当自 变量水平以系统的形式变化时,取 ωi=1/xi2
-
15
5.3 WLS模型
加权后的最小二乘估计模型为:
n
s (i yi a bxi)2 i 1
令 s 0, s 0 a b
n
n
n
xi
y
-
i
xi
yi
i1
i1
i1
n
n
i1
x
2 i
-
n
i1
xi
2
-
a
=
1 n
n
y
-
i
i1
b n
n
xi
i1
8
2、多元性拟合
设变量y与n个变量x1,x2,…,xn(n≥1)内在联系是
线性的,即有y=a0+∑ajxj(j=1,...,n)。
m
n
s (yi a0 a j xij)2
i 1
j 1
令 s 0, s 0 a0 a j
s
a
0
m
2
yi
i1
a0
n
a
j xij
j 1
0
s a1
2
m
i1
yi
a0
n
j 1
a
j
x ij
x
i1
0
s
a
n
m
2
yi
a0
n
a
j xij
x
i
n
i1
j 1
0
- a0,a1,,am的值9
第十五章极值和条件极值(精)
( 3)若 H 0 ,则 f 在点 (x0 , y0 ) 没有极值;
( 4)若 H 0 ,则须进一步判断。
例 3:求 z xy(1 x y ) (a 0, b 0) 的极值。 ab
例 4:求 z
3axy
3
x
3
y 的极值。
多元函数的最大(小)值问题
设函数 f ( x, y) 在某一有界闭区域 D 中连续且可导,必在 D 上达到最大(小)值。若
统称为极值,极大点和极小点统称为极值点。
定义 2: 设 D 是 R2 内的一个区域, x0 , y0 是 D 的一个内点,如果
f x0 , y0 0 , f x0, y0 0 ,
x
y
则称 x0, y0 是 f 的一个驻点。
根据费玛定理,可知
龙岩学院数计院
第 2页 共 3页
定理 1: 二元函数的极值点必为 f
这样的点 M 0 位于区域内部,则在这点显然函数有极大(小)值。因此,在这种情形函数取
到最大(小)值的点必是极值点之一。然而函数
f ( x, y) 的最大(小)值最可能在区域的边
界上达到。因此,为找出函数 z f ( x, y) 在区域 D 上的最大(小)值,必须找出一切有极
值的内点, 算出这些点的函数值,再与区域边界上的函数值相比较,这些数值中最大数
法,求系数 a, b, c 所满足的三元一次方程组。
龙岩学院数计院
f x, y f x0 , y0 则称函数 f ( x, y) 在点 M 0 取到极大值, 点 M 0 x0, y0 称为函数的极大点, 若在 M 0 x0, y0
的邻域内成立不等式
f x, y f x0 , y0
则称函数 f ( x, y) 在点 M 0 取到极小值, 点 M 0 x0 , y0 称为函数的极小点。 极大值和极小值
高等数学课件最小二乘法标准版资料
wéi)均对方本误题差(bě, ntí)均方误差
1 7
M
0.124
它在一定程度上反映了经验函数的好坏. O
t
2021/10/3
同济(tónɡ jì)版高等数学课件
第六页,共10页。
例2. 在研究某单分子(fēnzǐ)化学反应速度时, 得到下列数据:
i 1 2 3 4 5 6 78 i 3 6 9 12 15 18 21 24 yi 57.6 41.9 31.0 22.7 16.6 12.2 8.9 6.5
2021/10/3
Y a X b (线性函数)
同济(tónɡ jì)版高等数学课件
第七页,共10页。
因此(yīncǐ) a , b 应满足法
方程组:8
8
8
2 k
a
k
b
k
ln
yk
k 1
k 1
k 1
8
8
k a
k 1
8b
ln yk
k 1
y
经计算(jìsuà1n)8得36 a 108b 280.994 108a 8b 23.714
经计算(jìs令(据ugàn)u得:ānxicè)数xi1 xi , yi yi1 yi (i 1, 2,, n)
同济(tónɡ jì)版高等数学课件
yi 其中 表示从实验(shíyàn)开始算起的时间, (1) 若 定值 其中 表示从实验(shíyàn)开始算起的时间,
, 则考虑 y a x b 同济(tónɡ jì)版高等数学课件
特别, 当数据点分布近似一条(yī 线时,
使 y ax b 满足:
n
tiáo)直
问题(wèntí)为确 定 a, b
大学高等数学_15方向导数与梯度_极值与最值_二元泰勒公式_最小二乘法和习题讲解
指向函数增大的方向.
机动 目录 上页 下页 返回 结束
3. 梯度的基本运算公式
(2) grad (C u ) C grad u (4) grad ( u v ) u grad v v grad u
机动
目录
上页
下页
返回
结束
例4.
处矢径 r 的模 , 试证
y
o
P
x 2 1
60 17
机动 目录 上页 下页 返回 结束
例3. 设 n 是曲面 指向外侧的法向量, 求函数
方向 n 的方向导数. 解:
在点 P(1, 1, 1 )处
在点P 处沿
n (4 x , 6 y , 2 z ) P 2(2 , 3 , 1) 2 3 1 方向余弦为 cos , cos , cos 14 14 14 u 6x 6 而 2 2 x P z 6x 8 y P 14
cos
f l M l grad f M l
6 arccos 130
2. P73 题 16
u n 2 x0 2 y0 2 z0 2 x0 2 2 y0 2 2 z0 2 a b c x0 2 y0 2 z0 2 2 4 4 4 a b c
解: 向量 l 的方向余弦为
u l
P
2 2x yz 14
3 x y 14
2
机动
目录
上页
下页
返回
结束
例2. 求函数
朝 x 增大方向的方向导数.
在点P(2, 3)沿曲线
解:将已知曲线用参数方程表示为 x x y x2 1 它在点 P 的切向量为 (1, 2 x) x 2 (1, 4) 1 4 cos , cos 17 17
最小二乘法的基本原理和多项式拟合
最小二乘法的基本原理和多项式拟合Document number:NOCG-YUNOO-BUYTT-UU986-1986UT最小二乘法的基本原理和多项式拟合一最小二乘法的基本原理从整体上考虑近似函数同所给数据点 (i=0,1,…,m)误差(i=0,1,…,m)的大小,常用的方法有以下三种:一是误差(i=0,1,…,m)绝对值的最大值,即误差向量的∞—范数;二是误差绝对值的和,即误差向量r的1—范数;三是误差平方和的算术平方根,即误差向量r的2—范数;前两种方法简单、自然,但不便于微分运算,后一种方法相当于考虑 2—范数的平方,因此在曲线拟合中常采用误差平方和来度量误差 (i=0,1,…,m)的整体大小。
数据拟合的具体作法是:对给定数据 (i=0,1,…,m),在取定的函数类中,求,使误差(i=0,1,…,m)的平方和最小,即=从几何意义上讲,就是寻求与给定点 (i=0,1,…,m)的距离平方和为最小的曲线(图6-1)。
函数称为拟合函数或最小二乘解,求拟合函数的方法称为曲线拟合的最小二乘法。
在曲线拟合中,函数类可有不同的选取方法.6—1二多项式拟合假设给定数据点 (i=0,1,…,m),为所有次数不超过的多项式构成的函数类,现求一,使得(1)当拟合函数为多项式时,称为多项式拟合,满足式(1)的称为最小二乘拟合多项式。
特别地,当n=1时,称为线性拟合或直线拟合。
显然为的多元函数,因此上述问题即为求的极值问题。
由多元函数求极值的必要条件,得(2)即(3)(3)是关于的线性方程组,用矩阵表示为(4)式(3)或式(4)称为正规方程组或法方程组。
可以证明,方程组(4)的系数矩阵是一个对称正定矩阵,故存在唯一解。
从式(4)中解出 (k=0,1,…,n),从而可得多项式(5)可以证明,式(5)中的满足式(1),即为所求的拟合多项式。
我们把称为最小二乘拟合多项式的平方误差,记作由式(2)可得(6)多项式拟合的一般方法可归纳为以下几步:(1) 由已知数据画出函数粗略的图形——散点图,确定拟合多项式的次数n;(2) 列表计算和;(3) 写出正规方程组,求出;(4) 写出拟合多项式。
最小二乘法线性详细说明
4
最小二乘法产生的历史
最小二乘法最早称为回归分析法。由著名的英 国生物学家、统计学家道尔顿(F.Gallton)— —达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域的研究。 他研究父亲们的身高与儿子们的身高之间的关 系时,建立了回归分析法。
5
父亲的身高与儿子的身高之间关系的研究
27
〔例题〕
用伏安法测电阻,测量数据如表。问能否拟 合成线性关系曲线?若可以,试判断有无粗 差并计算出b, a, a , b . 表一
Xu(V)
YI(mA) Xu(V)
0.00
0.00 6.00
1.00
2.00 7.00
2.00
4.01 8.00
3.00
6.05 9.00
4.00
7.85 10.00
1889年F.Gallton和他的朋友K.Pearson收集了 上千个家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系 的具体表现形式 下图是根据1078个家庭的调查所作的散点图 (略图)
6
从图上虽可看出,个子高的父亲确有生出个子高的 儿子的倾向,同样地,个子低的父亲确有生出个子 低的儿子的倾向。得到的具体规律如下:
vi i 1 2 yi a bxi a 4 n vi 2 i 1 2 yi a bxi xi b
2
n
15
令④等于零,得:
yi na b xi 0 i1 i1 5 n n n yixi a xi b xi 2 0 i1 i1 i 1 n n
最小二乘法
最小二乘法最小二乘法(Least Squares Method)是一种统计学上常用的参数估计方法,通过最小化观测数据与理论模型之间的误差的平方和,来估计模型的参数。
在统计学和数学中,最小二乘法被广泛应用于曲线拟合、回归分析、数据处理以及信号处理等领域。
最小二乘法的基本思想是,通过找到可以使得各观测数据与理论模型预测的数据之间的差异最小的参数估计值,从而得到最佳的拟合结果。
它是一种数学上比较成熟且有效的方法,可以用来解决具有一定误差的线性和非线性函数拟合问题。
在应用最小二乘法时,首先需要建立数学模型来描述观测数据与自变量之间的关系。
这个数学模型可以是线性的,也可以是非线性的,根据实际问题的特点来确定。
然后,根据观测数据和数学模型,利用最小二乘法的原理来求解模型的参数估计值。
最小二乘法的基本步骤如下:1. 建立数学模型:通过分析问题的背景和要求,确定观测数据与自变量之间的关系,并建立数学模型。
2. 确定误差函数:定义误差函数,它是观测数据与数学模型之间的差异度量。
3. 最小化误差函数:通过最小化误差函数,即求解误差函数的导数为0的参数估计值,来得到最佳的模型拟合结果。
4. 评估拟合结果:通过各种统计指标和图示分析来评估最小二乘拟合的效果,并对结果进行解释和验证。
最小二乘法的优点在于它是一种数学上比较简单和直观的方法,并且在实际应用中得到了广泛的应用。
它能够充分考虑观测数据的误差,通过最小化误差的平方和来估计模型的参数,从而得到较为可靠的拟合结果。
最小二乘法的应用非常广泛,涵盖了许多学科领域,如物理学、经济学、工程学、生物学和地球科学等。
在曲线拟合中,最小二乘法可以用来拟合直线、曲线和曲面等;在回归分析中,最小二乘法可以用来建立回归模型,并进行参数估计和显著性检验;在数据处理中,最小二乘法可以用来进行信号滤波和数据平滑等。
总之,最小二乘法是一种重要的数学和统计方法,在许多实际问题中起着重要的作用。
它不仅可以用来拟合曲线和回归分析,还可以应用于信号处理、数据处理和参数估计等领域。
第15章第1节极值与最小二乘法
记 H AC B2
对于二次型Kf Ax2 2Bxy Cy2,
8
§15.1. 极值与最小二乘法 利用高等代数的知识,得到下面的结论。
(1)H 0, A 0,取到极大值; (2)H 0, A 0,取到极小值; (3)H 0, 无极值; (4)待定.
9
§15.1. 极值与最小二乘法 求函数 z f ( x, y) 极值的一般步骤:
求x和倾角,使槽的梯形截面的面积最大?
解
x
x
x
x
24厘米
24 2x
槽的梯形截面面积为 (建立函数关系)
S( x, ) 1 [(24 2x) (24 2x 2x cos )] x sin
2
(24 2x x cos ) x sin
24x sin 2x2 sin x2 sin cos
所求的关系式为
T 2x.
22
C f yy (0,0) 0. AC B2 9 0. 因此,驻点 (0, 0) 不是极值点.
11
§15.1. 极值与最小二乘法
在 (1, 1) 处,
A f xx(1,1) 6 0, B f xy (1,1) 3, C f yy (1,1) 6. AC B2 6 6 (3)2 27 0.
第一步 解方程组 f x ( x, y) 0, f y ( x, y) 0 求出所有驻点.
第二步 对于每一个驻点( x0 , y0 ), 求出二阶偏导数的值 A、B、C.
第三步 定出 AC B2的符号,再判定是否是极值.
10
§15.1. 极值与最小二乘法
例4 求函数 f ( x, y) x3 y3 3xy 的极值。
x 8厘米, 600
最小二乘法的历史回顾与现状
收稿日期: 1997-12-30第15卷第1期1998年5月 中国科学院研究生院学报Jour nal of Graduate Schoo l,Academia Sinica V o l.15 N o.1M ay 1998最小二乘法的历史回顾与现状陈希孺 院士(本院数学教学部)摘 要 对最小二乘法的意义、发现经过及与之有关的高斯正态误差理论的发展情况,作了简要论述;对这个方法在应用上的意义、理论上的进展以及与之相关的一些数理统计学问题,也作了概括性的介绍.关键词 最小二乘法,线性统计模型,M 估计1 最小二乘法的定义假定在研究一个问题时,从某种理论或假定出发,得到了一个模型.根据这个模型,我们感兴趣的某个量有其理论值,同时我们可以对这个量进行实际观测,而得出其观测值.由于种种原因——例如模型不完全正确以及观测有误差等,理论值与观测值会有差距,这差距的平方和H = (理论值-观测值)2(1)可以作为理论与实测符合程度的度量.(1)式中的求和是针对若干次不同的观测,通常,理论值中包含有未知参数(或参数向量)θ.最小二乘法(Least Squa res Method,以下简记为LSE)要求选择这样的θ值θ ,使H 达到最小.因此,LSE 的直接意义,是作为一种估计未知参数的方法.举一个简单例子.设有一个未知量θ,对它作了n 次测量,分别得出x 1,…,x n .在此,理论值是θ,观测值为x i ,(1)式定义的H =H (θ)= n i =1(x i -θ)2,使H (θ)达到最小的θ值为θ =(x 1+…+x n )/n =x -.因此,按LSE 应取各次观察值的平均值x -去估计θ.这就是常用的取算术平均的方法从LSE 角度的解释.本例中最小值为H (θ )= n i =1(x i -x -)2,其大小可以作为测量精度(因而x -这个估计的精度)的一种指标:此值愈大,表示测量的精度愈小,因而x -的精度也愈小.但还要注意一个情况,有可能各次测量很接近,但都有系统偏差.比方说,一架天平没有调好,1g 的东西,秤出来总在1.1g 左右.因此,以H (θ )之值去衡量测量精度(因而估计精度)有一个条件,即测量没有系统误差,在数理统计上把这称为无偏性(unbiasedness ).如果以e 记测量的随机误差,则无偏性的统计表述是Ee =0,E 是所谓数学期望.直观上说,就是在多次测量之下,正负偏差都可能出现并在概率意义上相互抵消.当这个条件满足时,H (θ )确实可以作为刻划估计精度的指标,具体如何做,在数理统计学中有仔细介绍,此处不多说了.在统计上使用LSE 时,一般都要假定这种无偏性成立,当然,在实际操作中要保证这个条件,需要细心地做好有关的工作,以消除系统误差可能的来源.举一个稍复杂一点的例子.设有两个相关的量x ,y (例如人的身高、体重),对之进行n 次观测,得(x i ,y i ),i =1,…,n .在直角坐标系中,这些点大体上沿一条直线分布,因此有一定理由4图1把这问题的理论模型设定为直线y =θ1+θ2x .按这个模型,在x i 处y 的理论值应为θ1+θ2x i ,而实际观测结果为y i .因此,对本问题,(1)式定义的H 为H (θ1,θ2)= ni =1(y i -θ1-θ2x i )2,利用求极值的方法不难确定使H 达到最小的值θ 1和θ 2,它们是θ 1=y --θ 2x -,θ 2= ni =1(x i -x -)y i / n i =1(x i -x -)2.所定出的直线y =θ 1+θ 2x 与观测点{(x i ,y i ),1≤i ≤n }的拟合程度如何,可由最小值H (θ1,θ 2)刻划,此值愈大,表示点群的直线趋势并不强.此处看来没有涉及观测误差的问题,其实不然,很可能有这样的情况:原本x ,y 之间有直线关系(例如说)y =2x+1,但由于对x ,y 的观测有系统误差,从图上看,点群可能仍是聚集在一条直线附近,但这条直线与正确的直线y =2x +1偏离很远.当然,即使没有系统误差,但由于测量有随机误差,由LSE 所决定的直线y =θ 1+θ 2x 仍会与正确的直线y =θ1+θ2x i 有差距.但这种差距一般说比较小,且当观测次数n 较大时会很小.而系统误差存在时差距会较大,且不随测量次数的增加而降低.此例还值得注意的一点是:虽说x ,y 都是被观测的量,但在我们用LSE 去处理时,其地位不同,表现在理论值与观测值的偏差是以y 值为准而不以x 值为准.形式上,我们也可以倒过来,即以x 值为准来计偏差.这时用LSE 所拟合的直线,与刚才以y 为准所得者会不同.这个现象乍看似乎有些难于理解,但从统计学角度看是完全自然的,此处不详加说明.在统计上,把此处的x 叫做“解释变量”或“自变量”,而y 叫做“目标变量”或“因变量”.偏差以目标变量为准.在实用上,何者取为解释变量或目标变量,并非完全任意的,要看问题的性质而定.当x ,y 分别有“因”和“果”的含义时,一般总是取y 为目标变量.这个例子在统计学上称为“一元线性回归”.一元,指模型中只有一个自变量x ,它很容易推广到多个自变量的情况y =θ0+θ1x 1+…+θk x k ,其中x 1,…,x k 是自变量,叫“多元线性回归”.局限于这种线性情况,LSE 在计算上只涉及解线性方程组,因而不难实施.由于这个原因,加上高斯的正态误差理论,二者结合构成了应用统计中最强有力的方法,涵盖了应用统计中许多重要的分支,故有的统计学家把LSE 在统计学中的地位,比作微积分在数学中的地位.当然,LSE 也可用于非线性模型等一些更复杂的模型,但在计算上比较繁重,其统计理论也更为复杂.2 发现的历史在介绍了LSE 的基本概念后,我们来稍稍谈一下这个方法产生的历史过程.可以说,LSE 源于天文学和测地学上的应用需要.在早期数理统计方法的发展中,这两门科学起了很大的作用,故丹麦统计学家霍尔把它们称为“数理统计学的母亲”.5 1998年陈希孺:最小二乘法的历史回顾与现状5月 第15卷中国科学院研究生院学报第1期这种应用的一般模式,实际上就是我们上节讲到的多元线性回归,只是在解释上有所不同(从严格的统计理论观点上说,二者有很大的不同,但在应用上一般不加区别).假定在某个问题中,有一些不能或不易观测的量θ1,…,θk,另有一些容易观测的量x0,x1,…,x k,按理论(例如牛顿力学理论),它们应有严格的线性关系x0+x1θ1+…+x kθk=0(2)问题归结为:要根据(x0,x1,…,x k)的观测数据(x0i.…,x ki), i=1,…,n(3)去估计θ1,…,θk,它们被视为模型中的参数,按(2)式,由(3)中的观测值(x\-0i,…,x ki)将得出方程x0i+x1iθ1+…+x kiθk=0, i=1,…,n(4)共有n个方程.但是,由于观测有误差以及理论并非完全确切,代替(4)式实际上是x0i+x1iθ1+…+x kiθk=X i, 1≤i≤n(5)其中X1,…,X n为随机误差,这里要求n≥k,即观测次数应不少于未知参数,否则无法估计.如果误差不存在,即(4)式确切成立,那么问题好办,只须从(4)中的n个方程挑出k个,形成联立线性方程组,解出来即得到θ1,…,θk,的确切值.但因误差存在,我们实际上有的是(5).在这种情况下,如果仍沿用误差为0时的作法,即挑出k个方程去求解,则将得出一个低效率的解,因为没有把n个观测结果都利用上.这一点可以从本文开始那个简单例子中清楚看到:对一未知值θ作了n次测量得x1,…,x n,如果毫无误差,将得到n个方程x1-θ=0, x2-θ=0,…, x n-θ=0,(6)实际情况为x1-θ=X1,…,x n-θ=X n.如果只挑出一个方程,例如x1-θ=0,去求解,将得θ= x1,即只用第一个观测值x1去估计θ,其余皆弃之不用.这显然是很大的浪费.LSE的作法是相当于把(6)中n个方程相加,得n i=1x i-nθ=0,解出θ=x-.因此,问题在于怎样充分利用全部的观测结果(3),以期得到一个效率更高的估计.这个问题曾困扰了18世纪的一些学者,包括像欧拉和拉普拉斯这样的伟大数学家.例如,梅耶(J.T.Mayer)在1750年由确定地球上一点的经度问题,引出形如(4)(其实是(5))的一组方程,其中n=27而k= 3.梅耶把这27个方程分成3组,每组9个,将各组方程相加得出一个方程,这样共得到3个方程,可以解出θ1,θ2,θ3.这个方法在18世纪下半叶曾很为流行,但由于分组的方法无定规可循,在应用上不方便,因为不同的分组方法可得出差异很大的解.又如,欧拉(L.Euler)在1749年研究木星对土星轨道的影响时,得到n=75和k=8的一组方程.拉普拉斯也研究过这同一问题,得到n=24和k=4的一组方程.他们处理这个问题的方法与梅耶相似,即要设法从全部n个方程中构造出k个方程,以便解出θ1,…,θk.但他们的做法比梅耶更缺乏规则性,因而不能为解决这类问题指出一个一般的途径.现行的LSE是勒让德(A.M.Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的.该书有80页,包含8页附录,LSE就包含在这个附录中.勒让德之所以能作出这个发现,是因为他没有因袭前人的想法——要设法构造出k个方程去求解.他认识到关键不在于使某一方程严格符合,而在于要使误差以一种更平衡的方式分配到各个方程.具体地说,他寻求这样的θ值,使(5)式各误差的平方和,即n i=1(x i0+x i1θ1+…+x ikθk)2,达到最小.为什么取平方,而不取绝对值、四次方或其他函数?这就只能从计算的观点来解释了——至少在勒让德时代,不可能知道从统计学的角度看,选择平方这个函数有何优点,这方面的研究是那以后很久的事情.6图2 c 为子午线上一点;l 2为过该点的切线;l 1过c 指向天顶;h 为l 1、l 2的夹角,即c 点处的纬度;a 点的纬度比b 点高1°,且c 是a b 弧的中点虽然勒让德在1805年以前很久,就因天文学上的问题而遇到(5)式这样的方程组,但看来他并不是在与这些问题打交道时,才发现了LSE,因为在其上述著作正文中,他基本上没有提到这个方法.他发现这个方法,可能是在他参加的一项测地学工作中,即从1792年开始持续了10余年的量测过巴黎子午线之长的工作(当时把1米定义为此线长的4000万分之一).这个工作所用的模型,是根据地球略微有些椭性这个事实.如图2,由椭圆方程出发,根据地球椭性甚小而略去高次项,不难证明下面的近似公式:l (h )=θ1+θ2sin 2h ,式中h 为c 点的纬度,l (h )为子午线上以c 为中心1度的弧长,θ1,θ2为参数.若记x 0=-l (h ),x 1=1,x 2=sin 2h ,则上式成为x 0+x 1θ1+x 2θ2=0,即有(4)式的形状.在这项工作中,共在5个位置处测定了其纬度h 和l (h ),从而可用LSE 解出θ1和θ2的估值θ 1和θ 2,然后子午线的全长可用360l(45°)去估计之.从一种“事后诸葛亮”的眼光,我们现在看起来会觉得这个方法似乎平淡无奇,甚至是理所当然的.这正说明了创造性思维之可贵和不易.从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困难.欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功.除了在思想上囿于“解方程”这一思维定势之外,也许还因为,这是一个实用性质的问题而非纯数学问题.解决这种问题,需要一种植根于实用而非纯数学精确性的思维.例如,按数学理论,容器以做成球形最省,但基于实际以至美学上的原因,在现实中有各种形状的容器存在.总之,从LSE 发现的历史中,使我们对纯数学和应用数学思维之间的差别,多少有一些启示.3 高斯的正态误差理论勒让德在其著作中,对LSE 的优点有所阐述.然而,到此为止,这个方法仍有其不足之处,即它纯是一个计算方法,缺少误差分析.我们不知道,使用这个方法引起的误差如何,因此也就无法知道,除了若干表面上的优点(例如计算上方便)之外,LSE 还有何深层次的优点.要研究这些问题,就需建立一种误差分析理论.从(5)式显然看到,误差X i 的大小对θi 的估计有重大影响,X i 的概率性质决定了θi 估计的统计性质.因此,要对X i 的概率性质给予适当的描述,这一点是德国大数学家高斯(C.F.Gauss)的功绩.早在17世纪,伽利略在其名著《关于两个世界的对话——托雷密与哥白尼》(1632)中,就讨论了随机误差及其分布的问题.虽然他并未提出这个名词,但他提出了随机误差的分布曲线应有图3的形状:f 关于0对称(即f (-X )=f (X ),这表示正负误差有同等出现的机会),f 在两边单调地衰减至0,即大误差出现的机会较小,很大误差的机会几乎为0.以后的学者在研究7 1998年陈希孺:最小二乘法的历史回顾与现状5月 图3a 是误差大小;f (a )是a 这样的误差发生的概率,或更确切地说,f (a )与这个概率成比例.图4误差理论时,多遵循这个出发点.但满足这种性质的函数很多,如何决定出一个具体形式是一个困难问题.最早接触这个问题的是辛普森(T .Simpso n ).1755年,他为了回答“算术平均优于一次观测”这个问题,考虑了图4那种三角形误差曲线.他用n =6的特例,通过计算证明了P (| 6i =1X i /6|<d )>P (|X 1|<d ), d >0这里X 1,…,X 6是6次观测的误差.上述不等式表明:算术平均的误差取小值的机会,比一次观测误差取小值的机会大,因而在这个意义上证明了取平均的优越性.以后拉格朗日(J .L .La-g rang e )考虑过f (X )=p 2-X 2(|X |≤p )和f (X )=co s X (|X |≤π/2)的形状,但在这个问题上用力最多的是拉普拉斯.他的出发点是要为函数f 规定一些应当满足的条件,以据此确定f .例如,他考虑的一种条件是,当X >0时,f (X )下降,f ′(X )也下降.他要求二者保持常数比例,这样定出f 有如下的形式:f (X )=m 2ex p(-m |X |), m >0为参数.这个分布如今在概率论中很有名,叫拉普拉斯分布.然而,用之作为误差分布却很不成功.拉普拉斯曾用它去分析3次观测的算术平均的误差,结果导致很复杂的分析问题,更一般的情况就不用说了.拉普拉斯后来还根据其他的考虑提出过另外的误差曲线的形式,也很不成功.现在轮到高斯,他不从单纯“把f 作为一个函数而要设法找出一些条件去决定它”这个思维定势出发,而是径直假定这样的“公理”:在多次观测中取平均是天然合理的.由此出发,再配合他的“极大似然”的想法(见下.极大似然的概念最初源出于此,但作为一个估计参数的一般方法提出来,应归功于费歇尔(R.A.Fisher)1912年的工作,很容易决定出f 应有f (X )=12πeexp -X 22e 2的形式.这就是概率论中最重要、最著名的正态分布,又称高斯分布.根据这个分布,按(5)式,(X1,…,X n )的联合密度为L =(2π)-n /2e -n ex p -12e2 n i =1(x 0i +x 1i θ1+…+x ki θk )2为要使L 达到最大(即极大似然),必须使n i =1(x 0i +x 1i θ1+…+x ki θk )2达到最小,从而引出LSE .当然,高斯理论的意义,并不在于给LSE 这样一个形式上的推证.其8 第15卷中国科学院研究生院学报第1期 1998年陈希孺:最小二乘法的历史回顾与现状5月意义在于:(1)无论从实际与理论(见下)看,正态误差是合理的选择;(2)在正态误差下,有一套严格简洁的小样本理论(其发展是本世纪的事),因而大大提高了LSE在实用上的方便和广泛性.可以说,没有高斯的正态误差理论配合,LSE的意义和重要性可能还不到其现今所具有的十分之一.LSE方法与高斯误差理论的结合,是数理统计史上最重大的成就之一,其影响直到今日也尚未过时.高斯的上述理论发表于其1809年的著作《关于绕日行星运动的理论》中.在此书中,他把LSE称为“我们的方法”,并声称他自1799年以来就使用这个方法,由此爆发了一场与勒让德的优先权之争.近代学者经过对原始文献的研究,认为两人可能是独立发明了这个方法,但首先见于书面形式的,以勒让德为早.然而,现今教科书和著作中,多把这个发明权归功于高斯.其原因,除了高斯有更大的名气外,主要可能是因为其正态误差理论对这个方法的重要意义.在德国10马克的钞票上有高斯像,并配了一条正态曲线.在高斯众多伟大的数学成就中挑选了这一条,亦可见这一成就对世界文明的影响.在高斯发表其1809年著作之前,约在1780年左右,拉普拉斯已发现了概率论中的“中心极限定理”.根据这个定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态.测量误差正具有这种性质.一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加.因此,中心极限定理给误差的正态性提供了一种合理的理论解释.这一点对高斯理论的圆满化很有意义,因为高斯原来的假定(平均数天然合理)总难免给人一种不自然的感觉.耐人寻味的是,无论是中心极限定理的发明者拉普拉斯,还是早就了解这一结果的高斯,都没有从这个结果的启示中去考察误差分布问题.对前者而言,可能是出于思维定势的束缚,这对拉普拉斯来说可算不幸,他因此失掉了把这个重要分布冠以自己名字的机会(正态分布这个形式最早是狄莫弗(De M oiv re)1730年在研究二项概率的近似计算时得出的.以后也有其他学者使用过,但都没有被冠以他们的名字.高斯之所以获得这一殊荣,无疑是因为他把正态分布与误差理论联系了起来).4 应用和理论的拓展美国统计史学家斯蒂格勒(S.M.Stig ler)指出,LSE是19世纪数理统计学的压倒一切的主题.1815年时,这方法已成为法国、意大利和普鲁士在天文和测地学中的标准工具,到1825年时已在英国普遍使用.他指出,一个方法得到如此迅速的推广和接受,在科学方法的历史上鲜有类似的例子.这中间最重大的事情莫过于以下两件:(1)19世纪后期,约在1874~1890年之间,英国学者高尔顿(F.Galto n)从遗传现象的研究发现了相关回归,但高尔顿不善长数学,未能把有关的统计概念用确切的数学形式表达出来.这后一步工作稍后由英国统计学家皮尔逊(K.Pea rson)和约尔(U.Yule)所完成.结果显示:有关的计算完全是LSE的一种应用;(2)自1923年起,英国统计学家因分析农业试验的需要而发明了方差分析法.这方法的大意是:设y1,…,y n是一批通过试验或观测而得的数据,它们各各不同,在统计学上用T=n i=1(y i-y-)2去刻划这批数据变异的程度,称为总(变差)平方和.而y1,…,y n之所以有不同,除随机误差外,还可能因为受到一些系统性因素的影响.例如几块试验地上小麦亩产不同,可能由于使用的种子品种不同,所施肥料种类和数量不同等.试验的目的正在于考察这些因素对目标变量影响的有无及大小.方差分析法通过把总平方和分解为一些部分:T=Q1+…+Q R+E,每个Q i9 第15卷中国科学院研究生院学报第1期及E都是数据y1,…,y n的非负定二次型,使得Q i值的大小反映系统因素i的影响之大小,而E则反映随机误差影响之大小.这种分解式,从概念到计算,完全是基于LSE.目前相关回归方差分析及其他一些与LSE有密切关系的统计方法,仍占据了应用统计方法武库中的主导地位,因而LSE对数理统计学关系之重大,就可想而知了.至于LSE在理论上的进展,主要是本世纪的事情,且基本上是在线性统计模型的框架下.这种模型有形状Y i=x T i U+e i, 1≤i≤n(6)这里x1,x2,…是已知的p维向量,U是未知的p维参数向量,Y i是目标变量的观测值,而e i为随机误差.这个模型,随着x i取值性质的不同,包含了前述相关回归和方差分析等几个主要的统计分支.所取得的成就大略可分为三个方面:一是正态小样本理论,即假定e1,…,e n独立并各有正态分布N(0,e2).在这个情况下,发展了完善的抽样分布理论,可据以进行小样本统计推断,与应用的关系最直接;二是n固定时的代数(矩阵)理论,这个理论可以说发端于高斯,其特点是不对误差的分布作特定的假定.高斯于1823年在误差e1,…,e n独立同分布的假定下,证明了LSE的一个最优性质:在U的一切线性估计类中,在无偏的前提下,LSE是其中方差最小者.这个结果经过本世纪初马尔科夫的推广,称为高斯-马尔科夫定理,是模型(6)中LSE理论的基本定理.代数理论主要以矩阵方法为工具,沿着这个基本定理的线索向前发展,也涉及误差方差的二次型估计问题,LSE在线性估计类中的可容许性问题等.目前这方面的工作仍未终结;三是大样本理论,即有关在样本量n很大(在数学上是n→∞)时,LSE的渐近性质的研究.这种研究,除了在理论上有揭示LSE的深层次性质的意义外,还有其应用上的重要意义.因为在e1,…,e n不是正态分布时,有关统计量的分布定不出来,因而无法进行确切的统计推断.大样本理论提供了一个近似,可以在样本量n足够大时使用.目前这方面的理论已发展到很精深的程度,但还存在一些没有解决的困难问题.5 由改进最小二乘法所引起的研究自19世纪初至本世纪中叶,可以说LSE统治了应用统计的多数领域,这一点到目前可以说仍基本成立.但近几十年来,LSE的统治地位已开始有所动摇,其原因有内在和外在的.内在的原因是,应用上的经验及理论研究表明:LSE有一些缺憾,在有些情况下表现不好;外在的原因是,其他方法的研究有了重大进展,尤其是快速计算机的应用,使一些以往由于计算困难而无法使用的方法,如今也得以使用.因此LSE已不再是唯一可能的选择.先说前者.考虑模型(6),若记S=n i=1x i x T i,这是一个p阶方阵,则U的LSE可表为U= S-1n i=1x i y i.在有些情况下方阵S呈病态或接近退化,这时S-1的数值计算的精度很差.理论研究也表明,这时LSE的均方误差可以很大.针对这种情况及其他问题,统计学者提出了一些对策.它们仍是以LSE为基础,但作一些调整.例如由霍尔(A.E.Hoerl)和肯纳德(R.W.Kennard)在1970年提出的岭估计(Ridge Es-timate),用U(k)=(S+k I)-1n i=1x i y i取代LSE U去估计U,这里k>0而I为p阶单位阵.这样做的目的,是在S上加上k I后,降低其病态性.关于这个估计有不少研究,例如如何决定k 以及这个估计的性质如何.除此以外,学者们还提出了压缩估计、主成份估计、特征根估计等,都是基于LSE,但对它有所修改.10LSE缺憾的深层次原因,在于它选用了平方这个函数去衡量偏差,因而加大了数据中异常值(outlier)破坏性的影响.所谓异常值,是指由于系统性原因及人为错误而使某一数据严重失真.例如某一数据本是2.473,由于小数点位置记错而写成24.73,为对付这个问题,统计学家研究了发现数据中异常值的方法,以便在计算前将其剔除.但是,除了最简单的模型以外,有效的方法不容易作出,于是就想到用另外更根本的措施,即用其他方法取代LSE.或者说,用增长较慢的函数去取代平方,以压低异常值的影响,这就是所谓稳健(Robust)方法.这些方法中,最重要的一个要推最小一乘法,即用绝对值去取代平方来衡量偏差.例如,对一个未知量θ测量n次得x1,…,x n.按最小一乘法,应当找θ,使表达式ni=1|x i-θ|达到最小.不难证明,这个θ就是x1,…,x n按大小居于正中的那一个(n为奇数时),或是居于正中那两个的算术平均(n为偶数时),这个量称为x1,…,x n的样本中位数.如果数据中有个别异常值,它对算术平均的影响可能很大,但对样本中位数可能没有影响,或影响不大.这就是稳健性的含义:一个统计方法受到其少量异常值的影响愈小,则其稳健性愈好.从历史上说,最小一乘法的提出比LSE更早:它是波斯科维奇(R.J.Boscovitch)于1755年在处理一个测地学问题时提出的.他的问题相应于(5)式中的k=2,提出的极值准则是ni=1X i=0, ni=1|X i|最小.(7)他用一种几何的考虑解决了这个问题,但对更多的参数无能为力,后来人们废弃了(7)式中的前一条件.由于计算上的困难,这方法后来没有得到重视.直到本世纪50年代,发现了用线性规划求解最小一乘的方法.计算机的出现,理论研究上的突破,以及它在某些领域,特别是计量经济应用上的良好表现,这个方法日益受到应用者的重视.到1964年,统计学家休伯(P.J.Huber)推广了这个概念,提出在估计一个未知值的情况下,用一个特别选定的函数d取代平方:设对一个未知量θ作了n次测量得到x1,…,x n,则用使表达式n i=1d(x i-θ)达到最小的θ值去估计θ.d一般是一个偶函数,在正实轴上增加,增加的速度比平方为慢.一般说,增加愈慢,解的稳健性愈好.但稳健性有时是以牺牲效率为代价的,在实用上需要在这二者之间求得折衷.到1973年,休伯又把这个方法用于(6)式所定义的线性统计模型.这类估计在统计学上总称为M估计,是近若干年来统计研究的前沿和热点之一,目前在大样本理论方面已取得了不少深入的成果.istorical Backgrounds and Present State of the Least Squares MethodChen Xiru(The Gra duate School at B eijin g,University of Science and Tec h nology of China,B eijin g 100039)Abstract This paper gives a brief acco unt of the history of develo pment of Least Squares M ethods and Gaussian no rm al-error theo ry.A brief surv ey is also giv en fo r the prac-tical applications,theoretical dev elopments of the Least Squares Methods,and so me to pic in m ethematical sta tistics rela ted to this m ethod.Key words least squares method,linear statistical m odel,M-estimation11 1998年陈希孺:最小二乘法的历史回顾与现状5月。
高一数学最小二乘估计北师大版知识精讲
高一数学最小二乘估计北师大版【本讲教育信息】一、教学内容:最小二乘估计二、学习目标1. 知道最小二乘法的思想.2. 能根据给出的线性回归方程系数公式建立线性回归方程.三、知识要点1. 怎样的拟合直线最好?——与所有点都近,即与所有点的距离之和最小。
2. 刻画样本点()i i y x ,与直线y=a+bx 之间的“距离”——[]2)(i i bx a y +-思考:①这个“距离”与点到直线的距离有什么关系? 很显然,这个式值越小,则样本点与直线间的距离越小。
②为什么不直接利用点到直线的距离来刻画样本点与直线之间的距离关系?),(i i bx a x +bx a y +=),(i i y x3. 最小二乘法 如果有n 个点:(x 1,y 1),(x 2,y 2),(x 3,y 3),……,(x n ,y n ),我们用下面的表达式来刻画这些点与直线y=a+bx 的接近程度:()[]()[]()[]2n n 222211bx a y bx a y bx a y +-+⋯⋯++-++-。
使得上式达到最小值的直线y=a+bx 就是我们所要求解的直线,这种方法称为最小二乘法。
4. 线性回归方程 bx a y +=,其中22n 2221n n 22112n 2221n n 2211xn x x x yx n y x y x y x )x x ()x x ()x x ()y y )(x x ()y y )(x x ()y y )(x x (b -+⋯⋯++-+⋯⋯++=-+⋯⋯+-+---+⋯⋯+--+--=xb y a )x x()y x yx (n1i 22in1i ii-=--=∑∑== 这个直线方程bx a y +=称为线性回归方程,a ,b 是线性回归方程的系数(回归系数)。
四、考点解析与典型例题考点一 推导2个样本点的线性回归方程 例1. 设有两个点A (x 1,y 1),B (x 2,y 2),用最小二乘法推导其线性回归方程并进行分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
§15.1. 极值与最小二乘法
即边界上的值为零.
z( 1 , 1 ) 1 , 2 2 2 z ( 1 , 1 ) 1 , 2 2 2
所以最大值为 1 ,最小值为 1 . 2 2
无条件极值:对自变量除了限制在定义域内以外, 并无其他条件.
17
§15.1. 极值与最小二乘法
18
§15.1. 极值与最小二乘法
问题归结为 4 x sin 2 x sin cos 0 x S 24 x cos 2 x 2 cos x 2 sin 2 x 2 cos 2 0
存在M 0 x0 , y0 的一个邻域,使得在这个邻域内, f 的符号与Kf 的符号相同.
记 H AC B 2
对于二次型Kf Ax 2 2Bxy C y 2,
9
§15.1. 极值与最小二乘法
利用高等代数的知识,得到下面的结论。
(1)H 0, A 0, 取到极大值; (2)H 0, A 0, 取到极小值; (3)H 0, 无极值; (4)待定.
11
§15.1. 极值与最小二乘法
3 3 f ( x , y ) x y 3 xy 的极值。 例4 求函数
解
f x ( x, y ) 3 x 2 3 y,
f y ( x, y) 3 y 2 3 x.
2 x y, 2 y x.
2 3 x 3 y 0, 求解方程组: 2 3 y 3 x 0. 得驻点 (0, 0), (1, 1).
(0, 0) 不是极值点.
12
§15.1. 极值与最小二乘法
在 (1, 1) 处, A f xx (1,1) 6 0,
B f xy (1,1) 3, C f yy (1,1) 6.
AC B 2 6 6 ( 3)2 27 0.
因此,驻点
(1, 1) 是极小值点.
4
§15.1. 极值与最小二乘法
仿照一元函数,凡能使一阶偏导数同时为零的点, 均称为函数的驻点. 注意: 偏导数存在的极值点
例如,点(0, 0) 是函数 z xy 的驻点,
驻点
z x y, z x (0,0) 0;
z y x , z y (0,0) 0.
但点 (0, 0) 不是极值点.
简单介绍一种找直线型经验公式的方法.
设测得一组数据为 x1 , T1 , x2 , T2 , ..., xn , Tn , 找t ax b 用 1=T1 ax1 b, 2=T2 ax2 b, , n=Tn axn bn ,
表示与t=ax+b的偏差, 这些偏差的平方和叫做总偏差, 记为 ,即
,
则称函数在 ( x0 , y0 )有极大值;
f ( x , y ) f ( x 0 , y0 ) ,
则称函数在 ( x0 , y0 )有极小值;
极大值、极小值统称为极值.
使函数取得极值的点称为极值点.
1
§15.1. 极值与最小二乘法
例1 函数 z 3 x 2 4 y 2 (1)
在 (0,0) 处有极小值.
解 令
( x 2 y 2 1) 2 x ( x y ) zx 0, 2 2 2 ( x y 1) ( x 2 y 2 1) 2 y( x y ) zy 0, 2 2 2 ( x y 1)
得驻点 ( 1 , 1 ) 和 ( 1 , 1 ) , 2 2 2 2 x y 0 (求边界点处函数值) 因为 lim 2 2 x x y 1
f x ( x 0 , y0 ) 0 ,
f y ( x 0 , y0 ) 0 .
证明
不妨设 z f ( x , y ) 在点 ( x0 , y0 )处有极大值,
则对于 ( x0 , y0 )的某邻域内任意
( x , y ) ( x0 , y0 )
都有
f x, y f x0 , y0
f xx ( x , y ) 6 x ,
f xy ( x , y ) 3,
f yy ( x , y ) 6 y .
在 (0, 0) 处, A f xx (0,0) 0, B f xy (0,0) 3,
C f yy (0,0) 0.
因此,驻点
AC B 2 9 0.
推广:如果三元函数 u f ( x , y , z ) 在点 P ( x0 , y0 , z0 ) 具有偏导数,则它在 P ( x0 , y0 , z0 ) 有极值的必 要条件为
f x ( x 0 , y0 , z 0 ) 0 ,
f y ( x 0 , y0 , z 0 ) 0 , f z ( x 0 , y0 , z 0 ) 0 .
21
§15.1. 极值与最小二乘法
有了a, b, 就可以确定最小二乘关系式 T ax b
注:最小二乘法主要用在生产实践中。
22
§15.1. 极值与最小二乘法
10
§15.1. 极值与最小二乘法
求函数 z f ( x , y ) 极值的一般步骤:
第一步 解方程组
f x ( x , y ) 0,
f y ( x, y) 0
求出所有驻点.
第二步 对于每一个驻点( x0 , y0 ),
求出二阶偏导数的值 A、B、C.
第三步 定出 AC B 2 的符号,再判定是否是极值.
f yy x0 x, y0 y C
且当x 0, y 0时, 0, 0, 0
1 1 2 2 f ( Ax 2 Bxy C y ) (x 2 2xy y 2 ) 2 2
当Kf Ax 2 2Bxy C y 2 0时,
7
§15.1. 极值与最小二乘法
设f x, y 在点 x0 , y0 取到极值,则
f f x0 x , y0 y f x0 , y0
1 ( f x 2 x0 x , y0 y x 2 2 f xy x0 x , y0 y xy 2 f yy x0 x , y0 y y 2 )
n n 2 n n Ti xi xi xiTi i 1 i 1 i 1 i 1 b 2 n n 2 n xi xi i 1 i 1
例6 有一块薄铁皮,宽24厘米,把两边折起,做成一槽, 求x和倾角,使槽的梯形截面的面积最大?
解
x
24厘米
x
x
24 2 x
x
槽的梯形截面面积为 (建立函数关系)
1 S ( x , ) [(24 2 x ) (24 2 x 2 x cos )] x sin 2 (24 2 x x cos ) x sin 24 x sin 2 x 2 sin x 2 sin cos
解方程组,得符合题意的唯一一组稳定点 x 8,
由于在这个问题中,最大值必达到,因此当
3
x 8厘米, 600
时,槽的梯形截面积最大,这时截面积为
3 S 96 48 3 83 厘米2 2
19
§15.1. 极值与最小二乘法 二、最小二乘法
根据实际测量得到的数据找函数关系(经验公式)的方法.
A f x 2 x0 , y0 , B f xy x0 , y0 , C f y 2 x0 , y0 ,
则
f xx x0 x, y0 y A
f xy x0 x, y0 y B
8
§15.1. 极值与最小二乘法
定理2 : 极值点必为驻点或至少有 一个偏导数不存在的点.
6
§15.1. 极值与最小二乘法
定理 3 (充分条件) : 设函数 z f ( x , y ) 在点 ( x0 , y0 ) 的某邻域内连续,有一阶及二阶连续偏导数,又
f x ( x 0 , y0 ) 0 ,
f y ( x 0 , y0 ) 0 , f xy ( x0 , y0 ) B ,
故当 y y0 , x x0 时, 有
f x, y0 f x0 , y0 .
3
§15.1. 极值与最小二乘法
说明一元函数 f ( x , y0 ) 在 x x0 处有极大值,
必有
类似地可证
f x ( x 0 , y0 ) 0 ;
f y ( x 0 , y0 ) 0 .
令
f xx ( x0 , y0 ) A,
f yy ( x0 , y0 ) C ,则
(1) AC B 2 0 时具有极值,且 当 A 0 时有极大值, 当 A 0 时有极小值; (2) AC B 2 0 时没有极值; (3) AC B 2 0 时可能有极值,也可能没有极值, 还需另作讨论.
极小值 f (1,1) 13 13 3 1 1 1.
13
§15.1. 极值与最小二乘法
与一元函数类似,可能的极值点除了驻点之外,
偏导数不存在的点也可能是极值点。 例如,函数
z
x2 y2
在(0, 0) 处取得极小值. 但函数在(0, 0) 处偏导数
不存在。
14
§15.1. 极值与最小二乘法 3、多元函数的最值
=f(a,b)= Ti axi b
i 1
n
2
选择适当的a和b使总偏差最小.
20
§15.1. 极值与最小二乘法
由极值的必要条件, 令