计算方法第五章最小二乘逼近ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的系数是下述极小值问题的解:
m
minS(a0,a1,...,an): (p(xk)yk)2 k1 m (a0a1xk...anxknyk)2. k1
则 称 p(x)a0a1x...anxn为 给 定 数 据 的 n次 最 小 二 乘 拟 合 多 项 式 或 最 佳 平 方 逼 近 多 项 式 , 也 称 p(x) 为 变 量 x和 y 之 间 的 经 验 公 式 或 数 学 模 型 。 给 定 的 数 据 也 称 为 拟 合 数 16据 。
称为正规方程组。可表示为
km1xkn
i0m
x n1 k
m
...
xk2n
k1
k 1
k 1
a0 a1
an
m
yk
k 1 m
yk xk
k 1
m
17 yk xkn
因此可以认为强度 y与拉伸倍数 x的主 要关系应是线性关 系
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
9
10
F(x)01x
其中 0,1为待定参9 数
我 们 不 要 求 y F ( x ) 经 过 所 有 点 ( x i,y i) , 而 只 要 求 F ( x )0 1 x
与 所 有 的 数 据 点 ( 样 本 点 )( x i,y i)越 接 近 越 好 。
必须找到一种度量标准来衡量什么曲线最接近所有数据点!
令 iF (xi)yi,
在回归分析中称为残差
记(1 ,2,...,m )T.
通 常 使 用 某 种 范 数 作 为 衡 量 F ( x ) 与 数 据 点 ( x i,y i) 偏 离 程 度 大 小 的 度 量 标 准 , 即 要 求 向 量 按 某 种 范 数 取 最 小 。
k 1
例5.1.4 解
用二次多项式函数拟合如下数据:
xi -3 -2 -1 0
1
2
3
yi
4
2
3
0
-1 -2 -5
m =7.
约定
7
,
直接计算有:
i1
xi0 , xi22 8 ,
xi30 , xi4 1 9 6 ,
yi1 , xiyi 3 9 , xi2yi 7 .
b
m
m
xk
yk
m
xk
m
k 1
k 1
k 1
m
m
x
2 k
m
2
xk
k 1
k 1
yk
.
x
1 m
m k 1
xk ,
1 m
y m k 1 yk ,
5.5
6.4 6
5.3 6.5
7 8.5
8 8.1 8.1
试确定因变量 y与自变量 x之间的近似表达式。
6
已知一组数据 (xi, yi), yi = f (xi),i = 1,2,…, m。 方法一:插值
构造插值函数φ(x) 来逼近 f (x), 则有
φ(xi) = f (xi) = yi, i = 1,2,…, m。 或记 Q =(φ(x1) , φ(x2) ,…,φ(xm) ), Y = (y1, y2,…,ym),
集 , 则 多 项 式 组 1 , x , . . . , x n 在 X 上 线 性 无 关 。 (2) 正 弦 函 数 组sinx,sin2x,...,sin(n1)x
在 点 集 X={xk=k n,k=1,...,n-1}上 线 性 无 关 。
由 定 义 可 知 : 多 项 式 a 0 a 1 x ... a n x n 可 视 为 由 线 性 无 关 的 函 数 组 1 , x ,...,x ( n称 为 基 函 数 ) 张 成 的 线 性 空 间 s p a n { 1 , x ,...,x n } 中 的 元 素 19 。
定义5.1.1 设 函 数 组 0 (x ),1 (x ),...,n (x )定 义 在 实 数 集 X 上 。
如 果 存 在 不 全 为 零 的 实 数 c 0 ,c 1 ,...,c n , 使 得 c 00 ( x ) c 1 1 ( x ) c n n ( x ) 0 , x X
解 设 p(x) = a + b x, 经计算:
2 1
2 1
2 1
2 1
x i 9 5 6 , y i 3 4 4 , x iy i 1 8 9 1 3 , x i2 6 1 6 4 0 .
i 1
i 1
i 1
i 1
法方程组:
21 956
69 15 66 40b a18 39 41 43,
设 p(x) = a0 + a1x + a2 x2, 形成正规方程组:
m
xi
xi2
xi xi2 xi3
xxxiii423aaa102
yi
xiyi .
xi2yi
18
三、一般最小二乘拟合问题
第五章
最佳逼近
1
2
3
4
5
§1. 离散最小二乘逼近
科学试验、统计分析获得大量数据。
例5.1.1 考察某种纤维的强度与其拉伸倍数的关系,下表是 实际测定的24个纤维样品的强度与相应的拉伸倍数的记录:
± à ź À Éì ± ¶ Êý xi ¿Ç ȶ yi ± à ź
1
1.9
1.4
13
2
,
j 0,1,..., n.
故
或
k i m n 01((km p 1(xxk i kj))a Siy (kk )am x10ky j,k axkj10, ,.0 ..,,ja jn 0 ),0 :1 ,,1.,....k.,m ,n n 1.,(pkmm (1.m.x.x(kk )nkkmm1a1y.xxi..kkkx2 )ki2......y... kk)mkm121..x.xknkn1
k1
要使
m
S2(a,b) [yk(abxk)]2m in, k 1
参数 a 和 b 必须满足
一阶必要条件:
S 2(a,b) a
0,
S
2
(
a
,
b
)
0,
b
S2(a,b)
a
m
2 [(abxk
k1
)
yk
] 0,
即
S2(a,b) b
m
m
(xkmxxi)(yak y)
m
yi
b k1
m i1
xi
km 1iim (11xxki2xb)2
,i1 a y,bx.
m i1
xi
yi
14
例5.1.3 给出21组数据,用线性函数拟合鱼的种类和 鱼的数量的关系,m = 21。
m
m
m
Q (a,b) i2 (xi)yi2 abxiyi2,
i1
i1
i1
即 找 a,b, 使 Q (a,b)达 到 最 小 。
11
一、最小二乘拟合直线
若取 F(x)=a +b x,此时最小二乘逼近称为最小二乘拟合直线
记
m
S2(a,b) [yk(abxk)]2.
常见做法有:
太复杂
不可导,求解困难
( 1 ) 使 残 差 的 最 大 绝 对 值 1 m a k x m |k | | y k F ( x k ) | 达 到 最 小 ;
m
( 2 ) 使 残 差 绝 对 值 的 和 |y k F (x k)|达 到 最 小 ; k 1
( 3 ) 使 残 差 的 平 方 和 m [y k F (x k)]2达 到 最 小 。 称二为乘1逼最0 近小 k 1
2
1.3
14
3
2.1
1.8
15
4
2.5
2.5
16
5
2.7
2.8
17
6
2.7
2.5
18
7
3.5
3
19
8
3.5
2.7
20
9
4
4
21
10
4
3.5
22
11
4.5
4.2
23
12
4.6
3.5
24
À Éì ± ¶ ýÊ xi
5 5.2
6
6.3 6.5 7.1
8 8 8.9 9 9.5 10
¿Ç ȶ yi
5.5 5
一般地,
设 函 数 0 ( x ) ,1 ( x ) , . . . ,n ( x ) 在 X 上 线 性 无 关 , 称
p ( x ) a 00 ( x ) a 11 ( x ) ... a nn ( x )
确定拟合曲线的方法: (1)选择曲线类型; (2)若曲线类型难以确定,画散点图; (3)用多种曲线类型拟合,选择最小二乘法意义下误差最
小的拟合曲线。
例5.1.2 1,2,…, m. 设 φ(x) = a +b x,
求 a,b 使残差的平方和达到最小。记δi = φ(xi)–yi,
则有
Q = Y.
方法二:曲线拟合
如果数据不能同时满足某个特定函数,而要求所求的逼近
函数“最优地”靠近数据点,即向量Q与Y 的误差或距离
最小。按 Q 与Y 的误差最小原则作为最优标准所构造出
的函数,我们称为拟合函数。
拟合和插值都可 构造逼近函数 7
当数据量特别大时一般不用插值法。这是因为数 据量很大时所求插值曲线中的未知参数就很多,而且 数据量很大时,多项式插值会出现高次插值(效果不 理想)或分段低次插值(精度不高);另外,测量数 据本身往往就有误差,所以,使插值曲线刻意经过这 些点也没有必要。
13
解之得
记 则可得
m
x
2 k
m
yk
m
xk
m
xk
yk
a k 1
k 1
k 1
k 1
m
m
x
2 k
m
2
xk
,
k 1
k 1
a b
8.2084 0.1795
p (x ) 8 .2 0 8 4 0 .1 7 9 5 x . 15
二、一般最小二乘拟合多项式
对于离散数据: (xk, yk), k=1,2,…,m, 用 n (n<m) 次多项式来拟 合曲线。设多项式
p(x)a0a1x...anxn
成 立 , 则 称 函 数 组 0 (x ) ,1 (x ) ,...,n (x )在 X 上 线 性 相 关 ; 否 则 , 称 函 数 组 0 (x ) ,1 (x ) ,...,n (x )在 X 上 线 性 无 关 。
例如:( 1 )设 X 为 区 间 [ a ,b ] 或 者 为 至 少 含 有 n 1 个 不 同 实 数 的 点
x bi
i1
iimm2211 kkm m x x11i2i[[((aa babbxxkk))
m
yi
yki]10,
,
ymk]xxk iy0i.
i1
称为正规方程组或法方程组
m
2 [(abxk)yk]xk
k1
0.
12
化简得
ma
m
xk b
m
yk ,
k1
k 1
m
k1
xk
a
m
k1
xk2
b
m k 1
xk yk .
或
m S2(a,b)
a Sm2(a,b)
一阶必要条件: 直接计算易得
S 0, j 0,1,...,n. aj
S
aj
m
2
k 1
(
p(xk
)
yk
)
p(xk aj
)
mn
2 ( ai xki yk )xkj k1 i0
2
n i0
m
(
k 1
xki j )ai
m k 1
yk xkj
拟合曲线的图形为例518在某化学反应里测得生成物浓度y与时间t的数据如下试建立y关于t的经验公式t12345678910111213141516y40064080088092295097098610001020103210421050105510581060的散点图与浓度画出时间双曲线形式都是待定系数其中lnln101214161011lnln即为拟合函数基函数为解法方程组得325最小二乘解为11631无论从图形还是从残差平方和考虑在本例中指数函数拟合比双曲线拟合要好101214161011101214161011101214161011101214161011
而曲线拟合首先根据物理规律或描点画草图确定 一条用来拟合的函数曲线形式,也可选择低次多项式 形式(所含参数比较少),然后按最小二乘法求出该 曲线,它未必经过所有已知点,但它能反映出数据的 基本趋势,且误差最小,效果比较好。
8
纤维强度随拉伸倍 数增加而增加
并且24个点大致分 布在一条直线附近
从一组试验数据中 寻找自变量 x 与因 变量 y之间的函数 关系 y=F(x).
m
minS(a0,a1,...,an): (p(xk)yk)2 k1 m (a0a1xk...anxknyk)2. k1
则 称 p(x)a0a1x...anxn为 给 定 数 据 的 n次 最 小 二 乘 拟 合 多 项 式 或 最 佳 平 方 逼 近 多 项 式 , 也 称 p(x) 为 变 量 x和 y 之 间 的 经 验 公 式 或 数 学 模 型 。 给 定 的 数 据 也 称 为 拟 合 数 16据 。
称为正规方程组。可表示为
km1xkn
i0m
x n1 k
m
...
xk2n
k1
k 1
k 1
a0 a1
an
m
yk
k 1 m
yk xk
k 1
m
17 yk xkn
因此可以认为强度 y与拉伸倍数 x的主 要关系应是线性关 系
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
9
10
F(x)01x
其中 0,1为待定参9 数
我 们 不 要 求 y F ( x ) 经 过 所 有 点 ( x i,y i) , 而 只 要 求 F ( x )0 1 x
与 所 有 的 数 据 点 ( 样 本 点 )( x i,y i)越 接 近 越 好 。
必须找到一种度量标准来衡量什么曲线最接近所有数据点!
令 iF (xi)yi,
在回归分析中称为残差
记(1 ,2,...,m )T.
通 常 使 用 某 种 范 数 作 为 衡 量 F ( x ) 与 数 据 点 ( x i,y i) 偏 离 程 度 大 小 的 度 量 标 准 , 即 要 求 向 量 按 某 种 范 数 取 最 小 。
k 1
例5.1.4 解
用二次多项式函数拟合如下数据:
xi -3 -2 -1 0
1
2
3
yi
4
2
3
0
-1 -2 -5
m =7.
约定
7
,
直接计算有:
i1
xi0 , xi22 8 ,
xi30 , xi4 1 9 6 ,
yi1 , xiyi 3 9 , xi2yi 7 .
b
m
m
xk
yk
m
xk
m
k 1
k 1
k 1
m
m
x
2 k
m
2
xk
k 1
k 1
yk
.
x
1 m
m k 1
xk ,
1 m
y m k 1 yk ,
5.5
6.4 6
5.3 6.5
7 8.5
8 8.1 8.1
试确定因变量 y与自变量 x之间的近似表达式。
6
已知一组数据 (xi, yi), yi = f (xi),i = 1,2,…, m。 方法一:插值
构造插值函数φ(x) 来逼近 f (x), 则有
φ(xi) = f (xi) = yi, i = 1,2,…, m。 或记 Q =(φ(x1) , φ(x2) ,…,φ(xm) ), Y = (y1, y2,…,ym),
集 , 则 多 项 式 组 1 , x , . . . , x n 在 X 上 线 性 无 关 。 (2) 正 弦 函 数 组sinx,sin2x,...,sin(n1)x
在 点 集 X={xk=k n,k=1,...,n-1}上 线 性 无 关 。
由 定 义 可 知 : 多 项 式 a 0 a 1 x ... a n x n 可 视 为 由 线 性 无 关 的 函 数 组 1 , x ,...,x ( n称 为 基 函 数 ) 张 成 的 线 性 空 间 s p a n { 1 , x ,...,x n } 中 的 元 素 19 。
定义5.1.1 设 函 数 组 0 (x ),1 (x ),...,n (x )定 义 在 实 数 集 X 上 。
如 果 存 在 不 全 为 零 的 实 数 c 0 ,c 1 ,...,c n , 使 得 c 00 ( x ) c 1 1 ( x ) c n n ( x ) 0 , x X
解 设 p(x) = a + b x, 经计算:
2 1
2 1
2 1
2 1
x i 9 5 6 , y i 3 4 4 , x iy i 1 8 9 1 3 , x i2 6 1 6 4 0 .
i 1
i 1
i 1
i 1
法方程组:
21 956
69 15 66 40b a18 39 41 43,
设 p(x) = a0 + a1x + a2 x2, 形成正规方程组:
m
xi
xi2
xi xi2 xi3
xxxiii423aaa102
yi
xiyi .
xi2yi
18
三、一般最小二乘拟合问题
第五章
最佳逼近
1
2
3
4
5
§1. 离散最小二乘逼近
科学试验、统计分析获得大量数据。
例5.1.1 考察某种纤维的强度与其拉伸倍数的关系,下表是 实际测定的24个纤维样品的强度与相应的拉伸倍数的记录:
± à ź À Éì ± ¶ Êý xi ¿Ç ȶ yi ± à ź
1
1.9
1.4
13
2
,
j 0,1,..., n.
故
或
k i m n 01((km p 1(xxk i kj))a Siy (kk )am x10ky j,k axkj10, ,.0 ..,,ja jn 0 ),0 :1 ,,1.,....k.,m ,n n 1.,(pkmm (1.m.x.x(kk )nkkmm1a1y.xxi..kkkx2 )ki2......y... kk)mkm121..x.xknkn1
k1
要使
m
S2(a,b) [yk(abxk)]2m in, k 1
参数 a 和 b 必须满足
一阶必要条件:
S 2(a,b) a
0,
S
2
(
a
,
b
)
0,
b
S2(a,b)
a
m
2 [(abxk
k1
)
yk
] 0,
即
S2(a,b) b
m
m
(xkmxxi)(yak y)
m
yi
b k1
m i1
xi
km 1iim (11xxki2xb)2
,i1 a y,bx.
m i1
xi
yi
14
例5.1.3 给出21组数据,用线性函数拟合鱼的种类和 鱼的数量的关系,m = 21。
m
m
m
Q (a,b) i2 (xi)yi2 abxiyi2,
i1
i1
i1
即 找 a,b, 使 Q (a,b)达 到 最 小 。
11
一、最小二乘拟合直线
若取 F(x)=a +b x,此时最小二乘逼近称为最小二乘拟合直线
记
m
S2(a,b) [yk(abxk)]2.
常见做法有:
太复杂
不可导,求解困难
( 1 ) 使 残 差 的 最 大 绝 对 值 1 m a k x m |k | | y k F ( x k ) | 达 到 最 小 ;
m
( 2 ) 使 残 差 绝 对 值 的 和 |y k F (x k)|达 到 最 小 ; k 1
( 3 ) 使 残 差 的 平 方 和 m [y k F (x k)]2达 到 最 小 。 称二为乘1逼最0 近小 k 1
2
1.3
14
3
2.1
1.8
15
4
2.5
2.5
16
5
2.7
2.8
17
6
2.7
2.5
18
7
3.5
3
19
8
3.5
2.7
20
9
4
4
21
10
4
3.5
22
11
4.5
4.2
23
12
4.6
3.5
24
À Éì ± ¶ ýÊ xi
5 5.2
6
6.3 6.5 7.1
8 8 8.9 9 9.5 10
¿Ç ȶ yi
5.5 5
一般地,
设 函 数 0 ( x ) ,1 ( x ) , . . . ,n ( x ) 在 X 上 线 性 无 关 , 称
p ( x ) a 00 ( x ) a 11 ( x ) ... a nn ( x )
确定拟合曲线的方法: (1)选择曲线类型; (2)若曲线类型难以确定,画散点图; (3)用多种曲线类型拟合,选择最小二乘法意义下误差最
小的拟合曲线。
例5.1.2 1,2,…, m. 设 φ(x) = a +b x,
求 a,b 使残差的平方和达到最小。记δi = φ(xi)–yi,
则有
Q = Y.
方法二:曲线拟合
如果数据不能同时满足某个特定函数,而要求所求的逼近
函数“最优地”靠近数据点,即向量Q与Y 的误差或距离
最小。按 Q 与Y 的误差最小原则作为最优标准所构造出
的函数,我们称为拟合函数。
拟合和插值都可 构造逼近函数 7
当数据量特别大时一般不用插值法。这是因为数 据量很大时所求插值曲线中的未知参数就很多,而且 数据量很大时,多项式插值会出现高次插值(效果不 理想)或分段低次插值(精度不高);另外,测量数 据本身往往就有误差,所以,使插值曲线刻意经过这 些点也没有必要。
13
解之得
记 则可得
m
x
2 k
m
yk
m
xk
m
xk
yk
a k 1
k 1
k 1
k 1
m
m
x
2 k
m
2
xk
,
k 1
k 1
a b
8.2084 0.1795
p (x ) 8 .2 0 8 4 0 .1 7 9 5 x . 15
二、一般最小二乘拟合多项式
对于离散数据: (xk, yk), k=1,2,…,m, 用 n (n<m) 次多项式来拟 合曲线。设多项式
p(x)a0a1x...anxn
成 立 , 则 称 函 数 组 0 (x ) ,1 (x ) ,...,n (x )在 X 上 线 性 相 关 ; 否 则 , 称 函 数 组 0 (x ) ,1 (x ) ,...,n (x )在 X 上 线 性 无 关 。
例如:( 1 )设 X 为 区 间 [ a ,b ] 或 者 为 至 少 含 有 n 1 个 不 同 实 数 的 点
x bi
i1
iimm2211 kkm m x x11i2i[[((aa babbxxkk))
m
yi
yki]10,
,
ymk]xxk iy0i.
i1
称为正规方程组或法方程组
m
2 [(abxk)yk]xk
k1
0.
12
化简得
ma
m
xk b
m
yk ,
k1
k 1
m
k1
xk
a
m
k1
xk2
b
m k 1
xk yk .
或
m S2(a,b)
a Sm2(a,b)
一阶必要条件: 直接计算易得
S 0, j 0,1,...,n. aj
S
aj
m
2
k 1
(
p(xk
)
yk
)
p(xk aj
)
mn
2 ( ai xki yk )xkj k1 i0
2
n i0
m
(
k 1
xki j )ai
m k 1
yk xkj
拟合曲线的图形为例518在某化学反应里测得生成物浓度y与时间t的数据如下试建立y关于t的经验公式t12345678910111213141516y40064080088092295097098610001020103210421050105510581060的散点图与浓度画出时间双曲线形式都是待定系数其中lnln101214161011lnln即为拟合函数基函数为解法方程组得325最小二乘解为11631无论从图形还是从残差平方和考虑在本例中指数函数拟合比双曲线拟合要好101214161011101214161011101214161011101214161011
而曲线拟合首先根据物理规律或描点画草图确定 一条用来拟合的函数曲线形式,也可选择低次多项式 形式(所含参数比较少),然后按最小二乘法求出该 曲线,它未必经过所有已知点,但它能反映出数据的 基本趋势,且误差最小,效果比较好。
8
纤维强度随拉伸倍 数增加而增加
并且24个点大致分 布在一条直线附近
从一组试验数据中 寻找自变量 x 与因 变量 y之间的函数 关系 y=F(x).