回归与插值型逼近算法的比较分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数[4 ]。
212 最小二乘法
对 给定的一组数据 (x i, y i) ( i= 0, 1, …, m ) , 要求 在 函数类 5 = sp an (Υ0, Υ1, …, Υn ) 中找一个函数 y = S 3 (x ) , 使误差的平方和满足:
m
∑ ‖ ∆‖22 = W (x i ) [ S 3 ( x i ) i= 0
describe da ta to so lve the p rob lem 1T he in terpo la tion a lgo rithm in som e w ay describe the rela tion sh ip betw een the da ta po in ts,
ca rrying ou t h igh2o rder in terpo la tion w ou ld app ea r incon sisten t w ith the o rigina l function of the p henom enon; the regression
1 插值与回归
111 插 值 使用插值函数是函数逼近的一种主要方法, 它是
数值积分、微分方程数值解等数值计算的基础工具。插 值法的基本思想和方法[1]: 已知函数 y = f (x ) 在[ a, b ] 上 n + 1 个点 x 0, x 1, …, x n 的函数值 y = f (x i) , i= 0, 1, …, n, 设法建立一个函数 u (x ) , 使 u (x i) = y (x i) , 以 u (x ) 替代 f (x )。 其中, u (x ) 为 f (x ) 的插值函数, x i ( i= 0, 1, 2, …, n) 为结点。不等距节点适用拉格朗日 插值多项式和牛顿差商型插值多项式; 等距节点的条
(Υ0, Υ0)
(Υ0, Υ1) … (Υ0, Υm )
awk.baidu.com
3 0
(y , Υ0)
(Υ1, Υ0)
(Υ1, Υ1) … (Υ1, Υm )
a
3 1
(y , Υ1)
…=
(Υm , Υ0) (Υm , Υ1) … (Υm , Υm ) am3
(y , Υm )
21212 多元线性回归
多元线性回归是一元线性回归的直接推广, 其包
能反映实际函数数学特性。
【关键词】插值, 回归, 拟合, 线性相关
中图分类号: T P301
文献标识码: A
ABSTRACT Engineering app lica tion s, the in terpo la tion and regression (cu rve fitting ) function exp ression u sua lly a re u sed to
2 拉格朗日插值与最小二乘法
211 拉格朗日 (Lagrange) 插值多项式 利用基本插值多项式容易得出满足插值条件的 n
3 2010204225 收到, 2010206218 改回 3 3 基金项目: 河南省教育厅科技计划项目 (2009B 520025)。 3 3 3 郭 振, 男, 1978 年生, 硕士, 讲师, 研究方向: 模式识别。
a
3 0
(y , Υ0)
a
3 1
(y , Υ1)
…=
(5)
am3
(y , Υm )
式
(5)
称 为 正 规 方 程 组,
它 是 关 于 {Υk
(x
)
}m k=
0的
m+
1阶线性方程组。求出
a
3 k
的值, 代入式 (3) , 得到所
求拟合函数。
由内积的性质知 (Υi, Υk ) = (Υk , Υi) , 因而方程组 (5) 的系数矩阵是对称的[7], 也可写为:
·2· (总 594)
回归与插值型逼近算法的比较分析
2010 年
次插值多项式[3 ]:
n
∑ P n (x ) = li (x ) y i
(1)
i= 0
事实上, 由于每个基本插值多项式 li (x ) 都是 n 次
多项式, P (x ) 的次数不超过 n。 根据 lk (x 0) = 0, …, lk
i= 0
i= 0
n x- xj j= 0 x i- x j y i
j≠i
由于基本插值多项式 l0 (x ) , l1 (x ) , …, ln (x ) 是线
性无关的, n 次插值多项式 L n (x ) 可线性表示, 因此又
称 l0 (x ) , l1 (x ) , …, ln (x ) 为 n 次拉格朗日插值基函
(x k- 1) = 0, lk ( x k ) = 1, lk ( x k+ 1 ) = 0, …, lk ( x n ) = 0,
P n (x ) 是满 足 插 值 条 件 的 n 次 插 值 多 项 式, 记 为 L n
(x ) :
∑ ∑ ∏ n
n
L n (x ) = li (x ) y j=
[S (x i) - y i ]2
m
∑ y i ]2 =
m in
S ∈5
W
i= 0
(x i)
S (x ) = a0Υ0 (x ) + a1Υ1 (x ) + …+ anΥn (x ) , (n≤m ) ,
W (x ) 是[ a, b ]上的权函数, 点 (x i, y i) 处的权W (x i) 表
示该点数据的权重[5]。 最小二乘法是离散情形的最佳
平方逼近, 即:
m
m
∑ ∑ (f (x i) - Υ3 (x i) ) 2= m in (f (x i) -
i= 0
i= 0
21211 一元回归最小二乘法[6, 9, 12 ]
Υ(x i) ) 2
设 x 1, x 2, …, x n 为互不相同的点, 存在不全为零 的常数使得: c0, c1, …, cm 使得: c0Υ0 (x j ) + c1Υ1 (x j ) + … + cm Υm (x j ) = 0 ( j = 0, 1, 2, …, n ) , 则称 Υ0 (x ) , Υ1 (x ) , …, Υn (x ) (关于点 x 1, x 2, …, x n) 是线性相关的, 否则为 线性无关。
n
∑ a
3 i
=
y iΥk (x j ) , (k = 0, 1, …,
j= 1
(4)
用内积记号表达方程组 (4) 为:
(Υ0, Υ0) (Υ1, Υ0) … (Υm - 1, Υ0) (Υm , Υ0)
(Υ0, Υ1) (Υ1, Υ1) … (Υm - 1, Υ1) (Υm , Υ1)
(Υ0, Υm ) (Υ1, Υm ) … (Υm - 1, Υm ) (Υm , Υm )
给定数据 (x j , y j ) , j = 1, 2, …, n, 拟合函数 p (x ) = a0Υ0 (x ) + a1Υ1 (x ) + …+ am Υm (x ) (2)
{Υk
(x
)
}m k=
0为已知的线性无关函数,
求得系数
a
3 0
,
a
3 1
,
…,
am3
,
使:
n
∑ Υ(a0, a1, …, am ) =
含一个因变量或两个以上自变量[8]。若因变量 Y 与解
释变量 X 1, X 2, X 3, X 4, …之间具有线性关系, 则它们 之间的线性回归模型可表示为: Y = b0 + b1x 1 + b2x 2 + …+ bkx k + u , 其中 u 为随机扰动项观测值[10 ]。
3 算例分析
对 于 给 定 区 间 [ 0, 10 ] 上 的 函 数 f ( x ) =
件下, 利用牛顿差分型插值多项式计算简单。由于高次 插值多项式的效果并非一定比低次插值好, 所以当区 间较大、节点较多时, 常用分段低次插值, 比如分段线 性插值、分段二次插值。 112 回归
变量之间的关系一般来说分为定性与非定性。 定 性关系是指变量之间的关系可以用函数关系来表达 的; 非定性的关系即相关关系, 不能用完全确切的函数 表达, 但在平均意义下有一定的定量关系表达式, 寻找 这种定量关系表达式就是回归算法分析的主要任 务[2]。 曲线拟合的一个重要目的就是从自变量估计因 变量, 这个估计的过程也称为回归。 设随机变量 Y (因 变量) 与自变量 X (一般变量) 存在着相关关系, 作为一 种近似转而去研究 Y 的数学期望 E (Y ) = U (X ) 与 X 的 确定性关系, 这里 U (X ) 叫做 Y 关于 X 的回归函 数[3]。 函数逼近方法在工程技术中被广泛地应用。
郭 振 刘宏兵
(信阳师范学院计算机与信息技术学院 河南信阳 464000)
【摘 要】工程应用中通常用插值和回归 (曲线拟合) 解决函数表达式描述数据的问题。插值算法以某种方法描
述数据点之间的关系, 在进行高次插值时会出现与原函数不一致的现象; 回归算法设法找出某条光滑曲线, 让
它最佳地拟合数据, 但不能保证经过每个数据点。 通过算例对插值和回归算法进行比较分析, 得到拟合曲线更
第 23 卷 第 8 期
电脑开发与应用
(总 593) ·1·
文章编号: 100325850 (2010) 0820001203
回归与插值型逼近算法的比较分析3
Com par ison and Ana lys is of the Regress ion and
In terpola tion Approx ima te A lgor ithm
a lgo rithm try to find a certa in sm oo th cu rve so tha t it best fits the da ta, bu t can no t en su re tha t after each da ta po in t1 In th is
p ap er, T h rough the exam p le of the in terpo la tion and regression a lgo rithm com p a ra tive ana lysis, the resu lting fitting cu rve to better
项式 (二次型) , 用多元函数求极值的方法求出最小值。
将 Υ对 ak 求偏导数, 驻点方程组如下:
∑ ∑ n
55aΥk =
2 j= 1
m
a
3 i
Υi (x
j)
-
yj
Υk (x j ) = 0, (k = 0, 1, …,
i= 0
m)
m
∑
i= 0
m)
n
∑Υi (x j ) Υk (x j )
j= 1
电脑开发与应用
(总 595) ·3·
( x i) li (x ) , 其中 f
(x i) =
sinx i
x i; li (x ) =
20
Ц
x
-
- x j= 0
j≠i
i
xj , 计
xj
算结果如图 1 所示。
用L 20 (x ) 近似代替 f (x ) 时, 当 x 在区间 [ 0, 10 ],
逼近程度较好, 在其他区间误差相对较大, 特别在端点
[p (x j) - y j ]2=
j= 1
∑ ∑ n
m
ak Υk (x j ) - y j 2
j= 1 k= 0
m
∑ p 3 (x ) =
a
3 k
Υk
(x
)
(3)
k= 0
式 (3) 为拟合函数的经验公式[1]。
Υ(a0, a1, …, am ) 为 a0, a1, …, am 的 m + 1 元二次多
1 sinx x
x x
=0 ≠0,
取
20
个不等距节点,
分别用拉格朗
日插值和与最小二乘法求出 f (x ) 的近似表达式。
311 拉格朗日插值实现
构造区间[ 0, 10 ]上以 015 为步长的 21 个等距节
20
∑ 点 作为插值节点, 拉格朗日公式记为 L 20 (x ) = f i= 0
第 23 卷 第 8 期
reflect the actua l function of m a them a tica l p rop erties1 KEYWO RD S in terpo la tion, regression, fitting, L inea r
生产实践及科学实验中, 经常要研究变量之间的 函数关系, 但通常难找到具体的函数表达式, 往往只能 通过观察或测量, 获得一组实验数据 (x i, y i) ( i= 1, 2, …, m ) , 不可避免地带有测试误差。比如个别点上误差 较大时, 会影响逼近函数的精度, 无法进一步准确分析 函数的数学特性。为了提高计算精度, 设法通过这组实 验数据求出一个简单函数 P (x j ) = y j ( j = 0, 1, …, n ) , 构造出更能反映特性的逼近函数, 其偏差按某种方法 度量达到最小。