多项式与SVM预测模型的理论分析及应用比较

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

建模时, 样本数有限, 甚至很少, 导致回归误差大。
# 即使 当样 本 趋 于 无 穷 多 时, 也无 法 保 证 使 Remp ( ) 最小的 emp 与使 R( ) 最小的 ∃是同一个
点, 也不能保证 R ( emp ) 能够趋近 R( ∃) 。
一元多项式模型在解决回归问题时, 常见的
问题就是过学习, 即虽然训练误差最小却不能保 证好的预测效果, 有时训练误差过小反而导致推
!i , !i* &0 为引进的临时变量。求解方程在 , b,
i,
* i
处的极小值并根据
KKT
条件可得
SVM

归算法为
n
f (x) = T x+ b=
( ∀i - ∀i * ) ( x i T x ) + b =
i= 1
n
( ∀i * - ∀i ) ( x i T x ) + b
( 7)
x i ( S Vs
Mercer 条件的核函数 k( x i , x j ) = #( x i ) T #( x j ) 来
简化非线性逼近, 使得函数逼近求解绕过特征空 间, 直接在输入空间上求取, 从而避免了计算非线
性映射。可得回归算法为
n
f ( x) = T #(x ) + b = ( ∀i - ∀i* ) k(x i , x) + b =
1 多项式回归模型
多项式回归模型的数学表达式为 f ( ) = a0 + a1 x + a2 x 2 + + an x n ( 1) 其中, = ( a0 , a1 , , an ) , 建立模型就是选择最
收稿日期: 2007 09 21; 修改日期: 2007 11 21 基金项目: 国家自然科学基金资助项目( 70672096) 作者简介: 孙 林( 1976- ) , 男, 安徽含山人, 合肥工业大学博士生;
本文根据年发电量时间序列[ 4] 的实际分布特 点, 分别建立了一元( 2 次、3 次、4 次及 8 次) 多项
式回 归 模 型 及 标 准 SVM 的 2 种 改 进 预 测 模 型 最小二乘支持向量机( L east Squares Sup port Vect or M achine, 简称 L S SVM ) 和 加权最 小二 乘支 持向 量机 ( Weig ht ed L east Squares Suppor t Vect or Machine, 简称 WL S SVM ) 。通 过比较分析各模型对 年发电量预测 的精度和误 差, 进一步论证了 SVM 及其改进模型在预测方 面的优越性。
若要使( 3) 式中的期望风险最小化, 必须知道
有关概率密度 F ( x , y ) 的信息, 而在实际应用时
一般无法得到, 唯一能够利用的只有( 2) 式中样本 的有关信息, 所以无法直接计算期望风险并将其
最小化。
因此, 根据概率论中的大数定理, 采用算术平
均值代替( 3) 式中积分形式的数学期望, 即
中 x i 为样本编号, y i 为对应的年发电量。选择前 13 个作为训练样本, 后 3 个为预 测样本, 根据样 本分布的大概状况确定多项式次数 n。
( 2) 编写程序, 输入训练样 本, 算出系 数 , 得到具体算法 f ( ) 。
( 3) 输入总样本集的 x i , 得到对应的 yi 。实 验建立了 2 次、3 次、4 次及 8 次多项式模型, 所用 的软件环境为 Mat labe6 5/ Window s XP, 硬件环 境为 Pentium M 1 2 G CPU , 128 M 内存。得到 4 种多项式预测结果示意图, 如图 1 所示。
14 839
16 542
1995 6
10 069 2003
14 19 052
1996 7
10 794 2004
15 22 037
1 483
1997 8
11 342 2005
16 24 747
3 1 多项式回归建模及预测 多项式回归建模及预测的主要步骤如下: ( 1) 根据表 1 数据, 建立样本集{ ( x i , yi ) } , 其
第 31 卷 第 9 期 2008 年 9 月
合肥工业大学学报( 自然科学版)
JO U RN AL O F H EFEI U N IV ERSIT Y OF T ECH N OL O GY
Vol. 31 No . 9 Sept. 2008
多项式与 SVM 预测模型的理论分析及应用比较
孙 林1 , 杨世元2
一元多项式回归模型是比较古老的预测模型, 形式简单、运算量小, 编程难度不大, 常被用来进行 预测。但由于该模型基于经验风险最小化( Empir ical Risk Minimizat ion, 简称 ERM ) 原理[ 1] , 容易出 现欠学习、过学习及泛化能力差等问题, 当样本容 量小或含有噪音时, 预测误差较大。SVM[ 2] 回归模 型是一种新的人工智能预测方法, 它是建立在结构 风险 最 小化 ( St ructural Risk Minimization, 简称 SRM) 原理的基础上, 具有以经验风险最小化为基 础的多项式算法难以比拟的优越性[ 3] , 能较好地解 决多项式回归所具有的问题。
n
minR emp (
)=
min
1 n
(yi -
i= 1
f )2
( 4)
这种建模原则是基于已知的数据样本( 即经
验数据) , 故又被称为经验风险最小化原则。但是
从经验风险最小化到期望风险最小化并没有可靠
的理论依据。因此, 基于 ERM 原则的一元多项 式回归建模不可避免存在以下 2 个问题: ∀ 实际
SVM 回归模型能较好地解决小样本、过学习及欠 学习等一元多项式回归所出现的问题。用于函数
拟合的支持向量机可以表示为
min
1 2
T
n
+ C ( i+
i= 1
* i
)
yi - T xi - b % + i
s. t .
T xi + b- yi %
+
* i
( 5)
i & 0,
* i
&0
其中,
为拟合精度;
i,
Abstract: T he standard suppor t vecto r machine( SVM) and it s adv anced for m- t he least squares sup port vect or machine ( L S SVM) are based on the pr inciple of st ruct ural risk minimizat io n. T he predic t ion m odel based on t he L S SVM can successfully solv e t he problems t hat t he polynom ial predict ion moded encounters. T he paper analy zes t he superio rity of t he SVM model over t he po lynomial mo del theoret ically. Ex periment is also m ade. T he experim ent result show s that t he SVM model is mor e ac cur at e and more robust in noise resist ance, and t hus m ore suit able f or pr edict ion. Key words: po lyno mial m odel; support vect or machine; annual pow er generat ion
n
1 2
T
+ C ( i+
i= 1
* i
)
-
n
∀i ( + i - y i + T x i + b) -
i= 1
n
∀i * ( +
* i
+
y-
T x i - b) -
i= 1
n
( !i i + !i *
* i
)
( 6)
i= 1
其中, 参数 ∀i , ∀i * &0 被称 为 L agarang e 乘 子;
抽取的 n 个独立同 分布( independent ident ically dist ribut ed) 得到, 即
( x 1, y 1) , ( x 2, y2 ) , , ( x n, y n)
( 2)
最优函数 f ( ) 的选取标准就是使得预测的 期望风险( 或称风险泛函) 最小, 即
! minR( ) = m in ( y - f ( ) ) dF( x , y ) ( 3)
( 1. 合肥工业大学 应用物理系, 安徽 合肥 230009; 2. 合肥工业大学 仪器科学与光电工程学院, 安徽 合肥 230009)
摘 要: 标准支持向量机( SVM ) 及其改进形式的最小 二乘支持向 量机( LS SV M ) 基于 结构风 险最小 化, 成 功
解决 了多项式模型在预测方面所面临的问题; 文章首先从 理论上分析了 SV M 模型 比多项式回 归模型在 预测
i= 1
( ∀i * - ∀i ) k ( x i , x ) + b
( 8)
xi ( SV s
3 建模及实验
我国从 1990- 2005 年年发电量的统计数据 见表 1 所列, 数据来源于中国电力信息中心、国家 电力公司的中国能源统计年鉴。
第9期
孙 林, 等: 多项式与 SVM 预测模型的理论分析及应用比较
广能力的下降, 即真实风险的增加。该模型还存
在欠学习、抗干扰能力差等问题。
2 S V M 回归模型
支持向量机是文献[ 2] 根据统计学习理论提
出的一种新的学习方法, 它是建立在统计学习理 论的 VC 维和结构风险最小化原理基础上的, 所
谓结构风险最小化就是折中考虑经验风险和置信
范围, 以取得实际风险最小。在此基础上建立的
方面更具有优越性; 具体实验结果表明, SV M 模型预测精度高, 抗干扰能力强, 更适合在预测方面的应用。
关键词: 多项式模型; 支持向量机; 年发电量
中图分类号: T M 715
文献标识码: A
文章编号: 1003 5060( 2008) 09 1481 05
Theoretic analysis and application comparison between the polynomial model and the support vector machine prediction model
* i
பைடு நூலகம்
为实际应用中允许样
本存在的逼近误差; C> 0 被称为平衡因子, 用来
控制对超出误差样本的惩罚程度。根据结构风险
最小化准则, 这一优化目标在最小化 ∋ ∋2/ 2 时 可取得较好的推广能力。
对于 ( 5) 式, 通过 建立 L agarang e 方 程来求
解, 即
L(
, b,
i,
* i
, ai , ai * , !i , !i * ) =
SU N L in1 , Y A N G Shi y uan2
( 1. Dept. of A p plied Ph ysics, Hef ei U nivers ity of T echnology, H efei 230009, Chin a; 2. S chool of Inst rum ent S cien ce and Opt o el ect ronic E ngineering, H ef ei U niversit y of Techn ol ogy, H ef ei 230009, China)
对于非线性回归, 其基本思想是[ 5] : 通过非线
性变换 x ) #( x ) 将原输入空间的回归问题映射到
高维特征空间 ( H il bert 空间) 中, 然 后在该 H il bert 空间进行线性回归, 即 f ( x ) = T #( x ) + b, 从 而取得在原空间非线 性回归的效果。引入符合
杨世元( 1940- ) , 男, 安徽蚌埠人, 合肥工业大学教授, 博士生导师.
14 82
合肥工业大学学报( 自然科学版)
第 31 卷
优的函数 f ( ) , 使其能最好地逼近系统 S 输入输
出之间的响应关系。这种选择基于训练样本集, 训
练集由根据联合分布 F( x , y ) = F( x ) | F( y | x )
年份 样本编号 发电量/ 亿千瓦时
年份 样本编号 发电量/ 亿千瓦时
1990 1
6 213 1998
9 11 577
表 1 中国年发电量的历史统计数据
1991
1992
1993
1994
2
3
4
5
6 775
7 452
8 364
9 299
1999
2000
2001
2002
10
11
12
13
12 331
13 685
相关文档
最新文档