基于小波支持向量机回归的股票预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[3] 有关此项目的具体情况请参看杨明等.1995~2004 北京社会经济 [4]R. Groves, F. Fowler, M. Couper, R. Tourangeau, J. Lepkowski. Sur⁃ [5]J. Drew, W. Fuller.Modeling Nonresponse in Surveys with Callbacks [C]. In Proceedings of the Section on Survey Research Methods of the American Statistical Association,1980. vey Methodology[M].New York: John Wiley, 2004. 发展年度调查数据报告[M].北京: 北京出版社, 2007.
α α* φ( x i), φ( x j) + ∑ α i (ε i - y i) + min 1 ∑( α i - α* i )( j - j ) 2 i=1 i=1
j=1 n n
∫-∞
dω < +∞ (21) ω 则称 Ψ( x) 为基本小波或母小波。其中 L2 (R) 是平方
+∞
| Ψ(ω) |
理论新探
基于小波支持向量机回归的股票预测
李 坤 1, 谭梦羽 2
(1.西安财经学院 经济学院, 西安 710061; 2.西安电子科技大学, 西安 710071)
摘 要: 文章将小波理论与支持向量机方法相结合, 结合了二者的优势, 提出了一种小波支持向量机回归 的股票预测模型。该模型引入小波基函数来构造支持向量机的核函数, 得到了一个新的支持向量机模型。并 用 3 种大盘指数和 13 类不同行业的股票进行测试, 取得了良好的效果。 关键词: 机器学习; 小波核; 支持向量机; 股票预测 中图分类号: F224 文献标识码: A 文章编号: 1002-6487 (2014) 06-0032-05
{
(3)
引入松弛因子 ξ i 0 和 ξ i* 0 , 回归估计模型可转化
2 n
为:
min 1 w + C ∑(ξ i + ξ i*) 2 i=1
(4)
基金项目: 陕西省哲学社会科学规划项目 (SC11E011) 作者简介: 李 坤 (1964-) , 女, 陕西铜川人, 副教授, 研究方向: 证券投资。
[7] 任莉颖, 邱泽奇, 李力, 严洁. 社会调查中职业问题编码的方式与质 [8]严洁,邱泽奇,任莉颖,丁华,孙妍,社会调查质量研究:访员臆答与干 预效果[J].社会学研究,2012,(2). 量研究[J].浙江大学学报 (人文社会科学版) ,2011,(5).
[2]R. M. Groves, M. Couper.Non-Response in Household Interview Sur⁃ veys[M],New York: John Wiley & Sons, 1998.
d
(
ü )ù úï ï ú
2
úý úï ï ûþ
(33)
伸缩因子, b 称为平移因子。 在式 (22) 中, 改变 a 和 b 的值, 等效于对母小波进行 了 伸 缩 核 平 移 ,从 而 得 到 一 组 小 波 基 函 数 {Ψa, b( x)}a > 0, b ∈ R 。 数作用于能量有限信号 f ( x) , 则小波变化的定义如下:
[6]R. Groves, S. Heeringa. Responsive Design for Household Surveys: the Royal Statistical Society, Series A ,2006,(3).
Tools for Actively Controlling Survey Errors and Costs[J]. Journal of
n
(18)
(19)
(4) 样条核函数:
K ( x, x') = 1 + x, x' + 1 x, x' min( x, x') - 1 min( x, x')3 (20) 2 6 1.2 小波理论
小波分析是建立在泛函分析、 调和分析、 数值分析、 逼 近论和傅里叶分析等的基础上发展起来的新的时频分析 方法, 它是一种在时域和频域上同时具有良好的局部化特 性的分析方法。通过加入小波变换, 可以有效的适应股票 价格指数的波动, 剔除人为的噪声影响, 能够有效的提高 预测准确率。 1.2.1 小波变换 对小波变换的认识首先要从母小波开始。母小波的 定义如下: 设 Ψ( x) ∈ L2 (R) , 其傅里叶变化为 Ψ(ω) , 如果满足
统计与决策201 4 年第 6 期·总第 402 期
(责任编辑/亦
民)
32
ห้องสมุดไป่ตู้ 理论新探
约束条件: ìyi - w ⋅ xi - b ε + ξi ï * ïyi - w ⋅ xi - b ε + ξi i = 1,..., n íξ 0 ï i ïξ * 0 î i
∑αi*(ε*i - yi)
行数据与哪一类题目的测量精度紧密相关?哪些并行数 据是受访对象合作的预测因子?哪些并行数据与调查实 施的效率有关联?等等。研究者们将面临着将并行数据 与元数据、 与调查管理进行关联研究的大量工作。 并行数据对整个调查数据质量的影响是不可忽视的, 它目前尚属于待挖掘利用的宝贵资源, 它所涵盖的大量信 息究竟能够怎样改善测量精度、 能够如何优化调查管理、 如何被智能化开发, 以及如何能被及时应用将成为研究者 们面临的紧迫课题。
α α* x x α α* * min 1 ∑( α i - α* i )( j - j ) K ( i, j) + ∑ i (ε i - y i) + ∑ i (ε i - y i) 2 i=1 i=1 i=1
j=1 n
(8) 常用的核函数有以下 4 种: (1) 多项式核函数:
n n
(16)
∂L = C - α * - η * = 0 i i ∂ξ i
由于股票价格指数波动的复杂性和大量的人为因素 参与, 我们迫切的需要一种有效的分析方法。近些年来, 支持向量机已然成为预测领域的新宠儿。支持向量机求 解分类问题与预测问题时, 首先将输入数据映射到一个高 维空间, 然后在高维空间求解分类的最大间隔, 最常用的 方法是利用核函数。核函数的应用使我们可以利用模型 处理非线性问题, 同时通过求解二次函数来训练, 克服了 神经网络的局部最优问题, 所以支持向量机具有良好的推 广能力。 1 小波支持向量机模型的建立 1.1 支持向量机回归原理 支持向量机 (SVM) 是由 Vapnik 等提出的, 它是基于统 计学习理论的 VC 维理论和结构风险最小化理论的机器学 习理论。起初, 支持向量机算法主要应用于模式识别的问
将式 (8) 代入式 (7) 得:
α α* φ( x i), φ( x j) + ∑α i (ε i - y i) + ∑α i*(ε* min 1 ∑( α i - α* i )( j - j ) i - y i) 2 i=1 i=1 i=1
j=1 n
K ( x, x') =
(
x, x' + c , p ∈ N, c 0
题, 之后被推广到函数的回归和预测领域中来。 假设训练样本集 {( x1, y1),...,( x n, y n)}, x i, y i ∈ R , 则支 持向量机回归模型的线性回归函数方程为: f ( x) = w ⋅ x + b (1)
为保证线性方程的平坦, 需寻找一个最小的 w , 因此 我们采用最小化欧几里德空间的泛数。假设所有训练数 据 ( x i, y i) 都可以在精度 ε 下用线性函数拟合, 那么寻找最 小 w 的问题可以表示为一个凸优化问题: 2 min 1 w 2 约束条件: yi - w ⋅ xi - b ε yi - w ⋅ xi - b ε (2)
K ( x, x') = φ( x), φ( x')
建立拉格朗日方程:
2 L(w, ξ i, ξ ) = 1 w + C ∑ α i (ε + ξ i - y i + w, x i + b) 2 i=1 * * * x - ∑ α* i (ε + ξ i + y i - w, i - b) - ∑ (η i ξ i + η i ξ i ) i=1 i=1 n n
i=1
n
(12)
(5)
从而得到: x w = ∑ (α i - α* i ) φ( i)
i ∈ SV
(13)
由此可见, 该问题是一个典型的二次规划问题。其中 常数 C > 0 用于平衡回归函数的平坦程度和偏差大于 ε 样 本点的个数。上式中的 ε 由不敏感损失函数得出的, 其函 数表示如下:
那么回归问题的回归函数 f ( x) 可表示为:
参考文献: [1]M. Couper, L. Lyberg. The use of Paradata in Survey Research[C].In tute, Sydney, Australia,2005. Proceedings of the 55th Session of the International Statistical Insti⁃
在不灵敏区边界上或外面的样本, 称为支持向量 (SV) , 从 而有:
x w = ∑ (α i - α* i) ⋅ i
i ∈ SV
(11)
对于非线性回归, 首先使用一非线性映射把数据映射 到一个高维特征空间, 再在高维特征空间进行线性回归, 从而取得在原空间非线性回归的结果。所以采用适当的 内积函数 K ( x i, x j) 就可以实现某一非线性变换后的线性 回归。 假设样本 X 用非线性函数 φ 映射到高维空间, 则非 线性回归问题转化为在约束条件式 (10) 下的最小化函数:
(7)
(15)
n n
对上式中的参数 w , ξ i* 的偏导都应为零, 即: b, ξi ,
∂L = w L= ∑(αi - α*i ) xi = 0 ∂ ∑(αi - α*i ) = 0 ∂w ∂ b i=1 i=1 ∂L = C - α - η = 0 i i ∂ξ i
n n
将式 (15) 代入式 (10) 则得到:
2
可积空间, 式 (21) 为一个函数称为小波的首要条件。 将母小波 Ψ( x) 进行某种伸缩核平移, 就可以得到 很多个与母小波形状相似的副本。按下式方式进行伸缩
统计与决策201 4 年第 6 期·总第 402 期
33
理论新探
核平移, 即:
æ x-b÷ ö, a > 0, b ∈ R Ψ a, b ( x) = 1 Ψ ç (22) a è a ø 通常 Ψ a, b ( x) 为小波基函数, 其中 a 称为尺度因子或 ì é xj xj - i ï é ( x j - x ij)2ù 1 ê ï K ( x, x i) = ∏ íexp ê ê- 2a2 ú ú - 2 exp ê- 8a2 j=1ï j j ê û ï ë ë î (4) Littlewood-paley 小波核函数:
)
p
(17)
(2) 高斯基 RBF 核函数:
æ x - x' 2 ö ç ÷ ÷ K ( x, x ) = expç ç ç ÷ 2σ 2 ÷ è ø (3) Sigmoid 核函数: K ( x, x') = tanh(υ( x, x') + c)
'
ì n α α* ï∑( i - i ) = 0 s.t. íi = 1 (9) ïα α* , ∈[0, C ] î i i 解式 (9) 是一个二次规划的问题, 可解出一组最优 * Lagrange 乘子 α i, α i 。 ì - -x ˉ = ∑(α i - α* ï i) i ïw i=1 (10) í ï ˉ=-1 w ïb ˉ ,( x r + x s ) 2 î 其中 x r 和 x s 为满足不同约束的任意向量。 x 即 对于式 (10) 中, 与 α i ≠ 0 和 α* i ≠ 0 对应的样本 i ,
x x f ( x) = ∑(α i - α* i ) φ( i), φ( ) + b
i=1 n n
| ξ |ε = ì í| ξ | - ε
î
* i
0
|ξ | ε |ξ | > ε
n
x x = ∑(α i - α* i ) K ( i, ) + b
i=1
(14)
(6)
由此可见, 核函数是整个支持向量机回归的核心。核 函数的引入巧妙地避开了高维空间数学运算复杂度的问 题, 使得支持向量机可以在较少的样本下, 有效处理个高 维问题。 其中核函数满足: