支持向量机在股票分析中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、问题的背景股票市场具有高收益与高风险并存的特性,人们一直都希望能够掌握其运行规律,并进行分析与预测。

但是由于股票市场受到很多市场因素和非市场的影响,而且这些因素之间又有相互作用,因此要想建立一个模型来描述其内部相互作用的机理是非常困难的。

从而这也成为证券分析研究领域的一个难题。

股票价格的变化是非线性和时变的,支持向量机在股票分析中的应用
杨明海 信阳师范学院数学科学学院 464000
因此这些时间序列数据都是带有噪声的不稳定随机数据,从而使得用传统的统计方法来研究股票市场的运行规律已经不尽如人意。

随着计算机科学的发展,把机器学习方法用在金融工程领域已经取得了很大的进展[1]。

当前很多模型的建立都要假定股票价
格序列具有某些非线性特征,这些假设或多或少的带有一些主观性。

对于这类数据的预测很多研究者采用神经网络等方法来
做,但神经网络方法有着难以克服的一些
缺点,其网络结构需要事先指定或应用启
发式算法在训练过程中修正,这些启发式算法很难保证网络结构是最优的。

另外神经网络易过学习和陷入局部最优的缺点也极大地限制其在实际中的应用。

而支持向量机(SVM )它克服了神经网络的一些缺
点,如过学习,维数灾难,易陷入局部最优
等。

而且支持向量机在实现金融时间序列
的预测[2]方面已有了一些探索性的研究,并在应用中取得了不错的表现。

2、支持向量机
20世纪60年代末,V a p n i k 和
Cervonenkis 建立了现代意义上的统计学习
理论[3],即是目前人们所称的V C 维理
论。

1979年,在统计学习理论的VC 维理论
和结构风险最小化(SRM)准则的基础上,
Vapnik 等人提出了一种新的机器学习算法
——支持向量机(SVM)方法。

支持向量机
方法根据有限样本的信息在模型的复杂性
(基于VC 维,即对特定训练集的训练精度)和学习能力(即由训练出的机器对测试数
据的识别能力)之间寻求最佳折衷,期望获
得最好的推广能力。

大量的研究表明,作为
一种解决模式识别问题和非线性函数的回
归估计、预测等问题的新技术,SVM 无论
在模型拟合效果还是模型推广能力方面都
表现出了良好的性质。

因此,它成为目前机
器学习领域的一个热门研究课题。

当前对
SVM 的研究集中在训练算法的设计和应用
上。

支持向量机可以归结为解决一个二次规划问题(Quadratic Programming, QP )
[4]:
给定输入空间中训练样本:(1)
SVM 是要得到下面的决策函数:
(2)其中k(x i ,x j )是核函数,是每个样本对应的Lagrange 乘子,b 是阈值,是下面QP 问题的解:其中(核函数矩阵)是一个N ×N 的半正定矩阵,C 是正则化参数。

由于其坚实的理论基础,良好的泛化性能,简洁的数学形式,直观的几何解释
等特点,它在许多实际问题的应用中取得
了成功。

本文用支持向量机方法对中国A
股市场深沪两市的部分部分股票进行分类
研究。

3、数值计算结果及分析3.1 实验数据由股票分析软件广发证券(至强版)下载了深沪股市几个交易日的数据,预处理如下:
DATA1:选取2009年1月6号的1296只股票,以量比,换手率,内外比为因子,将涨幅大于一个百分点的股票归为+1类,跌幅大于一个百分点的归为-1类。

将数据随机化后,选取1000个进行训练,296个进行测试。

DATA2:选取2008年12月29号沪深两市共1192只股票,以每笔换手率,涨速,量比,总换手率,内外比,振幅为因子,将涨幅大于1.5个百分点的股票归
为+1类,跌幅大于一个点的归为-1类。

将数据随机化后,选取1000个进行训练,192个进行测试。

DATA3:选取2008年12月29号沪深两市共1192只股票,以涨速,量比,换手率,内外比,振幅为因子,将涨幅大于1.5个百分点的股票归为+1类,跌幅大于一个点的归为-1类。

将数据随机化后,选取1000个进行训练,192个进行测试。

DATA4:选取2008年12月29号沪深两市共1192只股票,以量比,换手率,内外比,振幅为因子,将涨幅大于1.5个百分点的股票归为+1类,跌幅大于一个点的归为-1类。

将数据随机化后,选取1000个进行训练,192个进行测试。

DATA5:选取2008年4月15号沪深两市共1043只股票,以量比,换手率,内外比,振幅为因子,将涨幅大于一个百分点的股票归为+1类,跌幅大于一个百分点的股票归为-1类。

将数据随机化后,选取900个进行训练,143个进行测试。

另外,DATA2-DATA4的振幅是由当日最高价减去当日最低价,然后再比上前一交易日的收盘价得出;而DATA5的振幅是由当日最高价减去当日最低价,然后再比上当日的收盘价得出。

3.2 实验结果及分析
采用支持向量机的著名算法序贯最小
优化算法(SMO )[5]
,用VC++ 6.0编写了相关程序,并在内存为256MB 、CPU 为1.7GHz 的PC 机上测试了3.1的5个数据集。

在我们的实验中,核函数是径向基(RBF )函数,C =0.5。

试验结果如表1所示:
表1 试验结果
从表1可以看出,五个数据集的训练精度测试精度都在百分之八十以上,说明股票的涨跌受量比,换手率,内外比的影响比较大;相比之下,DATA4的训练测试精度较高,说明了每笔换手率,涨速这两个因子可能会含一些噪音数据,对结果有些影响。

实际上在看盘的过程中,我们会发现涨速有时带有一些表演性质,而每笔换手率
所包含的信息一般不具有明显的指向性。

结合到我们选取数据的那三个交易日的大盘情况:2008年4月15日,当日上证指数报收3348.35点,涨幅1.57%;2008年12月29日,当日上证指数报收1850.48点,跌幅0.06%;2009年1月6日,当日上证指数报收1937.15点,涨幅3.00%。

我们发现,在大盘比较不稳定的时候,比如说受政策面的影响比较大时,一般支持向量较多,说明模型偏于复杂,那些影响因子含噪声比较多。

所以,由量比,换手率,内外比,振幅为因子,来预测个股的涨跌效果较好。

4、结论
利用支持向量机的特性,我们对股票的涨跌进行分类,我们发现量比,换手率,内外比,振幅这四个因子对结果影响较大。

下一步的研究重点是用支持向量机回归来对大盘指数进行预测。

传统的学术期刊部门管理、编务管理工作,如财务管理、学术期刊的征订、发行和交流及编务诸方面的工作等,主要是通过人工完成的。

这些管理工作由于程序多、重复性劳动多等因素的影响,工作效率低下,易发生差错,且发生差错后也不能及时发现和修改。

建立部门出版管理系统后,相关工作统统由计算机管理,所有相关数据也存入各种不同用途的数据库。

一旦发生什么差错,可立即发现并及时在计算机中进行修改。

这种自动化系统无疑可以大大提高管理水准。

4、实现学术期刊网络出版和传播,不断提高服务水平。

传统的印刷版期刊为科技信息的传播起到了重要的作用,但是在以因特网为代表的信息时代,其日益受到电子和网络出版物的严峻挑战。

学术期刊作为学术期刊上网,其意义不同于一般报纸杂志,因为其本身深厚的文化学术内涵,不仅可以完善网络生存环境,而且可以将学术交流网络延伸为一所没有任何阻滞
的学术交流的大学。

[2]
从这个意义上说,实现学术期刊网络出版是学术期刊电子化编辑工作方式走向成熟的必然标志,也是学术期刊实现可持续发展的必由之路。

在传统的学术期刊出版中,学术信息的传播是单向的,读者只能从信息传播过程中感受到来自作者和编辑已固定成形的思想,而不能迅速把自己的想法反馈给编辑和作者,也不能了解其他读者的想法。

同样,作者和编辑也因此不能及时了解读者的意见和想法。

网络作为一种一对一个性化的媒体,通过其传播学术期刊就可以突破时空限制,实现信息的双向交流和期刊的互动服务,再加上编辑的中介功能,读者和作者、读者和读者之间将实现真正意义上的互动交流,而且信息渠道快速畅通。

这无疑对提高学术期刊的出版质量,提高学术期刊的社会效益都大有裨益。

相关文档
最新文档