探讨基于支持向量机的高频金融时间序列预测

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1引言
因为现在是金融全球化的社会，国家的经济优势或多或少需要依靠金融行业的运转和质量，但影响其创新水平和发展程度的关键原因即金融的信息化技术。

现在，高频金融时间序列预测手段是大热趋势，有不少学者开始研究该问题。

通过预测高频金融时间序列，本文总结出以回归系数为基础的高频金融时间序列手段，对均值平稳的距离噪声不敏感[1]。

但是，高频金融时间序列预测手段还是有缺陷，不能一次性针对处理太多数据，同时由于不同领域的高频金融时间序列特征不同，所以不同测试数据需要先分清特征。

2提取高频金融时间序列数据的特征
现在部分高频金融时间序列预测手段有缺陷，不能准确指导现实中的研究。

本文先是阐述了何谓高频金融时间序列，利用研究实际数据，总结出高频金融时间序列的两个关键特征，相似性与非平稳性。

另外，因为这些特征，正交小波变换，可用分型维估计。

通过实证分析国内金融市场的微观结构，得出指数序列的分型维。

实验对证券指数进行高频金融时间序列预测，和神经网络预测相比较的话，提高了金融数据高频金融时间序列预测效率，减小了预测误差。

2.1构造决策树
建立决策树其实是建立对象属性与对象值间的映射，通过输出决策树指导决策。

重点在于一组没有规律可循的事例推理决策树对形式的分类，通过自上而下，于决策树的内部比较属性值，按照不同属性判断后得出决策树的叶节点结论。

现实中经常用到决策树，其特征明显，首先结构与手段简单，很好明白；方法里准备数据不复杂；学习时，使用决策树可以不训练不属于数据的知识；模型效率高，很短时间里分析规模很大的数据源；比较精准。

构建决策树其实就是选择与分割树的节点，能够知道，决策树构建算法本质在于分割[2]。

按照分割手段不同，可分成两类：第一类是最小GINI的指标，第二类以信息论为基础。

因为金融行业很重视信息，本文通过信息论，针对离散属性构建决策树，解答为何缺失数据以及属性值的范围连续等问题。

探讨基于支持向量机的高频金融时间序列预测
Discussion on High Frequency Financial Time Series Prediction
Based on Support Vector Machine
叶建萍
（广西大学行健文理学院，南宁530000）
YE Jian-ping
(Xingjian College of Science and Liberal Arts,Guangxi University,Nanning530000,China)【摘要】论文总结了一种现今的高频金融时间序列数据预测手段，这种方法是将预处理采集到的数据通过决策树抽取不同特征的高频金融时间序列，建立基于支持向量机的高频金融时间序列预测模型，预测高频金融时间序列。

数据显示，该方法使预测效率提高，同时也很精准。

【Abstract】This paper summarizes a current prediction method of high frequency financial time series data.This method is to extract the high frequency financial time series with different characteristics from the data preprocessed and collected through the decision tree,and establish the prediction model of high frequency financial time series based on support vector machine to predict the high frequency financial time series.The data show that the method makes the prediction more efficient and accurate.
【关键词】支持向量机；高频金融时间；预测
【Keywords】support vector machine;high frequency financial time;prediction
【中图分类号】TP183【文献标志码】A【文章编号】1673-1069（2019）12-0079-02
【基金项目】广西高校中青年教师基础能力提升项目2018KY0785，
广西大学行健文理学院科研基金Y2018ZKT01（Y2019ZKQ04），广西
大学行健文理学院概率论与数理统计课程建设。

【作者简介】叶建萍（1983-），女，广西桂林人，讲师，从事金融统计
方向研究。

79
也就是说，ID3算法通过属性计算有关的样本熵值，采用
里面最小的熵值或最大信息增益的属性当成下一结点的属
性，循环往复，形成最终的决策树。

设训练数据集是D，里面有N个元素，按照不同取值，把D分成k个子集，记D1，D2，…，D k，不同子集都是n1，n2，…，nk个，同时kΣi=1ni=N。

那么定义数据集D里面的信息熵是Entropy（D）=kΣs=1n sN log
（2n sN）。

①需要注意，信息熵是0时，即D中全部元素属于同一子集，训练集D归类完毕。

分类时经常k=2，训练集D有正例与反例两类。

但ID3算法，习惯通过信息增益，评判一个已知属性有没有很好归类训练集。

②其中ETi表示训练集{ω|ω∈D，ω∈Ti}的信息熵，di，s= card{ω|ω∈D，ω∈Ti}，A与D相比较的话，信息增益Gain （D，A），Entropy（D）降低的数量是Gain（D，A）=Entropy（D）-new_Entropy（D，A）。

Step1：确定不同属性的数值区间，分别设为集合S1，S2，S3，S4，S5，S6，S7，各自取值，按照不同定义，取值差异很小，定义（2000，2200）（2200，2400）（2400，2600）（2600，2800）（2800，3000）（3000，3200）为数值分类区间，记不同属性的区间为S11~S16，S21~S26，S31~S36，S41~S46，S71~S76。

Step2：计算收盘价涨幅在区间S71，S72，S73，S74，S75中，交易天数为11，56，64，50，50，14，记d1，d2，d3，d4，d5，共为243天，总天数为N。

按照公式有上证指数集S的信息熵[3]。

Step3：计算不同属性的信息增益，统计每天开盘价在区间S11，S12，S13，S14，S15，S16的交易天数分别是11，56，64，50，50，14，记为D1，D2，D3，D4，D5，D6，共245天；下一日收盘价属于区间S71，S72，S73，S74，S75，S76的天数分别是3，48，5，0，0，0，有上证指数集的信息熵。

那么能够计算开盘价属于区间S12，S13，S14，S15，S16的信息熵：ES11= 0.8454，ES13=0.5992，ES14=0.5661，ES15=0.5579，ES16= 0.5917。

重复上面的三个步骤，得到的信息增益分别为1.7992、2.0572、1.8181、0.5882、0.6758。

2.2基于决策树信息增益的特征抽取
实验表明了ID3算法以信息增益为测试属性的规范，树
节点的选择策略。

ID3的根节点是信息增益最大的属性，和数
据分类贡献呈正比关系，最有利于辅助决策，也最为关键。

因
为成交量、成交额的信息增益值最小，同时和其余的特征
属性差距很大，去掉成交量与成交额。

因为最高价的信息增
益最大，可知对下一日收盘价影响最大的是前一天的最高
价。

3基于支持向量机的高频金融时间序列预测模型
3.1支持向量机
支持向量机最早由20世纪90年代提出，以统计学习理论为基础，是全新的机器学习方法。

利用核函数非线性变换，将原始数据映射到高为特征空间，然后在里面通过结构风险最小化，构造线性决策函数，把低维问题变成简单的高维问题。

支持向量机中最方便的模型为最大间隔分类器，用来解决特征空间里分类线性数据，提高支持向量机理论水平。

本文通过支持向量回归机应用，逼近函数。

给定训练数据集S={xi，yi} ni（xi是输入向量，yi是输出向量，n为训练数据集样本总量），支持向量机通过公式逼近函数（fx）。

3.2支持向量机估计与预测结果
本文采用上证指数共245个交易日数据为样本，在前面十分之九的交易天数中作为训练样本估计支持向量机的参数，后面的十分之一交易天数是测试样本，评价预测水平[4]。

选择特征属性比较抽取与特征属性。

分别采用多项式核K（x，y）=（x*y+1）d和高斯RBF核K（x，y）=exp（-γ||x-y||2）比较分析，取ε=0.1，C=1，通过R语言函数编程。

取d=3，γ=1/nV al，其中nV是变量个数。

不管在抽取特征属性前还是在之后，高斯RBF核函数可以顺利逼近原数据，而后者虽然也能无限逼近，但不够准确，实验结果体现就算提高多项式次数，也无法较好改善，所以对上证指数训练数据集而言，高斯RBF核函数是最适宜的。

4结语
为验证本文方法，采用共245个交易日的指数试验。

抽取结果体现出，指数抽取的特征属性均是开盘价、收盘价、最高价、最低价。

表明这些指数对我国股票市场的综合指向能力很相似，通过不同算法获得不同指数值，反映出股票市场的变化情况。

实验表示，抽取特征向量后RBF核支持向量机可以提高逼近能力与预测效果。

肯定了本文提到的高频金融时间序列预测方法，通过决策树提取特征属性，以支持向量机的预测为基础，让预测数据更精确，便于更好地分析与挖掘现实数据。

【参考文献】
【1】熊正丰.金融高频金融时间序列分形维估计的小波方法[J].系统工程理论与实践,2018(12):48-53.
【2】辛治运,顾明.基于最小二乘支持向量机的复杂金融高频金融时间序列预测[J].清华大学学报：自然科学版,2018(7):1147-1149.
【3】黄超.基于特征分析的金融高频金融时间序列挖掘若干关键问题研究[D].上海:复旦大学,2016.
【4】毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2007.
80。