基于机器学习的金融数据分析研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于机器学习的金融数据分析研究
摘要:随着互联网技术和信息技术的迅速发展,在互联
网金融的大背景下,金融数据处理问题已经不仅仅局限于传统的数理统计方法,而更多的与机器学习领域的各种信息处理方法相结合,并取得了一些有重要意义的研究成果。本文将主要研究机器学习中的支持向量回归算法和时间序列模型用于建立预测模型的绩效问题,也就是针对金融数据分析和预测准确度的问题。
关键词:机器学习;支持向量机;金融数据项目简介:2015 年保定市科技局研究项目“基于机器学
习的金融数据分析研究” ,课题编号:15ZG026
、金融数据分析的背景及意义
长期以来专家学者们都希望能够找到使误差更接近零
的分析预测方法,以使投资目标函数在利益尽量大的时候风险尽量最小。所以,人们不得不努力的研究更新、更有效、泛化能力更强的数据分析预测模型。当前的金融市场业务繁多,和业务形成正比关系的各类信息系统众多,这些管理系统也产生海量的各类金融数据,如何对金融市场进行有效地、及时地预测与分析,则成为企业、银行和现代投资者所追求的目标。现代投资者不再仅仅关注于股票的基本面信息,而
是更多的需要深层次的挖掘大规模金融数据内在的联系,从而获取更多的信息。在现实的金融市场中,普通的投资者很难掌握市场的全部有效信息,所以他们迫切的需要从可以得到的各类相关数据中挖掘出金融市场潜在的信息。然而现行的大量分析方法并不能对已有的数据进行大规模的开发和利用,所以并不能满足金融市场投资者的需求。投资者的这种迫切的需要将金融数据与机器学习的方法紧密联系在起。金融市场由于其所包含的不可测因素非常多,所以我们可以将其看作是一个非线性的、非结构化的复杂系统。而机器学习方法作为智能信息处理的重要组成部分,在其他领域已经被证明可以有效地解决这种非线性问题。
二、最小二乘支持向量回归算法最小二乘支持向量算法 (LSSVM )是
将标准支持向量算
法中的不等式约束化成等式约束而得到的。
对于线性回归,设样本为n 维向量,某区域的l 个样本
及其值表示为:
对于非线性回归,同样使用一个映射$把数据映射到高
维特征空间,再在高维特征空间进行线性回归,关键是选取适当的核函数k (x, y),使得
对于AR(n)模型来说,Xt仅仅与Xt-1, Xt-2, , Xt-n,
有n阶动态性,因此拟合AR (n)模型的过程就是使相关序
列独立化的过程。
我们知道,随机变量X 与Y 的协方差函数为:四、支持向量回归和时间序列模型在金融市场预测中的
应用
结合我国股票指数的数据,利用最小二乘支持向量算法
(LSSVM和AR ( n)模型进行预测,采用LSSVM直接建立
等有线性关系,at是白噪声序列。可见,AR (n)系统具
非线性AR ( 1)模型,实验数据采用我国上证综合指数的周收盘价,所有数据均来自新浪财经,此次实验同样采用
Matlab软件和Eviews软件实现。预测精度的评价标准如表 1 所示:
从实验结果可以看出LSSVM模型的预测结果要优于单
纯的时间序列模型。综合来看,如果在支持向量机的基础上能够融合时间序列模型,那么在金融预测中将取得良好的应用效果。
参考文献
[1]高铁梅.计量经济分析方法与建模.EVIEWS应用及实
例.清华大学出版社,2006.
[2]谢衷洁,王驰.用时间序列方法预测股票价格初探
与管理,2004,23 (5):68 - 77.
[3]孙德山.支持向量机分类与回归方法研究:( 博士学位
[4]邓乃扬.数据挖掘的新方法―支持向量机.北京:科学
出版社,2004. [5] 杨一文.基于神经网络的多变量时间序列预
测及其在股市中的应用.信息与控制,2001,30(5):413-417.
[6] 王振龙,胡永宏.应用时间序列分析.北京:科学出版
社,2008.
作者简介:李峰(1981-),男,山西阳泉人,硕士,现
供职于河北金融学院信息管理与工程系,研究方向数据分析。
论文) .长沙:中南大学,2004.