基于深度学习的股票市场预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 相关工作
有很多的因素会对股票价格的波动产生影响,例如历史的价格,有关大公司的合并,破 产以及金融风暴的新闻。 市场新闻和股票的历史价格得到了经济研究者和市场操作者的广泛 关注。为了能够使用这些数据来预测,类似数据预处理和数据对齐的工作必须首先完成。在 这个部分,我们首先介绍数据预处理和数据对齐的过程,在这部分的最后,我们介绍如何组 织多源数据。
10
15
The Stock Market Prediction via Deep Learning
20
Zhao Zhiyong, Wang Feng, Li Yuanxiang
(State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072) Abstract: Stock market plays an important role in nowadays financial markets. And stock price volatility prediction is regarded as one of the most attractive and meaningful research issues. The key problem of the stock market prediction is how to design a method to improve the prediction accuracy. Some existing researches on stock market price volatility prediction have pointed out that architectures are applied in many existing machine learning algorithms including neural networks with only one hidden layer and support vector machine are using shallow architectures. Psychology results shows with limited samples and finite computing units, those shallow architectures are incapable of representing the complex function, and place restriction on the generalization capability of classifying complicated issues, especially for the rich sensory input. Deep learning achieves the approximation of complex function,characterization of the input data by learning a deep nonlinear network, and shows the great power in extracting the intrinsic feature of the training data. To validate the performance of Deep Learning, we take experiments on HKEx 2001 stock market datasets. The results show that deep learning has a the great power in extracting the intrinsic feature of the training data and it can refect the intrinsic feature of the training data. Key words: Deep Learning; Stock Market Prediction; Machine Learning; Multi-Source data Processing
RDP k Pk 100
Pt Pt k Pt k
(3)
其中 k 为预测基准。 从交易和预测的角度,预测基准不应该太长或者太短。移动平均(MA),在本文中,我 们设定 k 的值为5,RDPs的公式见表1。
表1 Indicator RDP-5 RDP-10 RDP-15 RDP-20 RDP-25 RDP-30 RDPs 的公式 Formula
中国科技论文在线
http://www.paper.edu.cn
基于深度学习的股票市场预测#
赵志勇,王峰,李元香**
5 (武汉大学软件工程国家重点实验室,武汉 430072) 摘要: 股票市场在整个金融市场中起着很重要的作用。 而股票价格波动的预测是最具有吸引 力并且有意义的研究问题之一。 股票价格预测的关键问题是如何设计一个方法可以提高预测 的精度。已有的一些研究指出,传统的一些机器学习的方法都使用浅层的结构,如单隐层的 神经网络和支持向量机。 对于有限数量的样本和计算单元, 浅层结构难以有效地表示复杂的 函数, 并且对于复杂分类问题表现性能及泛化能力均有明显的不足, 尤其当目标函数具有丰 富的含义。深度学习可以通过学习一种浅层非线性网络结构,实现复杂函数逼近,表征输入 数据分布式表示, 并体现了它对于输入样本数据的强大的本质特征的抽取能力。 为了测试深 度学习在股票价格预测问题上的性能,我们用港交所(HKEx)2001 年的交易数据作为测试。 实验结果表明, 基于深度学习算法进行股票价格预测模型可以有较好的样本本质特征的抽取 能力,能够反映样本的本质特征,并取得比较好的预测结果。 关键词:深度学习; 股票市场预测; 机器学习; 多源数据处理 中图分类号:TP391
80
85
在对齐新闻数据和历史股票价格数据的时间序列之前要对新闻数据进行预处理。 给定一 组新闻文章, 我们的目标是从文章中提取出一些有用的信息。 对于以信息为基础的文本文件, 例如新闻文章,我们需要在数据的预处理阶段进行以下四个步骤:中文分词,词的归一化和 1 过滤,特征的选择和词的加权。在本文中,我们使用中文分词软件 对新闻中的句子进行分 词,我们保留了一些相对比较典型的词,例如形容词,名词和动词等,并去除掉一些不重要 的词,例如在第二步中去掉停用词。然后,我们使用 tf idf 计算每个词的权重。通过这样 的方式, 每一篇新闻文章被投影到向量空间中, 并且可以表示成一个向量。 对于特征的选择, 我们使用 的方式比较一个向量与另一个向量的差异,并且给出差异的大小,如公式(1)。
2
1.2
95
数据对齐
为了预测股票价格的波动,我们需要重组时间序列到同样的长度。此外,我们同样需要 将一个信息源与另一个信息源相关联,例如将新闻数据与历史价格时间序列相关联。 1.2.1 市场价格
市场波动分析的目标是预测市场价格的上涨趋势,我们可以使用在时间序列 P 上的给 定阶段 n 的变化率来表示,经常被称为百分比相对偏差(RDP): 100
25
30
35
0 引言
40 股票市场在今天的金融市场中起着很重要的作用。 而且近年来, 股票市场吸引了越来越 多人的关注。 股票价格波动的预测变得更加具有吸引力。 许多不同领域的学者也开始关注这 个领域。 随着计算机科学技术的发展, 基于数据挖掘和机器学习的方法也被用来自动预测股 票价格的波动。 对于一个预测模型, 精准的预测精度是首要的条件, 较高的预测精度能够帮助市场的决 策者作出更好的判断。在过去的几年里,一些基于数据挖掘和机器学习的方法,如神经网络 (neural network,NN)和支撑向量机(support vector machine,SVM)已经被广泛地应用到分类
100 pi pi 5 pi 5 100 pi pi 10 100 pi pi 15 100 pi pi 20 100 pi pi 25 100 pi pi 30 pi 10 pi 15 pi 20 pi 25 pi 30
65
1.1
1.1.1 70
数据预处理
市场价格
75
高频记录的价格数据被广泛用来作为市场波动的预测, 但是这样的高频数据在预测的过 程中有他的缺点。因为这些数据经常是乱序的,变化的间隔和不完整的。所以在进行预测之 前进行数据的预处理是很有必要的。这些原始的高频交易数据通过以下两个步骤进行处理: 1)排序。因为高频交易数据并不是按照时间戳的顺序记录的,首先我们必须将所有记录按照 时间戳排序。2)插值。连续交易间的时间间隔不同,有时,在一个时间段内,甚至可能没有 任何的记录。为了处理时序相关的一致分析,我们需要决定在这样的时间段内填入价格。在 本文中, 我们选择最近的一个价格点填充。 这个方法按照给定的时间单元间隔对高频交易数 据采样并在每个时间间隔内采用收盘价格。 1.1.2 市场新闻
http://www.paper.edu.cn
2
ad bc2 N a ba cb d c d
b N ptk , c N ptk , a N ptk ,
(1)
(2)
d N ptk ,
的值越大,对于预测 tk 越有益。在本文中,我们选择 2 的值前1000个词作为特征。
45
Fra Baidu bibliotek
-1-
中国科技论文在线
http://www.paper.edu.cn
50
55
60
和回归问题中。 由于神经网络和支撑向量机在分类问题和回归问题上的良好性能, 神经网络 和支撑向量机已经被成功地应用到股票价格波动的预测中。Sureshkumar和Elango[1]利用人 工神经网络预测股票价格并评价了神经网络在股票预测问题上的性能。 L.Cao和F.Tay[2]则是 利用支撑向量机预测股票的价格。 为了进一步提高股票价格预测的精度, 一些改进的算法和 学习策略[3][4][5][6][7]被应用到股票价格预测的问题上。 已有研究[8]指出利用多种市场数据源可以比只使用单一数据源获得更好的预测精度。 近年来, 一些研究者致力于通过在历史价格数据中加入其它有用的数据来提高股票价格预测 的性能[1][2]。一些研究者指出,市场新闻有助于提高预测的精度。Schumaker和Chen[8]提 出结合股票历史价格和市场新闻的方法进行股票价格的预测。Li和Wang[9]同时考虑市场新 闻和股票历史价格来提高预测的精度。 深度学习(Deep Learning)的概念是由Hinton[10]提出的,主要的目标是学习多层次的特 征,通过组合低层特征形成更加抽象的高层表示,以发现数据的分布式特征表示。 本文将深度学习应用到股票市场预测的问题上。 第1节对股票数据进行概述。 第2节重点 介绍深度学习的相关技术以及如何将深度学习应用到股票市场预测的问题上。第3节对实验 结果进行分析与讨论。最后是结束语。
基金项目:国家自然科学基金(61103125);教育部博士点基金(20100141120046) 作者简介:赵志勇(1989-),男,硕士,主要研究方向:机器学习,智能计算 通信联系人: 王峰 (1981-) , 女, 副教授, 主要研究方向: 机器学习, 算法交易. E-mail: fengwang@whu.edu.cn
2 2
特别地, 的方式通过比较一个向量的特征和这个向量的标签计算特征与特征之间的差异 值。 例如, 令 ptk 表示词 tk 在文章中出现的百分比, 并且令 1 ptk 为 ptk ,p 和 p
1
http://ictclas.org
-2-
中国科技论文在线
代表类别标签的概率。则 90 其中