基于 LSTM 和情感分析的股票预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科技与创新┃Science and Technology&Innovation ·126·2021年第21期
文章编号:2095-6835(2021)21-0126-02
基于LSTM和情感分析的股票预测
梁宇佳,宋东峰
(首都经济贸易大学,北京100070)
摘要:股票市场预测是经济领域中一个非常重要的实际问题。
然而,由于股票市场具有噪声和波动性特点,对市场的及时预测通常被认为是最具挑战性的问题之一。
为了应对这些挑战,提出了一个基于机器学习的考虑投资者情绪倾向的股市预测模型。
根据投资者情绪理论、自然语言处理方法和机器学习理论,针对股吧数据建立投资者情感指数并融合LSTM深度学习模型,基于股价历史,结合技术分析指标预测未来股价走势。
关键词:文本挖掘;情感分析;机器学习;股票预测
中图分类号:F832.51;F224文献标志码:A DOI:10.15913/ki.kjycx.2021.21.053
股票市场是股票可以交易和流通的地方,它已经存在了400年,已经成为大公司向投资者筹集资金的重要渠道。
然而,股票价格的形成机制却相当复杂。
各种因素的综合运用和个体因素的特殊行为,包括政治、经济、市场因素以及技术和投资者行为,都会导致股价变化。
因此,股票价格是不断变化的,这种变化为投机活动提供了生存空间,增加了股市的风险。
这种风险不仅会给投资者带来经济损失,还会给企业和国家的经济建设带来一定的副作用。
近年来,计算机硬件与先进机器学习理论的发展极为迅速,人工智能领域获得了前所未有的关注度,随着技术的逐步成熟,越来越多的研究借助于机器学习的帮助来解决愈发复杂的问题。
得益于先进的数据处理能力,各类新旧机器学习算法在现代高性能计算机硬件的加持下,得到了越来越多的量化分析流派的青睐。
从金融市场的预测到审批贷款、风险评估,这些机器学习算法促进了金融领域的发展。
然而在这些涉及机器学习的方法中,很少结合情感分析方法来考虑。
因此,本研究基于历史股价数据,结合投资者情感指数,采用LSTM机器学习的方法预测未来股价走势,相较于传统预测方法进一步提高了效果。
1相关研究
1.1投资者情感分析
投资者情绪与股票市场的研究,目前主要关注于不同情绪度量方法是否能对金融市场的股票价格、收益等进行有效预测。
传统的投资者情绪度量指标分为直接指标和间接指标[1]。
不过由于传统投资者情绪多以代理变量形式出现,并不是投资者情绪的直接表达,传统投资者情绪对市场的预测能力是有限的,传统度量指标对投资者情绪的刻画尚存在一定的不足。
针对这一问题,一些学者尝试从投资者的网络行为中获取更直接的情绪指标[2],并检验其在股票市场中的有效性,将基于文本挖掘的投资者情绪作为主要的研究对象。
目前,基于文本挖掘的投资者情绪的相关研究主要关注于网络情绪来源、情感分类方法、情绪指标构造和股票实证检验等关键环节。
在网络情绪来源方面,多数研究数据来自财经网站或社交媒体的股吧论坛板块,包括新浪财经、东方财富网、新浪微博、Twitter等[3]。
在情感分类方法方面,研究者主要采用机器学习方法和语义分析方法对股票评论的情感倾向进行分类。
KEARNEY等[4]指出两种方法各有利弊,机器学习方法的一般分类准确率较高,但依赖于熟悉金融股票市场的人员进行手工分类,构造训练集;语义分析方法(特别是基于词典的方法),在经济金融分析中更加简单易用,但普通词典难以适用于金融语境,关键在于金融专用词集的构建。
1.2股票市场预测
近年来,人们发现影响股票市场波动的因素众多。
GILBERT等[5]从LiveJournal中提取大众焦虑指标,根据指标变化情况进行预测,发现大众情绪在一定程度上对股票市场有一定波动影响;董理等[6]发现大众评论信息对股票指数波动有一定影响;RAHMAN等[7]使用3种不同文本表示方法,抽取其中有价值的词条,利用支持向量机(SVM)训练器进行分析,发现将文字字段和股票价格一起训练可以获得较好表现;NIKFARJAM等[8]采用SVM分类器对比新闻文本和股票价格两种方法预测股票的准确性,最终发现将新闻文本与股票价格两种方法相结合更能提高股票预测效果;宋敏晶[9]采用文本分类技术提取股票评论数据的情感值,验证了股票评论与股票市场存在一定联系。
2模型构建
本文针对股吧数据建立投资者情感指数并融合LSTM 深度学习模型,基于股价历史,结合技术分析指标,预测未来股价走势。
. All Rights Reserved.
Science and Technology &Innovation ┃科技与创新
2021年第21期
·127·
2.1情感指数构建
本文需要构建投资者情感指数,用于股价预测。
在东方财富网站中存在“热帖”板块,即关注度较高,阅读、回复均较多的帖子,因此本文选取这部分获取数据。
虽然使用“热帖”大大减少了无关信息的干扰,但为了研究结果的正确性,仍需进一步剔除无关信息。
需要处理的噪声主要包含以下方面:重复帖子、广告帖、无关意义的水帖;媒体或投资者转载的新闻、公告等。
通过爬虫取得所需的帖子文本信息后,需要对帖子进行情绪赋值以便进行进一步分析。
本研究使用的ROST EA 软件包包含了基础词库和金融领域专用词库,但是股吧帖子大多数集中于股票评论,而且网络流行用语较多,还需要构建自定义的股吧专用词库来提升分词的准确率,并且为之后的文本情绪赋值做准备。
构建的词汇库既包含股票专用术语,也包括了网络用语的习惯表达。
ROST EA 情绪分析软件相较而言操作简便直观,且词库较新,对于网络用语的识别和赋值更有优势。
ROST EA 的文本情绪赋值过程为将每一句文本信息视为一个样本,分别计算每一句话的情感值。
将所有句子的情感值之和作为整篇文本的情绪值。
根据整篇文档的情绪值与临界值的关系,可将情感倾向分为积极、中性与消极。
先根据帖子的情感值,将其划分为积极情感帖、中性情
感帖、消极情感帖。
情感值设定上下临界值,小于下临界值
的为消极情感贴,在上下临界值之间的为中性情感贴,大于上临界值的为积极情感贴。
使积极情感帖的情绪值为1,中性情感帖的情绪值为0,消极情感帖的情绪值为-1。
计算出的情绪极性,可以从一定程度上反映当天股吧中的大部分用户的看涨看跌倾向。
2.2基于LSTM 和情感分析的股票预测模型
LSTM (Long short-Term Memory )全称为长短时记忆神经网络,是一种时间循环神经网络,也即在循环神经网络的基础上,在隐层的各神经单元上加入记忆单元,使时间序列上的记忆信息可以控制,使其更适用于处理和预测时间序列问题。
LSTM 神经网络通过控制门(输入门i t 、遗忘门f t 、输出门o t )调节之前信息与当前信息的记忆和遗忘程度,将短期记忆与长期记忆结合起来,使循环神经网络具备了长期记忆能力,并且一定程度上解决了梯度消失的问题。
因此,本文采用LSTM 方法进行特征提取和预测,其工作过程可以表述如下。
第一,LSTM 中的遗忘门对信息进行过滤,忘记无用信息。
f t =σ(W f x t +V t h t ﹣1+b t )
第二,输入门根据输入信息和记忆信息进行状态更新。
输入信息:i t =σ(W i x t +V i h t ﹣1+b i )。
记忆细胞:()c 1-t c t c t tan b h V x W h c
ˆ++=。
长时记忆:1-t t t t t ˆc f c
i c +=。
第三,输出门输出当前信息。
()o 1-t o t o t b h V x W o ++=σ,()t t t tan c h o h ⨯=。
以上公式中:σ为sigmoid 激活函数;W 和V 为权重矩阵;b 为偏置向量;x t 为t 时刻的输入矢量;h t-1为t 时刻前LSTM 输出的矢量,也即短记忆信息;c t 为t 时刻下的长时记忆信息。
3结论
在股票预测研究中融入情感分析影响因素以及股票历史数据,采用深度学习与机器学习相结合的方法,构建LSTM 特征提取训练模型并进行股票预测,提高了股票预测准确率。
通过实验对比分析发现,融入情感分析和历史数据特征的股票预测模型能够获得更好的预测效果。
下一步工作是继续收集影响股票行情波动的新闻信息数据,结合深度学习等方法进行特征提取并建立预测模型,进一步提升模型预测效果。
参考文献:
[1]王美今,孙建军.中国股市收益、收益波动与投资者情
绪[J ].经济研究,2004(10):75-83.
[2]郁晨.投资者情绪理论、度量及应用研究综述[J ].金融
评论,2017(3):115-126,130.
[3]蒋翠清,梁坤,丁勇,等.基于社会媒体的股票行为预
测[J ].中国管理科学,2015,23(1):17-24.[4]KEARNEY C ,SHA L.Textual sentiment in finance:a
survey of methods and models [J ].International review of financial analysis ,2014,33(1):171-185.
[5]GILBERT E ,KARAHALIOS K .Widespread worry and
the stock market [C ]//International conference on weblogs &social media ,2010.
[6]董理,王中卿,熊德意.基于文本信息的股票指数预测
[C ]//第五届自然语言处理与中文计算会议(NLPCCICCPOL2016),2016.
[7]RAHMAN A ,ABDUL-RAHMAN S ,MUTALIB S.Mining
textual terms for stock market prediction analysis using financial news [C ]//International conference on soft computing in data ,2017.
[8]NIKFARJAM A ,EMADZADEH E ,MUTHAIYAH S.Text
mining approaches for stock market prediction [C ]//International conference on computer &automation engineering ,2010.
[9]宋敏晶.基于情感分析的股票预测模型研究[D ].哈尔
滨:哈尔滨工业大学,2013.————————
作者简介:梁宇佳(1996—),男,硕士研究生,研究方向为股票趋势预测。
宋东峰(1996—),女,硕士研究生,研究方向为投资者情绪。
〔编辑:严丽琴〕
. All Rights Reserved.。