数据挖掘在股票分析中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘在股票投资中的应用

摘要:研究股票价格预测,由于股票价格具有非线性、随机性等变化规律,同时股票市场与国内外经济政治变化有关,因此通过简单的单个模型分析是很难准确有效的对股票价格进行预测,更准确的估价预测需要分层进行各类模型分析,本文运用spss clementine系统通过ARIMA法对股票价格进行整体的预测即股指预测,接着利用神经网络对乐视股票价格进行涨跌预测。

摘要:ARIMA;神经网络;乐视股票

一、背景及意义

进行股票投资是为了获得更大的收益,然而由于股票市场具有较大的动态特性,股票投资的收益与风险往往是成正比的,投资收益越高,存在的风险则越大。有效地进行股票价格的预测,最大程度规避股票风险,增加投资收益,是股票投资者最关注的热点问题。

随着市场经济的不断发展和中国股市的规范化、正规化,股票投资不断兴起,股票市场在金融投资领域占有越来越重要的地位,成为不可缺少的组成部分。股票价格的变化直接反映出股票市场的状态,如果能够很好的预测股票价格的走势,将不但对我们日常生活产生巨大影响,而且还会对国家的经济发展提供有价值的参考。所谓对股票进行预测,主要是在研究股票指数过去的信息后,找到适合其数据特点的科学方法对其预测,进而得到股市未来价格。但是影响股票价格的因素有很多,如政策、经济状况、股票投资者心理因素等,并且这些因素相互交错,彼此存在约束,仅应用线性分析会含有误差。因此,如何较为准确的预测股票短期内发展趋势以及长期内的大体走向已经成为当今较为关注的热点之一。股市具有高收益与高风险并存的特性,如何最大程度的获得高收益,规避高风险成为人们热切关心的问题。因此股市的建模预测研宄对金融建设及其经济的发展具有极其重要的意义。在现实的经济活动过程中,股价序列的变化呈现出随机性和时变性等特性。所以如何把握股价变动的规律,一直是当今社会经济研宄中的一个极其重要的问题。由于股票价格序列可以看做是含有白噪声的时间序列,所以可以通过建立估价序列的适应或最有统计模型对股价的变化作出分析与预测。

二、国内研究现状

在证券领域,早在1993年Agrawal 就提出了通过客户的交易数据挖掘其中的项集间的关联规则的方案,随后吸引了诸多相关领域的研究人员对如何挖掘关联规则进行研究,通过引入随机采样、并行等方法对原有的算法进行优化,关联规则挖掘也得到推广。在其基础上,徐晓峰提出了针对证券交易中单交易项数据挖掘的频繁模式链表关联规则挖掘方法,可以有效的提高客户的个性化服务质量。董泽坤则针对关联规则的挖掘算法,提出了ES-Apriori 算法,对关联规则分析过程中的数据库扫描次数进行了简化。

周昌乐基于BP 神经网络容易陷入局部最小解和网络只有一个隐含层的缺陷,提出一种新的部分神经进化网络,增加了网络的隐层数,将预测效果提升了很多。对于非线性时间序列的研究是一个难点,王上飞在充分学习滑动窗口技术的基础上,将其与RBF 神经网络联系起来对国际商业机器公司(IBM)公司股票进行预测,最终得到的股票数据走势基本相同,曲线拟合效果很好。针对股价数据非平稳、非线性的特点,崔建福,李兴绪分别建立GARCH 模型与BP 网络模型对比分析两个模型的预测效果。得到结论:对于波动幅度大的时间序列,神经网络以其较强的泛化能力,使得从非线性角度建模效果优于非平稳角度建模,但BP 网络也存在训练时间长、易陷入局部极小值的问题。

三、数据挖掘

(一)数据挖掘的概念、社会需求

数据挖掘概念最早是由Usama Fayaad 1995年加拿大蒙特利尔的第一届知识发现和数据挖掘国际会议上提出的,它的提出是与计算机科学、人工智能相关的机器学习等发展分不开的,数据挖掘一般是指在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作,以萃取出有用的信息,找出有意义且用户有兴趣的模式,提供企业管理阶层在进行决策时的参考依据。

随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地

实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,必将导致“数据包扎但知识贫乏”的现象。例如,股票经纪人如何从日积月累的大量股票行情变化的历史记录中发现其变化规律,预测未来趋势,从而决定未来投资方向;大型卖场的决策人员怎样才能根据过去几年的销售记录来判断分析顾客的消费习惯和行为,及时变换营销策略?金融领域的经纪人需要从顾客的消费习惯中判断正常消费,减少金融诈骗的发生,等等。数据挖掘能为决策者提供重要的有价值的信息或知识,产生不可估量的效益。目前,数剧挖掘产品尚不常熟,但市场份额却日益扩大。其原因就是越来越多的大中型企业开始利用数据挖掘工具来分析公司的数据,为决策层做出辅助决策,以便于在市场竞争中领先,从而立于不败之地。

(二)数据挖掘过程

数据挖掘的过程大致分为:问题定义、数据收集与预处理、数据挖掘实施,以及挖掘结果的及时与评估。

(1) 问题定义

数据挖掘是为了从大量数据中发现游泳的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也最重要的一个阶段。在这个过程中,必须明确数据挖掘任务的具体要求,同时确定数据挖掘所需要采用的具体方法。

(2) 数据收集与预处理

这个过程主要包括:数据选择、数据预处理和数据转换。

数据选择的目的就是确定数据挖掘任务所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体需求,从相关数据源中抽取出于挖掘任务相关的数据集。

数据预处理通常包括消除噪音、遗漏数据处理、消除重复数据、数据类型转换等处理。

数据转换的主要目的就是消减数据集合的特征维数(简称降维),即从初始特征中筛选出真正与挖掘任务相关的特征,以便有效提高数据挖掘效率。

(3) 数据挖掘实施

根据挖掘任务定义及已有的方法(分类、聚类、关联等)选择数据挖掘实施

相关文档
最新文档