基于聚类技术的股市基本趋势规律挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【证券市场】
基于聚类技术的股市基本趋势规律挖掘
张 杨 宋 恒
摘 要:本文提出采用技术指标构造特征空间,在特征空间上用模糊核聚类算法寻找股市规律的股市技术分析方法。对1997年以来的沪市大盘指数进行了实证分析试验,识别出了市场基
本趋势的演化规律,显示出该方法具有长期预测市场发展方向的能力。
关键词:股票 技术分析 聚类 长期预测
一、概述
技术分析是一种具有两百多年历史的完全根据市场行情变化来进行分析的股市分析方法。传统技术分析方法众多,但没有一种能普适于市场,根本原因在于所采用的数学工具不能深入挖掘到市场本质规律。
二十世纪60年代开始,基于数据的机器学习理论[1]开始发展,并迅速在股市数据挖掘中得到应用,主要是从函数拟合的角度作时间序列预测。神经网络作为一种具有自学习能力的高度非线性系统,理论上能在任意精度上逼近任一定义在致密集上的非线性函数,在时间序列预测问题上表现出非凡的优越性。但由于神经网络缺乏统计意义,在对股市这样一个样本数据(历史数据)有限且存在大量噪声的系统进行分析时,必然陷入难以解决的过学习和欠学习问题。有文献[2,3,4]利用小波变换在拟合前对数据进行过滤,取得了一定效果,但因为股市噪声概率密度的未知,本质上也只能起到平均平滑的作用。1989年美国学者Schinkman和LeBaron发现了股票日收益序列与周收益序列中存在混沌现象[5]。股市中混沌现象的发现,从动力学的角度证明了对股市数据进行时间序列预测的科学性,但同时也说明了时间序列预测在股市中只能具有短期效应。
在本文中,我们提出从统计模式识别的角度挖掘股市规律的思想。在分析了技术指标在技术分析中的地位后,提出用技术指标建立特征空间。在对股市数据空间结构研究的基础上,设计出模糊主轴核聚类算法。我们以道氏理论为专业知识,对1997年以来沪市的基本趋势进行了聚类分析,并进行了中短期和长期识别试验。结果表明,该方法能实时的识别出市场形态,并具有长期预测能力,不失为现代信号处理技术条件下股市技术分析的新方向。
二、股市聚类分析方法
我们把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,把模式所属的类别或同一类中模式的总体称为模式类。模式识别就是用分类器对待识别的样本进行分类决策的过程[6]。基于统计的模式识别系统的基本构成如图1所示:
图1 模式识别系统的基本构成图
从模式识别的角度来考虑股市分析,具体如下:
(1)信息获取就是对研究对象进行测量、采样、量化,用计算机可以运算的符合来表示所研究的对象。股市基本数据(开盘价、收盘价、最高价、最低价、成交量等)都是时间序列数据,非常便于计算机处理,所以对股市的信息获取就是实时获得其基本数据。
(2)预处理一般为滤波,去除信息中的噪声。因为股市是一种巨复杂系统,其发展过程受到很多因素
(经济运行、公司盈利能力、政治环境和‘技术性交易者’的行为等)的协同影响,到目前为止还不能清楚把握股市信息和噪声的分布特性,所以对股市数据只能采取平滑技术进行预处理。本文采用没有时延的指数平滑法,计算公式如下:
EX PM A 1=C 1
EX PM A 1=n -1n +1EX PM A i-1+2n +1
C i 其中C i 表示第i 日的收盘价,n 是指数平滑因子,本文取n =30。
(3)特征提取和选择是为了有效的实现分类识别,对原始数据进行变换,得到最能反映分类本质的特征,建立特征空间。在股市技术分析中,技术指标实际上就是一种特征提取方式。为了构造便于聚类的特征空间,一般来说要对技术指标进行压缩或伸展处理。
本文研究的是大盘指数,根据尽可能反映市场特征和便于聚类的原则,我们构造出一种特征空间:将大盘指数的六个技术指标[7](迪马克尔指标DM KI 、聚散指标A/D 、相对强弱指标RSI 、移动平均摆动量MAOSC 、资金流动指数MFI 、量相对强弱指标VRSI )经适度伸缩后结合为六维特征空间。
(4)分类决策就是根据设计好的分类器,在特征空间中用统计方法对被识别对象进行归类。对于股市这种巨复杂系统,状态在不断的演化,估计概率密度函数很困难,所以非监督模式识别中的聚类方法适合于股市形态识别。用聚类方法进行股市分析存在很大的不确定性,主要原因在于在股市分析问题中我们没有已知类别的训练样本集,甚至不知道类别数,只能根据样本间的相似性度量(距离信息)进行分类。如何有效的对股市进行聚类识别,必须从三方面来考虑:一是特征空间的构造,包括技术指标的选取和空间尺度的伸缩;二是聚类算法的设计,包括距离度量、聚类准则的选取,以及核函数的构造;三是尽量利用证券分析领域的专业知识,以弥补信息的不足。
本文对构造的股市数据特征空间研究发现,其样本分布复杂,绝不会单纯的呈球状或近球状分布。所以,我们设计了一种基于样本和核的相似性度量的模糊主轴核聚类算法。该算法在样本分类数目未知的情况下,不仅能对类的自然分布为球状或接近球状的样本作有效聚类,对一些类的自然分布为非球状的样本也能作出较有效聚类。该算法具体步骤如下:
步骤一 对n 样本y 1采用最近距离、最远距离、均值距离三种相似性度量分别进行分级聚类,得到各自的分类数目C i ,保留C i ∈[2,4]的聚类结果,并通过K -L 变换得到主轴核函数K ij 。
其中i =1,2,3 j =1,...,C i l =1,...,n
步骤二 进行模糊聚类
for i =1,2,3
a.初始划分选为C i ,初始核为K ij 。
b.按下列规则:
u j (y l )=(Δ(y l ,K ij ))-1/(b-1)
∑(Δ(y l ,K ij ))-1/(b-1),b >1若u j (y l )=max (u j (y l ))
则y 1∈
Γij (将每个样本y l 分到相应聚类Γij 中)。c.按K -L 变换重新修正主轴核函数K ij ,计算聚类损失函数J i
J i =∑j ∑i (u j (y i ))b
Δ(y l ,K ij )
若J i 改变低于某一阈值θ,继续进行下一步运算,否则转回到b 。
end
步骤三 判断最优聚类。
按下列规则:
若J i =min (J i )
则Γij 为最优聚类。
算法中Δ为欧氏距离。本文实证分析的目的是希望识别出道氏理论指出的基本趋势的演化形态,所以限制分类数目在2到4之间。