上证指数的有序聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从而得到 1, 2, 3分为 2类是分类方法 {1, 2} , { 3} (括号内的数字代表分类达到最小的最后一类的始
27
编号 ). 其次 ,计算 m in{ e ( P ( i, j) ) , 4 ≤ i ≤ 12, 3 ≤ j ≤ 11} .
根据算法 (1)计算得到最小误差函数 e ( P ( i, j) ) ,结果列于表 3,括号内的数字含义同上.
表 3 最小误差函数 e ( P ( i, j) )
2
3
4
5
3
3 594. 7 (2)
4
18 686 (4)
3 594. 7 (4)
5 2. 432 5e + 005 (4)
18 686 (5)
3 594. 7 (5)
6 2. 535e + 005 (4) 1. 240 7e + 005 (5) 18 686 (6) 3 594. 7 (6)
K
∑ e ( P ( n, K) ) = D ( ij, ij+1 - 1) . j =1
考虑到总离差平方和 :
n
K
K
∑ ∑ ∑ ST >
( xi - x) ′( xi - x) ′=
D ( ij , ij+1 - 1) +
( ij+1 - ij ) ( xij, ij+1 - 1 - ′ x ) ( xij, ij+1 - 1 - x ) =
杨春华 ,刘润智
(重庆文理学院 数学与计算机科学系 ,重庆 永川 402160)
[摘 要 ]本文利用多元统计分析的聚类分析法对 2007年的上证指数 A 股的最低综合股价指 数进行实证分析 ;根据金融时间序列的顺序关系进行有序聚类分析 ,将 2007年的上证指数 A 股的最低综合股价指数进行实证分析 ,并认为分为 2类或 3类较好. [关键词 ]上证指数 ;聚类分析 ;有序聚类分析 [中图分类号 ]O212 [文献标识码 ]A [文章编号 ]1673 - 8012 (2008) 03 - 0026 - 04
1 算法分析
第 1步 :定义类的直径.
设变量的某一归类是 { xi , xi+1 , …, xj } , i ≤ j ,其均值向量是 :
j
∑ xij
= j-
1 i +1
l=i
xl .
j
∑ 常用公式 D ( i, j) = ( xl - xij ) ′( xl - xij ) ,定义为类 { xi , xi+1 , …, xj } ( i ≤ j) 的直径. 其含义为该 l=i
2008年 6月 第 27卷 第 3期
重庆文理学院学报 (自然科学版 ) Journal of Chongqing University of A rts and Sciences (Natural Science Edition)
Jun1, 2008 Vol127 No13
上证指数的有序聚类分析
……
6
1. 448 6e + 006 1. 201 2e Hale Waihona Puke Baidu 006 7. 056 2e + 005 2. 348 2e + 005 1. 053 9e + 005 ……
…… ……
……
……
……
……
……
第 2步 :计算最小误差函数 m in{ e ( P ( i, j) ) , 3 ≤ i ≤ 12, 2 ≤ j ≤ 11} . 首先计算 m in{ e ( P ( i, 2) ) , 3 ≤ i ≤ 12} . 例如 ,计算 :
表 2 直径 D ij
1
2
3
4
5
……
2
3 594. 7
……
3
18 686
18 596
……
4
2. 876 5e + 005 2. 545 9e + 005 1. 242 8e + 005
……
5
1. 289 9e + 006 1. 108 2e + 006 6. 878 6e + 005 2. 245 6e + 005
i =1
j =1
j=1
e ( P ( n, K) ) + eA ( P ( n, K) ) .
∑ 其中 ,
x
=
1 n
n i =1
xi 是均值向量 ;
eA
( P ( n,
K) ) 叫作类间平方和 ,是反映各类之间的差异的. 当
n,
K
固定时 , ST 为一个常数. 显然 ,当 e ( P ( n, K) ) 越小 , eA ( P ( n, K) ) 越大 ,分类越合理. 因此 ,最优分法也
2 实证分析
用中国人民银行网站提供的金融股票交易统计数据 ,采取 2007年的上证指数 A 股的最低综合股
价指数进行实证分析. 原始数据见表 1. 由于一般的统计分析软件没有有序聚类分析的实现 ,故使用
matlab7. 0软件编程实现.
表 1 原始数据
时间 1月
2月
3月
4月
5月
6月
7月
8月
9月 10月 11月 12月
于是 ,又得到第 K - 1类 Gk - 1 = { 1, 2, …, jK - 1}. 由类似方法依次得到分类. 可见 ,求最优解只要计算
出 { D ( i, j) , 1 ≤ i ≤ j ≤ n} 和 { e ( P ( i, j) , 1 ≤ i ≤ n, 1 ≤ j ≤ n} , 并进行适当的判断即可 . [ 4, 5 ]
在金融市场分析中 ,技术分析和基本面分析是两大分析方法. 进行技术分析的人士认为 : ( 1)市场
行为包含一切信息 ; (2)价格呈趋势运动 ; (3)历史会重演. 对于金融时间序列研究的主要方法是建立
合适的回归预测模型. 文献 [ 1 ]对金融时间序列建立 ARCH 模型. 文献 [ 2 ]对金融时间序列建立相关
7 2. 590 5e + 005 (4)
……
……
1. 265 4e + 005 (5) ……
32 916 (6) ……
17 825 (6) ……
6
……
……
……
……
……
3 594. 7 (7) ……
…… ……
第 3步 :进行分类. 例如 ,我们现在想分为 3类 ,即 k = 3. 由数据知道 , e ( P ( 12, 3) ) = 1. 069 8e + 006,相应的首次分
为记号简单 ,变量 xi 就用下标 i来表示. 设将 n个有序变量分成 K类 ,某一分法为 :
3 [收稿日期 ]2008 - 03 - 05 [作者简介 ]杨春华 (1973 - ) ,女 ,四川自贡人 ,讲师 ,硕士.
26
P ( n, K) : { i1 = 1, i1 + 1, …, i2 - 1} { i2 , i2 + 1, …, i3 - 1} …{ iK , iK + 1, …, n} . 其中 , i1 = 1 < i2 < … < iK ≤ n. 定义这一类的误差函数为 :
第 4步 :决定 k . 如果能够直接从经济意义决定最好 , 从图形 1上可以看到明显的拐点在 ( 2, 3)之间 ,分类数为 2
或 3类较好. 例如分为 2类 ,可以发现在 1至 7月内上证指数 A 股的最低指数在缓慢地增加 ,同时 8 至 12月之间在高位震荡. 3 结果分析与相关讨论
2007年是股市震荡剧烈的一年 ,股指在短短的一年 ,增长幅度太大. 前 5个月股指小幅增长 ,由于 5月 30日国家进行宏观调控 , 6月份股指回落 , 7、8、9、10 月大幅上扬 , 10、11、12 月股指大幅震荡. 本 文选择上证指数 A 股的最低综合股价指数进行有序聚类分析. 首先 ,我们采用的数据是上证指数 A 股 的最低综合股价指数 ,主要是为了反映股指的最差情形. 在这里 ,换为上证指数 A 股的平均综合股价
数据分成多个不同的组 ,使得每个组内的数据尽可能相似 ,而不同组中的数据具有明显的差别. 常用
的聚类分析不太适合金融时间的聚类分析. 我们考虑到金融时间序列的时间先后的顺序 ,建立有序聚
类分析.
本文建立金融时间序列的有序聚类分析 ,对 2007年上证指数进行实证分析. 有序聚类分析有精
确最优解方法 :费歇算法.
(1)
i1 = 1 < i2 < … < iK≤n
K≤j≤n i1 = 1 < i2 < … < iK- 1≤j- 1
第 4步 :精确最优解.
由 (1)式 ,首先确定
jK
,使
m in
e(P( j -
i1 = 1 < i2 < … < iK- 1≤j- 1
1, K -
1) )
+ D ( j, n) .
m in e ( P ( 3, 2) ) = m in { D ( 1, j - 1) + D ( j, 3) } = m in{ D ( 1, 1) + D ( 2, 3) , D ( 1, 2) + D ( 3, 3) } 2≤j≤3 = m in{ 0 + 18 686, 3 594. 7 + 0} = 3 594. 7 ( 2) ,
就是使 e ( P ( n, K) ) 达到最小的一种分法.
第 3步 : m in e ( P ( n, K) ) 的递推公式为 : i1 = 1 < i2 < … < iK≤n
m in e ( P ( n, K) ) = m in {
m in
e ( P ( j - 1, K - 1) ) + D ( j, n) }.
的 AR IMA 和对误差项进行拟合等.
最常用的时间序列分析除了用上述的回归模型外 ,用得较多的是对时间序列进行分割. 时间序列
分割是将长度为 n的时间序列分为 k段 ,对各段分别使用不同的模型进行描述. 如何准确对时间序列
进行分割才能取得所需的效果 ,需要进行分析.
聚类分析是把一组物理或抽象对象按照相似性归为各类 ,也称为“无指导分类 ”. 它是将整个目标
最低价 2 753. 12 2 668. 33 2 861. 18 3 359. 73 4 029. 90 3 570. 80 3 739. 50 4 494. 21 5 275. 70 5 734. 09 5 015. 93 5 034. 41
j
∑ 第 1步 :计算直径 D ( i, j) = ( xl - xij ) ′( xl - xij ) ,得到所有的直径的计算结果列于表 2. l=i
表 4 上证指数分类情况表 分类
(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) (1, 2, 3, 4, 5, 6, 7) , (8, 9, 10, 11, 12) (1, 2, 3, 4, 5, 6, 7) , (8) , (9, 10, 11, 12) (1, 2, 3, 4, 5) , (6, 7) , (8) , (9, 10, 11, 12 ) (1, 2, 3, 4, 5) , (6, 7) , (8) , (9, 10) , (11, 12) (1, 2, 3, 4, 5) , (6, 7) , (8) , (9) , (10) , (11, 12) (1, 2, 3, 4) , (5) , (6, 7) , (8) , (9) , (10) , (11, 12) (1, 2, 3) , (4) , (5) , (6, 7) , (8) , (9) , (10) , (11, 12) (1, 2, 3) , (4) , (5) , (6) , (7) , (8) , (9) , (10) , (11, 12) (1, 2) , (3) , (4) , (5) , (6) , (7) , (8) , (9) , (10) , (11, 12) (1) , (2) , (3) , (4) , (5) , (6) , (7) , (8) , (9) , (10) , (11, 12)
类位置为 9;再将 9个元素又分为 2类 ,分类位置为 8,故分类结果为 : {1, 2, 3, 4, 5, 6, 7} , {8} , {9, 10, 11, 12}. 总的分类情况列于表 4.
分类数 1 2 3 4 5 6 7 8 9 10 11
e ( P ( n, k) ) 1. 224 5e + 007 2. 502 2e + 006 1. 069 8e + 006 5. 944 2e + 005 3. 642 8e + 005 2. 317 7e + 005 1. 267 1e + 005 33 086 17 995 3 765. 4 170. 76
变量段 { xi , xi+1 , …, xj } 内各部分变量之间的差异情况. D ( i, j) 越小 ,表示该段内变量的差异越小 ,或
者说相互间越接近 ;反之 , D ( i, j) 越大 ,则表示该段内变量之间的差异越大 ,或者说相互间越分散. 当
然 ,刻画距离时也可以采用其他的距离.
第 2步 : 定义误差函数.
相关文档
最新文档