金融时序中异常数据挖掘算法设计及实证分析-中国管理科学

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

创 新 异 常 值 ( innovat ion out liers, 简 记 为 IO) 在通常的意义下只是 一个孤立的数据 , 但 在时间序列中, 由于内在的相关结构, 它的存在会波 及到后面的数据 , 从而使这些数据也表现出一定的 异常 , 容易出现成串的异常数据, 并从本质上改变未 来的数据趋势。正是创新异常的存在会改变一段时 间乃至今后的整体趋势, 故而成为金融统计分析与 金融数据挖掘需要 着重研究的问题 [ 3- 6] 。本文 就 如何用传统的线性 模型方法 对时间序列 中的 创新异常进行行之有效的挖掘和识别进行了探讨。 在金融统计分析中 , 这种异常值往往携带重要的投 资信息, 如何快速、 有效的从这些时间序列中挖掘出 这些重要的信息 , 是实际中无法回避的问题。
因为我们要采用线性模型下的数据诊断的方法
3 1 时间序列的线性平滑和模型选择 来检出和判别异常值 , 所以我们首先应对原始数据 作变换, 以弱化原时间序列的相关性并使之满足经 典线性回归的各项假 设条件[ 8] 。记股 票的收盘价 为序列 : P 1 , P 2 , y t = - Rt = , P t , P t+ 1 , 我们对数据作变换: , P t+ 1 - P t , t = 1, 2, Pt
1
引言
[ 1- 3]
显不协调的单个或集团数据 , 异常值可以解释为所 假定分布中的极端值, 即落在分布的单侧或双侧 分位点以外的数据 ; 二是把异常值视为杂质点, 它与 数据的主体不是来源于同一分布 [ 2] 。 时间序列中的异常值的表现是多种多样的 , 但 是 , 通过数据变换 , 我们可以将其归纳为以下三类: 加性异常值 A O , 创新异常值 IO 1 , 创新异常值 IO 2 。 ( 见图 1) 。
[ 7- 8]
2
时间序列中的异常值及其分类
异常值有多种定义方式 , 在统计诊断中讨论较 多的是残差相对非常突出的数据 [ 9] , 这样的数据在 统计推断中会引起大的失误, 从而影响到基于此的 模型结构和预测效果。在理论和实际应用当中 , 都 存在如何探测异常值以及对检出的异常值如何处理 的问题, 虽然异常值的概念很容易让人明白, 但要给 它下一个精确的定义相当困难 , 目前国际上有两种 较为流行的看法 : 一是把异常值看成与数据主体明
收稿日期 : 2003- 05- 27; 修订日期 : 2004- 03- 31 作者简介 : 杨虎 ( 1963- ) , 男 ( 汉族 ) , 四川人 , 重庆大学数理学院 院长 , 教授 , 博 士, 研究方向 : 线 性模型、 金融 统计、 统 计诊断与数据挖掘
图 1 异常点分类举例
3
基于线性模型下异常值的检测与类型判别
2
型 ( 3 1) 而言 , 在无异常值的回归模型中我们通常假 设 en = ( y n - y n ) ~ N ( 0 , 2 ) 从而 y n ~ N ( X ,
2
XL
-1
-
X ) 对 一 维 情 形, 有 X L
n t= 1 -
T百度文库
-1
X
T
=
1 n +
可以建 ( 3 1)
立如下模型: Y = 0+ 1t + e 3 2 异常值的检测 )
400044) ( 重庆大学数理学院, 重庆

要 : 金融市场中的数据由于其内在联系 , 通常表现 为相互 关联的时 间序列。 本文主 要讨论如 何将金 融市场 中
时间序列模型 简化为相应的线性模型 , 继而用传统的 线性模 型方法 去检验异 常值的 存在 , 并且判 断该异 常值是 加 性异 常值还是创新异常值。创新异常值的挖掘对于金融风险的研究不仅具有理论 上的意义 , 而且具 有很强的现 实 意义。最后进行了算法的实证分析 , 结果表明本文的两种 方法在金融市场的研究中是可行的并且行之有效。 关键词 : 金融时间序列 ; 创新异常 ; 信息准则 中图分类号 : F830 文献标识码 : A
8
中国管理科学
[ 10]
2004 年
则 y t 相互独立
, 并且当没有异常值时 , 假定 y t 具
2
有相同的分布 N ( 0, ) 是可以接受的 ( 由于样本容 量较大, 且对同一个品种连续的一段周期。 当然在实 际中可以视情 况进行独立正态 性检验 ) , t = 1, 2, , 其中 未知。 这样, 我们对序列 y 1 , y 2 , e ~ N ( 0,
( x - x )2 其中 L xx = Lxx 又因为 y n 与y n- 1 , ~ N ( 0,
2
(xt- x) 。 , y 1 相互独立, 因此 y n - y n
n- 1
2
( 1+ X L
- 1
X ))。 令 Qe =
t= 1
T
^ t ) 2, (yt - y
在回归诊断的框架下, 可以从两个方面进行探 讨: ( 1) 残差分析 ( Residual Analysis) 这主要是 从模 型假设的合理性方面进行研究 , 考虑的统计量多为 残差, 其中包括 : 普通残差, 预测残差 , 学生化残差 , 递归残差和不相关残差等, 这样做是因为从残差中 我们可以看出拟合的效果, 而异常数据就是那些拟 合效果 较差的点; ( 2) 影响分析 ( Influence analysis) 这主要是探察对统计推断 ( 如估计或预测) 有较大影 响的试验数据, 我们期望每组数据对统计推断都有 一定的影响, 但这种影响又不要过大, 如果某组数据 的影响过大 , 那么包含这组数据的经验回归方程与 不包含这组数据的经验回归方程差异很大, 于是经 验回归方程关于数据就不具有 稳定 性, 从而进行 预测的基础就不复存在了 [ 11] 。 基于上面的回归诊断思想 , 可以建立如下的检 验和判别异常数据的方法 : 方法一: 从影响分析入手 传统的度量试验数据点对统计推断影响大小的 量, 如 Cook 距离、 AP 统计量[ 2] , 是以全部的数据点 做出系数 ( (I ) 的最小二乘估计 , 并以此为基准 , 考虑 ) M( ( I) c ) 每次 删 除一 个 或多 个 数据 点后 系 数 的改 变 度 量 , 并以 此作 为 判别 异 常
第 12 卷 2004 年
第3期 6月
中国管理科学 Chinese Journal of Management Science
Vol. 12, No. 3 Jun. , 2004
文章编号 : 1003- 207( 2004) 03- 0007- 05
金融时序中异常数据挖掘算法设计及实证分析
杨 虎, 李 强
相关文档
最新文档