浅谈分形统计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈分形统计
吴争程
福州大学管理学院统计系(350002)
E-mail:wuzhengcheng618@
摘 要:如果真实世界不是按标准正态分布的,那我们在正态的假设前提下所做的统计推断就可能出错。分形描述一种更符合现实的分布,它承认现实是混乱和复杂的。分形统计与高斯统计的不同在于如何看待不确定性。分形认为不确定性不等于随机性,混沌系统是在随机的初始条件按照特定规则产生的,是随机性和确定性的结合,是局部随机和全局秩序。其实高斯统计是分形混沌方法的特例。认识分形的意义在于排除先验思想的干扰,真正认清要研究的问题和对象。
关键词:分形 混沌 统计
1.什么是分形和分形统计
分形(Fractal)是关于动力系统或超复杂系统的轨迹在某一空间上的维数不是整数而是分数的一种说法。分形最早源于几何学概念,可以用来描述大多数自然形状和时间序列。分形认为事物是不可逆的,有时间方向上的变化;分形对象具有广泛的规模变化范围;分形用分形维来描述对象是如何充满空间的,分形是可以是粗糙的,不连续的,它的维数可以是整数的也可以是分数的,它不像传统的认为物体只有整数维:一维直线、二维平面、三维立体。分形形状在空间上显示自相似性,分形时间序列在时间上显示自相似性。简单的说,分形是指一个对象,其部分以某种方式与整体相关,其各个组成部分是自相似的。一切具有分形性质的形状或序列,其特点在于局部的随机性和整体全局的秩序。分形认为不确定性不等于随机性,不确定性是以初始条件的敏感性为前提,并由此反映过程的稳定与不稳定性。
分形分布具有如下特征:(1)自相似性:只要特征指数α和偏斜度参数β保持不变,无论规模参数c如何变化均不会改变同一范围内的概率。序列是无穷可分的,具有自相似的统计结构。(2)跳跃性(非连续性):分形分布的胖尾是由反馈效应导致的,在时间序列里的反馈效应在过程当中产生了跳跃。分形过程中的大变化是从少量的大变化产生的,而不是正态分布中所暗示的大量的小变化产生。(3)加法下的稳定性:服从分形分布的观测值,只要具有相同的α和β,相加之后同样服从分形分布。
分形统计学以分形分布为核心,与传统的高斯统计相比,它在数据处理方面不是在纯随机背景的假设上进行推导,而是可以看成一种数据挖掘 (储海林,2004),他反映的是过程本身由映射所产生的结构的和技术的信息,是从真实数据中取得了非线性动态特征。
2.传统统计方法的不足
统计工作一般包括四个阶段:数据搜集、整理、分析和推断。对统计资料的分析是统计工作的核心。但其实从一开始收集数据,分析就已经发生作用了。传统的统计分析就是高斯统计分析,它的原则思想是把数据假设为独立,按照大数定理和中心极限定理进行统计描述分析和推断。我们并不否认传统的统计分析方法的意义和功劳,但是这种统计分析方法已经
- 1 -
呈现出明显的不足和缺陷:
2.1人类的行为是复杂的
行为心理学考察人们实际上是如何决策的。行为科学家发现人们是以称为启发法的经验法则为基础进行决策的。启发法是指处理复杂问题和有限的描述信息的简化策略。这种决策方法并不总是最优的,也就是说行为科学家发现人们在实际决策中并不是严格按照贝叶斯分析的概率行事。另一个研究复杂行为的领域——模糊集合证实了这点。模糊集合是与清晰集合相对的,面临复杂情况时,清晰集合严格遵循矛盾律和排他律,过于追求精确而丧失了有用性。模糊集合引入了分数值,用模糊隶属函数来定义一个对象对于一个集合的概念的相似程度。一个隶属函数是对复杂状态的描述,增加数据或抽样不会改变它的值,而概率是依赖于频率和机会的,进一步抽样可能会改变概率。人们经常混淆了概率和模糊隶属函数。人们是按照模糊逻辑进行决策,以致产生了许多“非理性”的行为。因此人类的行为是复杂的,这种复杂行为导致了现实中众多偏离正态分布的统计特性。除了某些非常特殊的情况,人类行为的理性模型通常是不成立的。
2.2简化假设是不适用的
传统的统计方法通过对现实的简化假设(随机、独立)等来建立模型,优化模型,寻求单一的最优解。最为典型的例子就是资本市场的“有效市场假说”。“有效市场假说”就是假设观测值是呈现随机性、独立性和正态性的,投资者是理性的。但是越来越多的理论与经验事实证明了市场不是简单有秩序的,而是混乱与复杂的,“有效市场假说”是不成立的。人类的复杂行为必然导致以人类活动为主体的市场出现大量不符合正态分布的例子。一个健康的市场或经济不是趋向均衡状态而是远离均衡状态的,它是个非线性动力系统,它既混乱又复杂,使用标准统计分析,建立简单线性微分方程的模型,无法完全解释现实情况,并很可能导致错误的结论。
分形统计承认生活是复杂和混乱的,存在许许多多的可能性。分形使得数学模型更加复杂,但是结果更接近实际。它是复杂理论的一个子集,可以让我们在无法准确度量的情况下,识别复杂对象的定性方面。
3.分形对标准统计学的影响
3.1正态分布是分形分布的特例
标准正态分布的均值为0,标准差为1,呈现标准的钟型状态。分形分布描述的是一种尾部比正态分部胖,峰部比正态分布高的分布。分形分布中用来度量分布尖峰程度和分布胖尾程度的参数α的取值范围从0到2,包括0和2。当α=2时,分布等价于正态分布,因此正态分布可以看成分形分布的特殊情况。分形方法是从时间序列切入统计学的。分形维在描述时间序列如何填充其空间时,包含了所有对于生成这一时间系列系统发生影响的产物。一个时间序列只有当它被许许多多的发生的可能性相等的事件所影响时才是随机的,否则数据会团在一起,反映出影响的内在相关性,即时间序列是分形。分形时间序列的特征是长期相关性,它并不像传统分析方法一样忽视时间,或把时间看成和其他变量一样的变量。分形认为观测值之间并不是独立的,每个观测都受到它之前所有发生的事件的影响,近期事件的影响到比远期大,但是残留影响总是存在的。时间是重要的,任何一个系统都是一长串相互
- 2 -
联系的事件的结果。一个被称为“赫斯特指数”(H)的统计量证实了这种相关性。当H=0.5 时,说明一个序列是随机的,事件之间是不相关的。现在不会影响未来。但是当H 不等于0.5时,观测值之间不是独立的,它的概率分布就不是正态的。当0.5 尽管有许多研究发现了自然系统或是资本市场并不完全符合正态分布,我们在一般统计分析是仍然是假设正态分布或近似正态分布,并把极端值认为是小概率事件。在此基础上建立起来的理论不能完全符合现实,也不能很好的解释现实,在些基础上时进行的推断分析就有可能成为无稽之谈。 3.2风险的统计学概念—标准差—亟需修正 标准差度量一个观测值偏离平均观测值某一特定距离的概率。这个数越大,观测值的离散程度就越大。标准差通常用来测定风险的大小。但是我们应该注意到,只有在正态分布时,方差才是稳定和有限的,只有当其背后的系统是随机的时,标准差才能作为离散的有效度量。如果观测值之间是相关的,则标准差度量离散度的有效性就要大打折扣。 正态分布下,标准差随时间增量的平方根进行缩放。而分形发现:由于分形的长期相关性和统计上的自相似性对时间序列的影响,当时间标度调整后,概率分布会保持同样的形状,它们会保持其统计特性。分形采用重标极差法(R/S分析法),用观测值的标准差去除极差的方法,建立一个无量纲的比率,从而估算出赫斯特指数。研究发现,时间增量变化后,这个赫斯特指数(H)保持稳定不变。这个H统计量对其背后分布的形状未做任何假定,它描述了相邻事件发现的可能性。H越接近于1,具有相同符号的相邻观测值就越多,序列的噪声也越来越小,参差不齐程度越来越小,趋势越来越明显。赫斯特指数及其倒数分形维可以用来定性的区分两个时间序列。当标准差用来度量离散度的有效性受到怀疑时,通过对比标准差来比较两个时间序列的意义也就不大了。分形维可以用来度量时间系列参差不齐的程度。如果一个时间序列的分形维大于另一个时间序列,则认为第一个时间序列比第二个时间序列更参差不齐。分形维是定性的区分两个时间序列的一种有效方法。 正态分布认为一个大变化是由很大数目的小变化引起的,但是它无法解释资本市场上的大暴跌和大逆转事件。分形则认为大变化是通过很小数目的大变化而发生的。大的变化通常是不连续和突然的。这个特性的技术名称叫做无限方差征群。这样的系统容易有突然和激烈的逆转。这里有一个临界值,就像压垮骆驼的最后一根稻草一样,骆驼突然垮下是一个非线性反映,因为在骆驼垮掉和那根特定的稻草之间没有直接关系。而是所有重量的累积效应最后超过骆驼站直的能力(临界水平),而使得骆驼垮下。这样的情况下,分形认为标准差是无定义没有均值的,总体方差不存在,时间序列具有反持久性。 3.3周期与非周期 传统的分析以历史相似之处来确定周期。而分形发现现实是非周期性的,它倾向于具有趋势和循环。用R/S分析可以测算出平均循环长度。在资本市场上,对不同的时间增量,即 - 3 -