帕累托分布

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

小组成员：142090304 李志慧
142090308 杜晶鑫
142090311 葛霞
142090313 宋志娟
142090321 刘芳
帕累托分布
一、什么是帕累托分布
帕累托分布是以意大利经济学家维弗雷多·帕雷托命名的。

是从大量真实世界的现象中发现的幂次定律分布。

这个分布在经济学以外，也被称为布拉德福分布。

帕累托因对意大利20%的人口拥有80%的财产的观察而著名，后来被约瑟夫·朱兰和其他人概括为帕累托法则（80/20法则），后来进一步概括为帕累托分布的概念。

帕累托分布的提出背景
19世纪末期，意大利经济学家维弗雷多·帕累托认为，贫与富的存在，既是经济问题，也有政治原因。

帕累托在研究英国人的收入分配问题时发现，绝大部分社会财富最终总会流向少数人群；他还发现，某一部分人口占总人口的比例，与这一部分人所拥有的财富的份额具有比较确定的计量经济关系；进一步的研究证实，这种不平衡模式可以重复出现，甚至可以预测。

经济学把这一社会财富的分布状态，称为“帕累托分布”。

帕累托分布可以归纳为一个非常简洁的表述：通过市场交易，20%的人将占有80%的社会财富，如果交易可以不断进行下去，那么，“在因和果、努力和收获之间，普遍存在着不平衡关系，典型的情况是：80%的收获来自20%的努力；其他 80%的力气只带来20%的结果”。

丹尼尔·贝尔在《帕累托分布与收入最大化》中进一步叙述到：“如果待分配的财富总量是100万元，人数为100人，那么我们会有这样一组对应的分配比例：排在前面的20个人，分得80万元；同理，这20人中的4个人，分得64万元；4个人中的1个人，分得50万元。

”
如果我们把这些数据用数学公式简单处理一下，就会显示一条收缩中的“财富曲线”以及一条发散中的“贫困曲线”。

它的最终走向，是必然会“清零”的，也只有如此，“财富”中所包含的生产力因子才能重新释放出来。

帕累托分布从经济学角度论证出，社会分配的“绝对的失衡”必然导致“绝对的贫困”，甚至导致“宗教末日审判”的来临，除非我们可以通过政治手段，人为地阻止财富向高端不断聚集，否则，贫富双方的利益冲突是不可避免的。

二、帕累托参数分布
在帕累托分布中，如果X是一个随机变量，则X的概率分布如下面的公式所示：
其中x是任何一个大于x min的数，x min是X最小的可能值（正数），k是为正的参数。

帕累托分布曲线族是由两个数量参数化的：x min和k。

分布密度则为
帕累托分布属于连续概率分布。

“吉普夫定律”, 也称为“zeta 分布”, 也可以被认为是在离散概率分布中的帕累托分布。

一个遵守帕累托分布的随机变量的期望值为(如果, 期望值为无穷大) 且随机变量的标准差为(如果, 标准差不存在)。

三、帕累托分布参数及背景
操作风险损失的尾部分布和参数的确定：
设X 1 , X 2 , …X n 是操作风险损失样本数据, 用u 表示阀值, 假设超过阀值u 的样本个数为n u , 用X 1 , X 2 , …X n u 表示超过阀值的样本观测值, 设样本X 1 , X 2 , …X n u 独立同分布,分布函数为F(x), 令:
Y i =X i -u i =1,2,3 , …n u
x F =sup x ∈R ;F(x)<1 ≤∞
定义X 相对u 的超额值的分布函数为: F u (y)=P(X -u ≤y X >u)0 ≤y ≤x F –u (1)
显然
F u (y)= F(u +y)-F(u)/1-F(u)=F(x)-F(u)/1-F(u) (2)
由定理(Pickands(1975), Balkema-de Haan(1974))得, 对充分大的阀值u, 超额值的分布函数近似地服从广义帕累托分布 F ξ,μ,σ(x)。

其中:
F ξ, μ,σ (x)= 1-[ 1+ξx –μ/σ] – 1/ξξ≠0
exp {-exp (- x –μ/σ)} ξ=0 (3)
由F(x)=[ 1-F(u)] F u (y)+F(u)得出: F(x)=[ 1-F(u)] F ξ, μ,σ (x -u)+F(u)
其中,ξ是重要的形状参数, μ是位置参数, 而σ是分布的尺度参数。

从理论上讲, 阀值应比较大。

但阀值越大, 用来估计尾部分布函数的样本观察值的数量就越少, 估计的参数变化比较大, 所以需要找到合适的阀值。

在此先研究随机变量X 服从形状参数ξ>0 的帕累托分布时的条件期望e(u)=E(X -u X >u)。

由于X 的分布函数为:
F ξ, μ,σ (x)=1-[ 1+ξ(x –μ/σ) ] – 1/ξ, x ≥μ,于是有:
e(u)= -ξμ+σ+ξu/1-ξ (4)
下面考虑样本平均余值函数:
e(u)= 1 /n u∑n i =1 (X i -u) + (5)
其中:n为样本总数,(X i -u) + 表示大于值u的样本值与u 的差, ∑n i =1 (x i -u) + 表示超过值u 的样本余值的总和, n u = ∑n i =1 l(X i >u)表示大于值u的样本值的个数。

可知, 平均余值函数e(u)是超过阀值损失的真实期望值的经验估计值, 即为e(u)= E(X -u|X >u)的估计值,而由式(4)可知: de(u)/ du=ξ/1 -ξ, 这表明若损失分布的尾部服从形状参数0<ξ<1的广义帕累托分布,则其期望余值是u 的线性函数,且其斜率为正。

据此, 可以用样本数据得出的平均余值散点图在超过某一特定临界值u 0 时基本呈一条直线(或至少具有正斜率)来判定超过临界值u 0 的损失值服从广义帕累托分布, 同时估计u 0 值下面来研究操作风险损失的尾部分布的其它参数估计,为此先考虑条件一阶矩E(X -u|X >u) 和条件二阶矩E[(X -u) 2|X >u] 。

可以证明: E(X -u|X >u)= σ/(1 –ξ) [ 1 +ξ(u –μ/σ)] (6)
E[(X -u) 2|X >u] =2σ2/(1 -ξ)(1 -2ξ) [ 1 +ξ(u –μ/σ)] 2 (7)
将来自总体X 的简单随机样本按从小到大排列, 记为X 1 , X 2 , …X n , u 是一个常
数, 且E[(X -u) k|X >u] 存在且为λ(未知), 记x i = X i -u,n u = ∑n i =1 l(x i >0), λ=1 n u ∑n i =1 1(x i >0)·x k i ,则由条件矩估计理论可知, λ为λ的无偏估计。

为了估计操作风险损失的尾部分布的参数, 可以建立以下参数估计方程:
σ/1 -ξ[ 1 + ξ(u -μ)/σ] =1 /n u∑n i =1 (x i ) +2σ2 /(1 -ξ)(1 -2ξ) [ 1 + ξ(u -μ)/σ] 2=1 /n u ∑n i =1 (x i ) 2+
解得:
ξ={1/ n u ∑n i =1(x i ) 2+ - 2 n 2 u [∑n i =1(x i ) + ] 2}/2 /n u ∑n i =1 (x i ) 2+ - 2 /n 2 u [∑n i =1 (x i ) + ] 2 (8)
σ+ξ(u -μ)= (1 –ξ/)n u∑n i =1 (x i ) + (9)
由于再利用广义帕累托分布的三阶条件矩也只能估计出参数σ+ξ(u-μ)的值,无法有效估计出所要的参数μ和σ的具体值, 因此,在广义帕累托分布的参数估计中, 可以通过结合最小误差拟合方法进行。

具体思想以及操作如下:由第二极值定理, 当临界值u 相当大时, (x i ) + 近似服从广义帕累托分布F ξ,μ,σ(x), 为使拟合效果比较好, 希望(n x +1/ n) -ξ -(1 -Fξ,μ,σ (x)) -ξ尽可能地小。

因此,采用最优拟合标准为:
minμ∑x i >0 [(n (x i +1)/ n) -ξ -(1 -Gξ,μ,σ (x i )) -ξ] 2 (10)
记k = 1 –ξ/n u∑n i =1(x i ) + ,将σ=k -ξ(u -μ)代入式(10)可知:
minμ∑x i >0 [(n x i +1/ n) -ξ -(1 +ξ( x i –μ/k -ξ(u -μ)] 2
解得:
μ={∑x i >0 (k +ξx i -ξu)(k +ξx i -ξu -mk +mξu)}/ {ξ∑x i >0 m(k +ξx i -ξu)} (11)
其中,m =( n x +1/ n) -ξ, n x =∑n i =1 1(x i >x) 于是:σ=k +∑x i >0 (k +ξx i -ξu)(k +ξx i -ξu -mk +mξu)/{∑x i >0 m(k +ξxi -ξu)}-ξu (12)
这样便得到基于条件样本的广义帕累托分布的
参数估计值, 即操作风险损失超出阀值u 的样本值
的极端损失分布函数为:
F(x)=[ 1 -F(u)] F ξ,μ,σ (x -u)+F(u)= 1 - n u n (1 +ξ(x -u –μ/σ)) - 1ξ(13)
四、参数的分布形态
X 服从帕累托分布，则其概率密度函数（p.d.f.）是这样：
f(x) = a c^a / x^(a+1)，当x 不小于c。

当x < c 时f(x) = 0。

其累积分布函数（c.d.f.）为：
F(x) = 1 - (c / x)^a，当x 不小于c。

当x < c 时F(x) = 0。

其中常数c 为随机变量X 的最小可能取值，常数a 是决定分布形状的参数。