第3章-正态分布时的统计决策

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3章 正态分布时的统计决策

在统计决策理论中,涉及到类条件概率密度函数)|(i w x P 。对许多实际的数据集,正态分布通常是合理的近似。如果在特征空间中的某一类样本,较多地分布在这一类均值附近,远离均值点的样本比较少,此时用正态分布作为这一类的概率模型是合理的。另外,正态分布概率模型有许多好的性质,有利于作数学分析。概括起来就是: (1) 物理上的合理性 (2) 数学上的简单性

下面重点讨论正态分布分布及其性质,以及正态分布下的Bayes 决策理论。

3.1 正态分布概率密度函数的定义及性质 1.单变量正态分布 定义:])(21ex p[21

)(2

σμσπρ--=

x x

(3.1-1)

其中:μ为随机变量x 的期望,也就是平均值;

2σ为

x 的方差,σ为均方差,又称为标准差。

⎰∞∞

-⋅==dx x x x E )()(ρμ (3.1-2)

∞∞

-⋅-=dx x x )()(22

ρμσ

(3.1-3)

概率密度函数的一般图形如下:

)(x ρ具有一下性质:

)(,0)(∞<<-∞≥x x ρ

1)(=⎰∞

∞-dx x ρ (3.1-4)

从)(x ρ的图形上可以看出,只要有两个参数2σμ和就可以完全确定其曲线。为了简单,常记)(x ρ为),(2σμN 。若从服从正态分布的总体中随机抽取样本x ,约有95%的样本落在)2,2(σμσμ+-中。样本的分散程度可以用σ来表示,σ越大分散程度越大。

2.多元正态分布 定义:∑---∑=

-)]()(21

ex p[|

|)2(1)(12

12μμπρx x x T d

(3.1-5)

其中: T d x x x x ],,,[21 =为d 维随机向量,对于d 维随机向量x ,它的均值向量μ是d 维的。也就是:

T d ],,,[21μμμμ =为

d 维均值向量。

∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,||∑为∑的行列式。协

方差矩阵∑是对称的,其中有2/)1(+⨯d d 个独立元素。由于)(x ρ可由μ和

∑完全确定,所以实际上)(x ρ可由2/)1(+⨯+d d d 个独立元素来确定。

T x )(μ-

是)(μ-x 的转置,且:

}{x E =μ

}))({(T x x E μμ--=∑

μ、∑分别是向量x 和矩阵T x x ))((μμ--的期望。具体说:若i x 是x 的

第i 个分量,i μ是μ的第i 个分量,2ij σ是∑的第i 、j 个元素。

⎰∞

-===i i i i i i dx x x dx x x x E )()(][ρρμ

(3.1-6)

其中)(i x ρ为边缘分布,⎰

⎰∞

-∞

∞-=d

i dx dx dx x x 21)()(ρρ

―――――――――――――――――――――――――――

“对于二维随机变量X 和Y 作为一个整体,其分布函数F (x ,y ),而X 和Y 都是随机变量,各别也有分布函数F X (x)、F Y (y),分别称为二维随机变量(X ,Y )关于X 和Y 的边缘分布函数。有:

),()(+∞=x F x F X 和),()(y F y F Y +∞=。

对于离散随机变量有:

∑∑≤∞

==

+∞=x x j ij

X i p x F x F 1

),()(从中得到X 的分布律为:

∑∞

===1

}{j ij i p x X P 同样,Y

的分布律为∑∞

===1

}{i ij j p y Y P 。

对于连续型随机变量(X ,Y ),假定它的概率密度为),(y x f ,由:

dx dy y x f x F x F x

X ⎰⎰

∞-+∞∞

-=+∞=]),([),()(知道,X 的概率密度为:

+∞

-=dy y x f x f X ),()(同样也可以求出Y 的概率密度函数。”

―――――――――――――――――――――――――――――

而:)])([(j 2

j i i ij

x x E μμσ--=

]),())((j j i j i j i i dx dx x x x x ρμμ⋅--=

⎰⎰∞∞-∞

-

(3.1-7)

协方差矩阵:

⎥⎥

⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢⎢⎢⎣⎡=∑22

22122222212

212

12211dd d d d d σσσσσσσσσ (3.1-8)

是一个对称矩阵,只考虑∑为正定矩阵的情况,也就是||∑所有的子式都大于

0。即0||2

11≥σ,02

22

2

12

212

2

11

≥σσσσ,…… 同单变量正态分布一样,多元正态分布)(x ρ可以由μ和∑完全确定,常记为),(∑μN 。

3.多元正态分布的性质

(1)参数∑和μ对分布的决定性

对于d 维随机向量x ,它的均值向量μ也是d 维的,协方差矩阵是对称的,其中有2/)1(+d d 个独立元素。)(x ρ可由∑和μ完全确定,实际上)(x ρ可由2/)1(++d d d 个独立元素决定。常记为:)(x ρ~),(∑μN 。

(2)等密度点的轨迹为一超椭球面

由)(x ρ的定义公式(3.1-5)可知,当右边指数项为常数时,密度

)(x ρ的值不变,所以等密度点满足:

常数=-∑--)()(1μμx x T

可以证明,上式的解是一个超椭球面,其主轴方向取决于∑的本征向量(特征向量),主轴的长度与相应的本征值成正比。如下图所示:

从上图可以看出,从正态分布总体中抽取的样本大部分落在由μ和∑所确定的一个区域里,这个区域的中心由均值向量μ决定,区域的大小由协方差矩阵决定。

在数理统计中,令: )()(12μμγ-∑-=-x x T

式中γ称为x 到μ的马氏距离(Mahalanobis )距离。所以,等密度点轨迹是x 到μ的马氏距离γ为常数的超椭球面。该超椭球面构成的球体的大小是样本对于均值向量的“离散度度量”。

相关文档
最新文档