第3章正态分布时的统计决策
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章 正态分布时的统计决策
在统计决策理论中,涉及到类条件概率密度函数)|(i w x P 。对许多实际的数据集,正态分布通常是合理的近似。如果在特征空间中的某一类样本,较多地分布在这一类均值附近,远离均值点的样本比较少,此时用正态分布作为这一类的概率模型是合理的。另外,正态分布概率模型有许多好的性质,有利于作数学分析。概括起来就是: (1) 物理上的合理性 (2) 数学上的简单性
下面重点讨论正态分布分布及其性质,以及正态分布下的Bayes 决策理论。
3.1 正态分布概率密度函数的定义及性质 1.单变量正态分布 定义:])(21ex p[21
)(2
σμσπρ--=
x x
(3.1-1)
其中:μ为随机变量x 的期望,也就是平均值;
2σ为
x 的方差,σ为均方差,又称为标准差。
⎰∞∞
-⋅==dx x x x E )()(ρμ (3.1-2)
⎰
∞∞
-⋅-=dx x x )()(22
ρμσ
(3.1-3)
概率密度函数的一般图形如下:
)(x ρ具有一下性质:
)(,0)(∞<<-∞≥x x ρ
1)(=⎰∞
∞-dx x ρ (3.1-4)
从)(x ρ的图形上可以看出,只要有两个参数2σμ和就可以完全确定其曲线。为了简单,常记)(x ρ为),(2σμN 。若从服从正态分布的总体中随机抽取样本x ,约有95%的样本落在)2,2(σμσμ+-中。样本的分散程度可以用σ来表示,σ越大分散程度越大。
2.多元正态分布 定义:∑---∑=
-)]()(21
ex p[|
|)2(1)(12
12μμπρx x x T d
(3.1-5)
其中: T d x x x x ],,,[21ΛΛ=为d 维随机向量,对于d 维随机向量x ,它的均值向量μ是d 维的。也就是:
T d ],,,[21μμμμΛΛ=为
d 维均值向量。
∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,||∑为∑的行列式。协
方差矩阵∑是对称的,其中有2/)1(+⨯d d 个独立元素。由于)(x ρ可由μ和
∑完全确定,所以实际上)(x ρ可由2/)1(+⨯+d d d 个独立元素来确定。
T x )(μ-
是)(μ-x 的转置,且:
}{x E =μ
}))({(T x x E μμ--=∑
μ、∑分别是向量x 和矩阵T x x ))((μμ--的期望。具体说:若i x 是x 的
第i 个分量,i μ是μ的第i 个分量,2ij σ是∑的第i 、j 个元素。
⎰
⎰∞
∞
-===i i i i i i dx x x dx x x x E )()(][ρρμ
(3.1-6)
其中)(i x ρ为边缘分布,⎰
⎰∞
∞
-∞
∞-=d
i dx dx dx x x ΛΛ21)()(ρρ
―――――――――――――――――――――――――――
“对于二维随机变量X 和Y 作为一个整体,其分布函数F (x ,y ),而X 和Y 都是随机变量,各别也有分布函数F X (x)、F Y (y),分别称为二维随机变量(X ,Y )关于X 和Y 的边缘分布函数。有:
),()(+∞=x F x F X 和),()(y F y F Y +∞=。
对于离散随机变量有:
∑∑≤∞
==
+∞=x x j ij
X i p x F x F 1
),()(从中得到X 的分布律为:
∑∞
===1
}{j ij i p x X P 同样,Y
的分布律为∑∞
===1
}{i ij j p y Y P 。
对于连续型随机变量(X ,Y ),假定它的概率密度为),(y x f ,由:
dx dy y x f x F x F x
X ⎰⎰
∞-+∞∞
-=+∞=]),([),()(知道,X 的概率密度为:
⎰
+∞
∞
-=dy y x f x f X ),()(同样也可以求出Y 的概率密度函数。”
―――――――――――――――――――――――――――――
而:)])([(j 2j i i ij x x E μμσ--=
]),())((j j i j i j i i dx dx x x x x ρμμ⋅--=
⎰⎰∞∞-∞
∞
-
(3.1-7)
协方差矩阵:
⎥⎥⎥⎥⎥
⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎣⎡=∑22
22122222212212
12211dd d d
d d σσσσσσσσσM M M M
Λ
ΛΛ
Λ (3.1-8)
是一个对称矩阵,只考虑∑为正定矩阵的情况,也就是||∑所有的子式都大于
0。即0||2
11≥σ,02
22
2
12
212
2
11
≥σσσσ,…… 同单变量正态分布一样,多元正态分布)(x ρ可以由μ和∑完全确定,常记为),(∑μN 。
3.多元正态分布的性质
(1)参数∑和μ对分布的决定性
对于d 维随机向量x ,它的均值向量μ也是d 维的,协方差矩阵是对称的,其中有2/)1(+d d 个独立元素。)(x ρ可由∑和μ完全确定,实际上)(x ρ可由2/)1(++d d d 个独立元素决定。常记为:)(x ρ~),(∑μN 。
(2)等密度点的轨迹为一超椭球面
由)(x ρ的定义公式(3.1-5)可知,当右边指数项为常数时,密度
)(x ρ的值不变,所以等密度点满足:
常数=-∑--)()(1μμx x T
可以证明,上式的解是一个超椭球面,其主轴方向取决于∑的本征向量(特征向量),主轴的长度与相应的本征值成正比。如下图所示:
从上图可以看出,从正态分布总体中抽取的样本大部分落在由μ和∑所确定的一个区域里,这个区域的中心由均值向量μ决定,区域的大小由协方差矩阵决定。
在数理统计中,令: )()(12μμγ-∑-=-x x T
式中γ称为x 到μ的马氏距离(Mahalanobis )距离。所以,等密度点轨迹是x 到μ的马氏距离γ为常数的超椭球面。该超椭球面构成的球体的大小是样本对于均值向量的“离散度度量”。