非参数统计非参数密度估计(课堂PPT)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M S E (ˆ ,) E (ˆ ) 2 D ˆ E ( E ˆ ) 2
均方误差
MISEE (pˆn(x)p(x))2dx [Bias(pˆn(x))var(pˆn(x))]dx
分析: 1. 带宽hn越小, 核估计的偏差越小, 但方差会增大. 2. 带宽hn越大, 核估计的偏差大, 但方差会变小. 3. 说明hn的变化, 不可能同时使核估计的偏差和方差变小. 4. 只有同时使两者达到一种平衡. 5. 实际上, h的选取要根据数据和密度估计的情况不断调
8.2 核密度估计
设区域R是Rd空间上的d维立方体, 其体积为Vn, h是R的 边长, 对任意的x={x1,x2,…,xn}, 定义x的邻域函数:
(x)1,
|
xi
|1,i 2
1,2,...,d
0,
其他
kn
n ( x - xi )
i 1
hn
落入x邻域的样本数
pˆ(x) 1 n (xxi ) 称为Parzen窗密度估计
(贝叶斯公式)
分类问题
序号
113 112 250 219 123 197 170 32 92 137
数值
19.6 22.3 14.07 8.5 17.3 7.6 6.3 6.5 22.1 2.0
其中,hn是归一化参数,表示每组的组距,称为带宽 (窗宽)。
注意:针对连续型的总体X.
例8.1
鲑鱼和鲈鱼的身长(260条)
hist(A[,1], 20)
120
15
100
40
80
10
30
60
20
40
5
10
20
0
0
0
5
10
15
20
25
c1[, 1]
0
5
10
15
20
25
c1[, 1]
鲈鱼比鲑鱼的身长要长。
nVn i1 hn
核密度估计的定义
定义பைடு நூலகம்.1
假设数据x1,x2,…,xn取自连续分布p(x), 定义核密度估计
pˆn
(x)
1 nVn
n K( x xi )
i1
hn
其中K()为核函数
只要核函数满足:
K(x)0, K(x)dx1 R
本节主要讲一维的密度估计。
常用核函数
核函数的名称 1) P arzen窗 2) 三 角 3) E p a n ech iko v 4) 四 次 5) 三 权 6) 高 斯
2. 分别估计鲑鱼和鲈鱼的概率密度:
p ˆ(x| 1) p ˆ(x|2)
3.
归类原则:
x
2 1
其 中,
p(2 | x) p(1 | x) p(2 | x) p(1 | x)
p(i | x)
pˆ ( x | i ) p(i )
2
,
pˆ ( x | j ) p( j )
j 1
i 1, 2
5) 画图 > x<-seq(1,26,length=52) > z<-rep(0,52) > for(i in 1:52) {z[i]<-Ga(x[i],1,A)} (首先找到A[,1]向量中的最小和最大值,1.09和25.37) > plot(x,z,type="l")
0
5
10
h=0.2
x
0 .0
2) 建立高斯函数文件 Ga<-function(x,h,A) {(1/260*h)*sum((1/sqrt(2*pi))*exp(-0.5*((x-A[,1][1:260])/h)^2))}
以高斯核函数为例
3) 调用函数文件
source("d:\\S文件\\Ga.s") 4) 求函数值 > z<-Ga(1,1,A) >z [1] 0.01347425
整.
模式分类问题
一些实际问题: • 鉴定某河流的污染程度; • 通过检查某些指标, 诊断某人是否得了某种疾病; 3. 设备的故障诊断问题; 4. ……
应用密度估计对数据进行分类
1. 假设ω1——鲑鱼, ω2——鲈鱼,它们的先验概率为: p ( 1 ) p ( 2 ) 1 / 2 ( 因 为 两 类 的 频 数 为 1 3 0 条 )
0
5
10
15
20
25
30
c1[, 1]
推广直方图的密度函数定义。X∈Rd
pˆ (x) ni / n V
1)若V很小,密度值局部变化很大,呈现多峰不稳定的 特点; 2)若V较大,从而使估计过于平滑。 如何在稳定与过度平滑之间寻找平衡? 方法(1)固定体积不变;(2)固定ni不变; 核估计和k-近邻估计。
第八章 非参数密度估计
8.1 非参数密度估计
直方图是最基本的非参数密度估计。
假定有数据{x1,x2,…,xn}, 将它由小到大排序,得到数 据覆盖的区间(a, b),对该区间等间距地分为k组,记 为I1,I2,…,Ik,计算Ii中的频率ni/n,则密度估计为:
pˆ(x)nnhin , 0,
xIi,i1,2,...,k 其他
pˆn(x)
1 nh
n i1
1I 2
xi x h
1
带宽对估计量的影响
当带宽h=0.2时,密度函数曲线比较粗糙,噪声很多; 当带宽h=1时,密度函数曲线比较平滑,较为理想; 而带宽h=5时,密度函数曲线最平滑的,但信息损失很多; 如何选择合适的带宽,是核函数密度估计的关键.
考虑估计的均方误差.
7) 余 弦 8) 指 数
核函数
1 I (| u | 1 ) 2 (1 | u |) I (| u | 1 )
3 (1 u 2 ) I ( | u | 1 ) 4
1 5 (1 u 4 ) I (| u | 1 ) 16
3 5 (1 u 2 ) 3 I ( | u | 1 ) 32
1 exp( 1 u 2)
2
2
c o s ( u ) I (| u | 1 ) 42
e x p (| u |)
以高斯核函数为例
pˆn(x)n1hin1
1 exp(1(xxi)2) 2 2 h
其中{x1,K,xn}为样本序列
用S-Plus编程计算密度估计值. 1) 调用数据文件
A<-read.table("E:\\各种电子课件\\非参数统计 \\data\\newfish.txt",header=T,sep=",")
0 .0 0 1
z 0 .0 0 2
0 .0 0 3
0 .0 0 4
0 .0 0 5
0 .0 2
z 0 .0 4
0 .0 6
0 .0 8
15
20
带宽对估计量的影响
25
0
5
10
h=1
x
15
20
25
0.05
0.10
Z 0.15
0.20
0.25
5
10
h=2
x
15
20
25
Parzen窗函数为核函数
h=5
Parzen窗函数 1 I(| u |1) 2
相关文档
最新文档