非参数统计-非参数密度估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0
5
10
15
20
25
30
c1[, 1]
推广直方图的密度函数定义。X∈Rd
pˆ(x) ni / n V
1)若V很小,密度值局部变化很大,呈现多峰不稳定的特点; 2)若V较大,从而使估计过于平滑。 如何在稳定与过度平滑之间寻找平衡? 方法(1)固定体积不变;(2)固定ni不变; 核估计和k-近邻估计。
8.2 核密度估计
设区域R是Rd空间上的d维立方体, 其体积为Vn, h是R的边长, 对任意的 x={x1,x2,…,xn}, 定义x的邻域函数:
(
x)
1,
|
xi
|
1 2
,
i
1,
2,...,
d
0,
其他
kn
n i 1
( x - xi ) hn
落入x邻域的样本数
pˆ (x) 1 n ( x xi ) 称为Parzen窗密度估计
MSE(ˆ, ) E(ˆ )2 Dˆ E(Eˆ )2
均方误差
MISE E ( pˆn (x) p(x))2 dx [Bias( pˆn (x)) var(pˆn (x))]dx
分析: 1. 带宽hn越小, 核估计的偏差越小, 但方差会增大. 2. 带宽hn越大, 核估计的偏差大, 但方差会变小. 说明hn的变化, 不可能同时使核估计的偏差和方差变小. 只有同时使两者达到一种平衡. 实际上, h的选取要根据数据和密度估计的情况不断调整.
2) 建立高斯函数文件 Ga<-function(x,h,A) {(1/260*h)*sum((1/sqrt(2*pi))*exp(-0.5*((x-A[,1][1:260])/h)^2))}
以高斯核函数为例
3) 调用函数文件 source("d:\\S文件\\Ga.s")
4) 求函数值 > z<-Ga(1,1,A) >z [1] 0.01347425
数值
19.6 22.3 14.07 8.5 17.3 7.6 6.3 6.5 22.1 2.0
P(ω1|x)
0.823 0.731 0.523 0.323 0.546 0.323 0.586 0.238 0.923 0.037
第八章 非参数密度估计
8.1 非参数密度估计
直方图是最基本的非参数密度估计。 假定有数据{x1,x2,…,xn}, 将它由小到大排序,得到数据覆盖的区间(a, b), 对该区间等间距地分为k组,记为I1,I2,…,Ik,计算Ii中的频率ni/n,则密度 估计为:
pˆ (x)
ni
nh 0,
n
,
x Ii ,i 1, 2,..., k 其他
exp(| u |)
以高斯核函数为例
pˆn (x)
1 nh
n i 1
1 exp( 1 ( x xi )2 )
2
2h
其中{x1,K , xn}为样本序列
用S-Plus编程计算密度估计值.
1) 调用数据文件 A<-read.table("E:\\各种电子课件\\非参数统计\\data\\newfish.txt",header=T,sep=",")
7) 余弦 8) 指数
核函数
1 I (| u | 1) 2 (1 | u |)I (| u | 1)
3 (1 u2 )I (| u | 1) 4
15 (1 u4 )I (| u | 1) 16
35 (1 u2 )3 I (| u | 1) 32
1 exp( 1 u2 )
2
2
cos( u)I (| u | 1) 42
5) 画图 > x<-seq(1,26,length=52) > z<-rep(0,52) > for(i in 1:52) {z[i]<-Ga(x[i],1,A)} (首先找到A[,1]向量中的最小和最大值,1.09和25.37) > plot(x,z,type="l")
0
5
10
h=0.2
x
0.0
其中,hn是归一化参数,表示每组的组距,称为带宽(窗宽)。 注意:针对连续型的总体X.
例8.1
鲑鱼和鲈鱼的身长(260条)
hist(A[,1], 20)
120
15
100
40
80
10
30
60
20
40
5
10
20
0
0
0
5
10
15
20
25
c1[, 1]
0
5
10
15
20
25
c1[, 1]
鲈鱼比鲑鱼的身长要长。
模式分类问题
一些实际问题: • 鉴定某河流的污染程度; • 通过检查某些指标, 诊断某人是否得了某种疾病; 3. 设备的故障诊断问题; ……
应用密度估计对数据进行分类
1. 假设ω1——鲑鱼, ω2——鲈鱼,它们的先验概率为:
p(1) p(2 ) 1/ 2 (因为两类的频数为130条)
2. 分别估计鲑鱼和鲈鱼的概率密度:
nVn i1
hn
核密度估计的定义
定义8.1
假设数据x1,x2,…,xn取自连续分布p(x), 定义核密度估计
pˆn (x)
1 nVn
n K ( x xi )
i 1
hn
其中K ()为核函数
只要核函数满足:
K(x) 0, K(x)dx 1
R
本节主要讲一维的密度估计。
常用核函数
核函数的名称 1) Parzen窗 2) 三角 3) Epanechikov 4) 四次 5) 三权 6) 高斯
pˆn (x)
1 nh
n i 1
1I 2
xi x h
1
带宽对估计量的影响
当带宽h=0.2时,密度函数曲线比较粗糙,噪声很多; 当带宽h=1时,密度函数曲线比较平滑,较为理想; 而带宽h=5时,密度函数曲线最平滑的,但信息损失很多; 如何选择合适的带宽,是核函数密度估计的关键.
考虑估计的均方误差.
3. 归类原则:
pˆ (x | 1) pˆ (x | 2 )
x 12 其中,
p(2 | x) p(1 | x) p(2 | x) p(1 | x)
p(i Leabharlann Baidu x)
pˆ (x | i ) p(i )
2
,
pˆ (x | j ) p(j )
j 1
i 1, 2
(贝叶斯公式)
分类问题
序号
113 112 250 219 123 197 170 32 92 137
0.001
z 0.002
0.003
0.004
0.005
0.02
z 0.04
0.06
0.08
15
带宽对估计量的影响
20
25
0
5
10
h=1
x
15
20
25
0.05
0.10
Z 0.15
0.20
0.25
5
10
h=2
x
15
20
25
Parzen窗函数为核函数
h=5
Parzen窗函数 1 I (| u | 1) 2
相关文档
最新文档