非参数估计(完整)

合集下载

非参数模型的三种经典估计方法

非参数模型的三种经典估计方法
1 . 2 非参 数模 型 的核估 计
选定原点对称的概率密度函数 ) 为核函 0 , 常用 的核函数 以及如何选取带 因而大部分非参数 统计量都服从正态分布或 数及带宽 > 由正态分布导 出的分布 , 很容易编写相关程序 宽可以从文献中获得 。核函数满足 ( 3 ) 容易计算。 由于以大样本理论为主导 ,
( 2 ) 非参 数统 计 可 以处理 所 有类 型 的数 据 ( 包 括定 性数 据 和定 量数据 ) 。
其 中m ) = l ,
) , 为 随机误 差项 。一 般
假定E ) = 0 , V a t ( 8 ) = ‘ 。我们把模型( 1 ) 称为非
参 数模 型 p . p ' 2 8 - 3 o 。





1 T Βιβλιοθήκη , ) = 乞W ) y

( 4 )
= WX )X y
( 8 )
我们记 = d q
。 ) , …,
咄) ) 为凡 ×
则称m ) 为m ) 的核估计[ a l P ” 。 , 核估计 几 对角矩阵, y = ( y 一 , r J , 等价于局部加权最小二乘估计。 例1 考虑 非参 数 回归模 型 Y = 2 X+ 3 e x p ( 一 1 6 X ‘ ) + , 其 中 服从 E o , 1 ] 上 的均匀分布 , ~ Ⅳ
和k 近邻估计三种经典方法 对非参数模型进行估计 , 并辅 以经典 的例题 ; 最后 , 通过一个综合模拟计算
对这三种估计方法进行了比较并证明所提出的方法是有效和可行 的。
[ 关键 词】核估计 ; 局部多项式估计 ; | j } 近邻估计 ; 非参数模 型 【 中图分类号】O1 3 【 文献标识码】A d o i : 1 0 . 3 9 6 9 / ] . i s s n . 1 6 7 4 - 9 3 4 0 . 2 0 1 6 . 0 5 . 0 1 7

贝叶斯 参数估计 和 非参数估计

贝叶斯 参数估计 和 非参数估计

贝叶斯参数估计和非参数估计文档下载说明Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document 贝叶斯参数估计和非参数估计can be customized and modified after downloading, please adjust and use it according to actual needs, thank you! In addition, this shop provides you with various types of practical materials, such as educational essays, diary appreciation, sentence excerpts, ancient poems, classic articles, topic composition, work summary, word parsing, copy excerpts, other materials and so on, want to knowdifferent data formats and writing methods, please pay attention!贝叶斯参数估计和非参数估计是统计学中两种重要的参数估计方法,它们在不同情境下有着不同的应用和特点。

本文将深入探讨这两种估计方法的原理、特点以及应用。

贝叶斯参数估计。

贝叶斯参数估计是一种基于贝叶斯理论的参数估计方法。

在贝叶斯理论中,参数被视为随机变量,并且通过引入先验分布来描述参数的不确定性。

具体步骤如下。

1. 先验分布。

在进行实际观测之前,根据先验知识或者经验,给定参数的一个先验分布。

非参数统计中的效应大小估计技巧(Ⅰ)

非参数统计中的效应大小估计技巧(Ⅰ)

非参数统计中的效应大小估计技巧统计学是一门研究数据收集、分析和解释的学科,而非参数统计是其中的一个重要分支。

在进行统计分析时,我们经常需要评估不同变量之间的关系,确定变量之间的差异是否显著。

而效应大小则是评估这种差异的大小,它可以帮助我们更好地理解数据和结果。

在非参数统计中,效应大小的估计技巧尤为重要。

一、效应大小的概念在统计学中,效应大小指的是在两组或多组数据之间发现的差异有多大。

它可以帮助我们理解这种差异的实际意义,而不仅仅是考虑差异的存在与否。

效应大小的估计通常可以帮助我们判断研究结果的实际重要性,以及在实际应用中的可行性。

二、效应大小的计算方法在非参数统计中,效应大小的计算方法有很多种。

其中比较常用的包括Cohen's d、Kendall's tau等。

Cohen's d是一种用于计算两组数据之间效应大小的方法,它的计算公式为 (M1 - M2)/SDpool,其中M1和M2分别是两组数据的平均值,SDpool是两组数据的标准差的平均值。

而Kendall's tau则是一种用于衡量两组数据之间相关性的方法,它可以帮助我们评估两组数据之间的等级关系。

三、效应大小的解释在进行效应大小的估计时,我们需要对结果进行解释,以便更好地理解数据和结论。

通常,我们可以根据效应大小的大小,将其分为小、中、大三个等级。

效应大小为左右的情况可以认为是小效应,左右可以认为是中效应,1左右可以认为是大效应。

这种分级的标准可以帮助我们更好地理解效应大小的意义。

四、非参数统计中的效应大小估计技巧在非参数统计中,效应大小的估计技巧可以分为两种基本类型:基于计算的方法和基于图形的方法。

基于计算的方法通常是通过一定的数学公式来计算效应大小,比较常用的有Cohen's d和Kendall's tau等。

而基于图形的方法则是通过绘制图表来展现两组数据之间的差异,从而直观地评估效应大小。

3 第三章 参数估计与非参数估计

3 第三章 参数估计与非参数估计
• Bayes决策需要已知两种知识:
– 各类的先验概率P(ωi)
– 各类的条件概率密度函数p(x|ωi)

P(i | x)
p(x | i ) P(i ) p(x | j ) P( j )
j
知识的来源:对问题的一般性认识或一些训练数据 基于样本两步Bayes分类器设计
利用样本集估计p(ωi)和p(x|ωi)
θ N
argmax ln p( x k | θ)
θ k 1
16
• 最大似然估计计算方法
使似然函数梯度为0
θ H (θ) |ˆ θ ln p( xk | θ) |ˆ 0
ML
N
k 1
ML
θ 1
...
s
T
17
一.类概率密度最大似然估计
7
§3-1 参数估计与监督学习(续2)
下图表示对一幅道路图像按路面与非路面分类可用两种不同做法,其中左图 是在图像中路面区与非路面中各找一个窗口,将其中每个象素分别作为这两 类的训练样本集,用这两个样本集在特征空间的分布参数进行设计。 而无监督学习方法则不同,它不预先选择样本类别的样本集,而是将整幅图 的像素都作为待分类样本集,通过它们在特征空间中表现出来的聚类现象, 把不同类别划分开。 图中有监督学习,样本集分布呈现交迭情况,而无监督学习方法由于没有类 别样本指导,无法确定它们的交迭情况,只能按分布的聚类情况进行划分。
N 1 估计值: 1 Xk N k 1
1 N 2 Xk N k 1

Xk

T
结论:①μ的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵

非参数估计——核密度估计(Parzen窗)

非参数估计——核密度估计(Parzen窗)

⾮参数估计——核密度估计(Parzen窗) 核密度估计,或Parzen窗,是⾮参数估计概率密度的⼀种。

⽐如机器学习中还有K近邻法也是⾮参估计的⼀种,不过K近邻通常是⽤来判别样本类别的,就是把样本空间每个点划分为与其最接近的K个训练抽样中,占⽐最⾼的类别。

直⽅图 ⾸先从直⽅图切⼊。

对于随机变量X的⼀组抽样,即使X的值是连续的,我们也可以划分出若⼲宽度相同的区间,统计这组样本在各个区间的频率,并画出直⽅图。

下图是均值为0,⽅差为2.5的正态分布。

从分布中分别抽样了100000和10000个样本: 这⾥的直⽅图离散地取了21个相互⽆交集的区间:[x−0.5,x+0.5),x=−10,−9,...,10,单边间隔h=0.5。

h>0在核函数估计中通常称作带宽,或窗⼝。

每个长条的⾯积就是样本在这个区间内的频率。

如果⽤频率当做概率,则⾯积除以区间宽度后的⾼,就是拟合出的在这个区间内的平均概率密度。

因为这⾥取的区间宽度是1,所以⾼与⾯积在数值上相同,使得长条的顶端正好与密度函数曲线相契合。

如果将区间中的x取成任意值,就可以拟合出实数域内的概率密度(其中N x为样本x i∈[x−h,x+h),i=1,...,N的样本数):ˆf(x)=N xN⋅12h 这就已经是核函数估计的⼀种了。

显然,抽样越多,这个平均概率密度能拟合得越好,正如蓝条中上⽅⼏乎都与曲线契合,⽽橙⾊则稂莠不齐。

另外,如果抽样数N→∞,对h取极限h→0,拟合出的概率密度应该会更接近真实概率密度。

但是,由于抽样的数量总是有限的,⽆限⼩的h将导致只有在抽样点处,才有频率1/N,⽽其它地⽅频率全为0,所以h不能⽆限⼩。

相反,h太⼤的话⼜不能有效地将抽样量⽤起来。

所以这两者之间应该有⼀个最优的h,能充分利⽤抽样来拟合概率密度曲线。

容易推理出,h应该和抽样量N有关,⽽且应该与N成反⽐。

核函数估计 为了便于拓展,将拟合概率密度的式⼦进⾏变换:ˆf(x)=N x2hN=1hNN∑i=11/2x−h≤x i<x+h0else=1hNN∑i=11/2,−1≤x i−xh<10,else=1hNN∑i=1K(x i−xh),where K(x)=1/2,−1≤x<10,else 得到的K(x)就是uniform核函数(也⼜叫⽅形窗⼝函数),这是最简单最常⽤的核函数。

非参数估计:核密度估计KDE

非参数估计:核密度估计KDE

⾮参数估计:核密度估计KDE⾮参数估计:核密度估计KDEfrom:http://核密度估计Kernel Density Estimation(KDE)概述密度估计的问题由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之⼀。

解决这⼀问题的⽅法包括参数估计和⾮参数估计。

参数估计参数估计⼜可分为参数回归分析和参数判别分析。

在参数回归分析中,⼈们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在⽬标函数族中寻找特定的解,即确定回归模型中的未知参数。

在参数判别分析中,⼈们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。

经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较⼤的差距,这些⽅法并⾮总能取得令⼈满意的结果。

[][]⾮参数估计⽅法由于上述缺陷,Rosenblatt和Parzen提出了⾮参数估计⽅法,即核密度估计⽅法。

由于核密度估计⽅法不利⽤有关数据分布的先验知识,对数据分布不附加任何假定,是⼀种从数据样本本⾝出发研究数据分布特征的⽅法,因⽽,在统计学理论和应⽤领域均受到⾼度的重视。

核密度估计(kernel density estimation)是在概率论中⽤来估计未知的密度函数,属于⾮参数检验⽅法之⼀,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,⼜名Parzen窗(Parzen window)。

Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计⽅法。

核密度估计在估计边界区域的时候会出现边界效应。

[https:///zh-hans/核密度估计]因此,⼀句话概括,核密度估计Kernel Density Estimation(KDE)是在概率论中⽤来估计未知的密度函数,属于⾮参数检验⽅法之⼀。

在密度函数估计中有⼀种⽅法是被⼴泛应⽤的——直⽅图。

如下图中的第⼀和第⼆幅图(名为Histogram和Histogram, bins shifted)。

非参数估计(完整)PPT演示课件

非参数估计(完整)PPT演示课件

P p xdx p xV R
Pˆ k N
pˆ x k / N
V
对p(x) 在小区域内的平均值的估计
9
概率密度估计
当样本数量N固定时,体积V的大小对估计的 效果影响很大。
过大则平滑过多,不够精确; 过小则可能导致在此区域内无样本点,k=0。
此方法的有效性取决于样本数量的多少,以 及区域体积选择的合适。
11
概率密度估计
理论结果:
设有一系列包含x 的区域R1,R2,…,Rn,…,对 R1采用1个样本进行估计,对R2用2 个,…, Rn 包含kn个样本。Vn为Rn的体积。
pn
x

kn / N Vn
为p(x)的第n次估计
12
概率密度估计
如果要求 pn x 能够收敛到p(x),那么必须满足:
分布,而不必假设密度函数的形式已知。
2
主要内容
概率密度估计 Parzen窗估计 k-NN估计 最近邻分类器(NN) k-近邻分类器(k-NN)
3
概率密度估计
概率密度估计问题:
给定i.i.d.样本集: X x1, x2 , , xl
估计概率分布: p x
4
概率密度估计
10.0
h1 0.25
1.0
0.1
0.01
0.001 10.0
1.0
0.1
0.01
0.001 10.0
1.0
0.1
0.01
0.001 10.0
1.0
0.1
0.01
0.001 2 0 2
h1 1 2 0 2
h1 4 2 0 2 27
由图看出, PN(x)随N, h1的变化情况 ①当N=1时, PN(x)是一个以第一个样本为中心的正

断点回归的非参数估计

断点回归的非参数估计

断点回归的非参数估计断点回归是经济学中常用的方法之一,主要用于研究某些变量在某一特定阈值点处的表现情况。

通俗地说,就是研究一个关键变量变化与另一个变量之间的不连续性,也就是“断点”的位置及其对后续数据的影响。

传统的断点回归方法主要是基于参数估计的,即设定一个预定的函数形式,并通过参数估计来确定特定断点的位置。

然而,实际应用中常常会遇到诸如形状未知、非线性、存在异方差等问题,这就使得传统的参数估计方法有时难以满足需要。

为此,非参数估计成为了断点回归的重要研究方向。

非参数估计不需要事先假定函数形式,从而更具有灵活性和可适应性,其估计值对于形状未知、曲线不光滑、断点位置不确定等问题具有较好的抗干扰能力。

非参数断点回归方法中最常用的是基于“局部线性回归”(Local Linear Regression,LLR)的方法。

在LLR中,将断点左侧和右侧数据分别组成两个区域,然后在每个区域内用线性回归来逼近数据的真实曲线。

具体而言,即对于每个区域内的每个点,分别以该点为中心取一个窗口,然后在该窗口范围内进行线性回归,从而得到曲线在该窗口中的估计值。

最终,将所有窗口的估计值拼接起来,就得到了整个数据样本中曲线的估计值。

LLR方法的关键是如何选取窗口。

一般而言,窗口大小决定了估计的平滑度和偏差-方差权衡。

过大的窗口会导致过度平滑,而过小的窗口则会使估计的方差过大,从而造成过拟合。

因此,需要通过交叉验证等方法来确定最适合的窗口大小。

此外,LLR方法还需要确定更多的参数,如窗口形状、窗口位置、平滑参数等。

这些参数的选取也对估计结果产生较大的影响,因此需要谨慎选择。

总而言之,非参数断点回归方法在不需要指定函数形式的前提下,可以有效地解决估计过程中的形状未知、曲线不光滑、断点位置不确定等问题。

而基于LLR的方法则是非参数方法中最为流行的一种。

当然,不同的问题需要选择不同的方法,因此选择合适的方法是成功应用断点回归的前提。

非参数估计(完整)ppt课件

非参数估计(完整)ppt课件
1 1 u 1 , ,d j , j u 2 0 o th e r w is e
中心在原点的 单位超立方体
Parzen窗估计
落入以X为中心的立方体区域的样本数为:
x xi kn i 1 hn X处的密度估计为:
n
n k / n x x 1 1 n i ˆ p x n V n n V i 1 n h n
估计P(x|ω1)即PN(x) x6 0 1 2 x5 x3 x1 x2 3 4
1
x4 5 6
x
( u ) 解:选正态窗函数
12 exp( u ) 2 2
2
| x | | x | 1 1 x x i i ( ) ( u ) ( ) exp[ ] 2 2h h N N
P k 的期望值为: Ek N
对P的估计:
k ˆ P N
当 N 时, 估计是非 常精确的
概率密度估计

假设p(x)是连续的,且R足够小使得p(x)在R内几乎 没有变化。
令R是包含样本点x的一个区域,其体积为V,设有 N个训练样本,其中有k落在区域R中,则可对概率 密度作出一个估计: k ˆ P p x d x p x V P N R
可以验证: p ˆn x 0
ˆ x x1 d p
n
窗函数的要求
Parzen窗估计过程是一个内插过程,样本xi
距离x越近,对概率密度估计的贡献越大,越 远贡献越小。 只要满足如下条件,就可以作为窗函数:
u 0
u 1 u d
窗函数的形式
方窗函数
1 1, | u | (u ) 2 0.其他

非参数估计方法_张煜东

非参数估计方法_张煜东

第32卷第7期2010年07月武 汉 工 程 大 学 学 报J. Wuhan Inst. T ech.Vo l.32 N o.7Jul. 2010收稿日期:2010-04-02基金项目:国家自然科学基金(60872075);国家高技术发展计划(2008AA 01Z227);高等学校科技创新工程重大项目培育资金项目(706028)作者简介:张煜东(1985-),男,江苏苏州人,哥伦比亚大学博士后.研究方向:人工智能、数据挖掘、脑图像处理.文章编号:1674-2869(2010)07-0099-08非参数估计方法张煜东1,2,颜 俊1,王水花1,吴乐南1(1.东南大学信息科学与工程学院,江苏南京210096;2.哥仑比亚大学精神病学系脑成像实验室,纽约州纽约10032)摘 要:为了解决函数估计问题,首先讨论了传统的参数回归方法.由于传统方法需要先验知识来决定参数模型,因此不稳健,且对模型敏感.因此,引入了基于数据驱动的非参数方法,无需任何先验知识即可对未知函数进行估计.本文主要介绍最新的8种非参数回归方法:核方法、局部多项式回归、正则化方法、正态均值模型、小波方法、超完备字典、前向神经网络、径向基函数网络.比较了不同的算法,给出算法之间的相关性与继承性.最后,将算法推广到高维情况,指出面临计算的维数诅咒与样本的维数诅咒两个问题.通过研究指出前者可以通过智能优化算法求解,而后者是问题固有的.关键词:参数统计;非参数统计;核方法;局部多项式回归;正则化方法;正态均值模型;小波;超完备字典;前向神经网络;径向基函数网络中图分类号:O 212.7 文献标识码:A doi:10.3969/j.issn.1674-2869.2010.07.0250 引 言函数估计[1]是一个经典反问题,一般定义为给定输入输出样本对,求未知的系统函数[2].传统的方法为参数方法,即构建一个参数模型,再定义某个误差项,通过最小化误差项来求解模型的参数[3].参数方法尽管较为简单,但不够灵活.例如参数模型假设有误,则会导致整个求解流程失败[4].因此学者们发展出不少新技术,非参数估计就是其中一项较好的方法.该方法无需提前假设参数模型的形式,而是基于数据结构推测回归曲面[5].本文首先研究了经典的2种参数回归方法:最小二乘法与内插函数法,分析了它们的不足,然后主要讨论8种非参数回归方法:核方法、局部多项式回归、正则化方法(样条估计)、正态均值模型、小波方法、过完全字典、前向神经网络、径向基函数网络,尤其详细介绍了其间的相关性与继承性.最后,研究了高维情况下面临的计算维数诅咒与样本维数诅咒.1 回归模型考虑模型y i =r (x i )+ i (1)式(1)中(x i ,y i )为观测样本,假定误差 具有方差齐性,则r =E(y |x )称为y 对x 的回归函数,简称回归.一般地,可以假设x 取值在[0,1]区间内.定义 规则设计 为x i =i/n(i =1,2, ,n).并定义风险函数为R =ni=1[r(x i)-^r (x i)]2=ni=1[y i-^r (x i)]2(2)式(2)中^r 为系统函数r 的估计.回归一词源于高尔顿(Galto n),他和学生皮尔逊(Pearson)在研究父母身高和子女身高的关系时,以每对夫妇的平均身高为x ,取其一个成年儿子的身高为y ,并用直线y =33.73+0.512x 来描述y 与x 的关系.研究发现:如果双亲属于高个,则子女比他们还高的概率较小;反之,若双亲较矮,则子女以较大概率比双亲高.所以,个子偏高或偏矮的夫妇,其子女的身高有 向中心回归 的现象,因此高尔顿称描述子女与双亲身高关系的直线为 回归直线 [6].然而,并非所有的x -y 函数均有回归性,但历史沿用了这个术语.更为精确的表达是 函数估计 .100武汉工程大学学报第32卷2 传统方法理论上描述一个函数需要无穷维数据,因此函数估计本身也可称为 无穷维估计 [7].传统的估计方法有下列两种极端情形.2.1 最小二乘法此时假设^r(x)= 0+ 1x,采用最小二乘法计算权值 =( 0, 1),得到的解为最小二乘估计[8],^r(x)=(X T X)-1X T Y(3)则对给定样本点的估计r=[^r(x1),^r(x2), ,^r(x n)]T可写为r=X^ =LY(4)这里Y=(y1,y2, ,y n)T.L=X(X T X)-1X T称为帽子矩阵[9].以5个样本点的一维规则设计矩阵为例,此时X=0.20.40.60.81.0L=0.0180.0360.0540.0720.0900.0360.0720.1090.1450.1810.0540.1090.1630.2180.2720.0720.1450.2180.2900.3630.0900.1810.2720.3630.454(5)L满足L=L T,L2=L.另外,L的迹等于输入数据的维数p,即trace(L)=p.这里输入数据是一维的,所以trace(L)=1.2.2 内插函数法此时对^r(x)不加任何限制,得到的是该数据的一个内插函数[10].同样以5个样本点的一维规则设计矩阵为例,由于样本点的估计r=[^r(x1), ^r(x2), ,^r(x n)]T完全等于(y1,y2, ,y n)T,所以帽子矩阵为L=1000001000001000001000001(6)2.3 两种方法的缺陷图1给出了这两种极端拟合的示意图,数据是被高斯噪声干扰的正弦函数,采用上述两种方法拟合,结果表明:最小二乘法过光滑,未展现数据内部的关系;而内插函数法忽略了噪声影响,显得欠光滑.从帽子矩阵也可看出,式(5)表明最小二乘法对每个数据的估计都利用了所有样本,这显然导致过光滑,且x值越大的数据权重越大,这明显与经验不符;反之,式(6)表明内插函数法仅仅利用了最邻近的样本数据,这显然导致欠光滑.图1 两种极端拟合F ig.1 T wo ex tr eme fitting2.4 非参数回归的优势非参数回归(non-parametric r eg ression)作为最近兴起的一种函数估计方法,是一种分布无关(distribution free)的方法,即不依赖于数据的任何先验假设.与此对应的是参数回归(param etric r eg ressio n),通常需要预先设置一个模型,然后求取该模型的参数.非参方法的本质在于:模型不是通过先验知识而是通过数据决定.需要注意的是, 非参数 并不表示没有参数,只是表示参数的数目、特征是可变的(flexible).由于非参方法无需数据先验知识,其应用范围较参数方法更广,且性能更稳健.其另一个优点是使用过程较参数方法更为简单.然而,它也存在缺点,一般结构更复杂,需要更多的运算时间.2.5 线性光滑器需要说明的是,最小二乘法、内插函数法、核方法、正则化方法、正态均值模型均是线性光滑器.定义为:若对每个x,存在向量l(x)=[l1(x), ,l n(x)]T,使得r(x)的估计可写为^r(x)= n i=1l i(x)y i(7)则估计^r为一个线性光滑器[11].显然权重l i(x)随着x而变化,这与信号处理中的 自适应滤波器 非常相似.3 核回归核方法[12]定义为^r(x)= n i=1l i(x)Y i(8)权重l i由式(9)给出l i=Kx-x ihni=1Kx-x ih(9)这里h是带宽,K是一个核,满足K(x) 0,以及K(x)d x=1, xK(x)d x=0, x2K(x)d x>0,(10)常用的核函数见表1.第7期张煜东,等:非参数估计方法101表1 常用的核公式Table1 Fr equen tly-u sed kernel formula核公式boxcar K(x)=0.5*I(x)Gau ssian K(x)=12ex p-x22Epan echnikov K(x)=3(1-x2)I(x)T ricube K(x)=7081(1-|x|3)3I(x)以bo xcar核为例,帽子矩阵为L=1/21/20001/31/31/30001/31/31/30001/31/31/30001/21/2(11)显然,这可视作最小二乘法与内插函数法的折中.为了估计带宽h,首先必须估计风险函数,一般可采用缺一交叉验证得分CV=R^(h)=1n ni=1[y i-^r-i(x i)]2(12)这里^r-i(x i)为未用第i个数据所得到的估计,使C V最小的h,即为最佳带宽.为了加速运算,可将式(12)重新写为R^(h)=1n ni=1y i-^r(x i)1-L ii2(13)这里L ii是光滑矩阵L的第i个对角线元素.另一种方法是采用广义交叉验证法,规定G CV(h)=R^(h)=1nni=1y i-^r(x i)1-v/n2(14)这里v=tr(L).4 局部多项式回归采用核回归常会碰到下列2个问题[13]:1)若x不是规则设计的,则风险会增大,称为设计偏倚(desig n bias);2)核估计在接近边界处会出现较大偏差,称为边界偏倚(boundary bias).为了解决这2个问题,可采用局部多项式回归.局部多项式回归[14]可视作核估计的一个推广,首先定义权函数 i(x)=K[(x i-x)/h],选择a=^r(x)来使得下面的加权平方和最小ni=1i(x)(y i-a)2(15)利用高等数学知识,可以看出解为^r(x)= ni=1i(x)y ini=1i(x)(16)可见式(16)正好是核回归估计.这表明核估计是由局部加权最小二乘得到的局部常数估计.因此,若利用一个p阶的局部多项式而不是一个局部常数,就可能改进估计,使曲线更光滑.定义多项式P x(u;a)=a0+a1(u-x)+a22!(u-x)2++a pp!(u-x)p(17)则局部多项式的思想是:选择使下列局部加权平方和ni=1i(x)[y i-P x(x i;a)]2(18)最小的a,估计^a=(^a0,^a1,^a p)T依赖于目标值x,最终有^r(x)=P x(x;^a)=^a0(x)(19)当p等于0时,等于核估计;当p=1时,称为局部线性回归(local linear regr ession)估计[15],由于其算法简单且性能优越,较为常用.5 基于正则化的回归为了描述方便,这里假设数据点为[(x0,y0),(x1,y1), (x n-1,y n-1)].在风险函数(2)后增加一项惩罚项,一般设为r(x)的二阶导数J= n-1i=0y i-^r(x i)2+ [r (x)]2d x(20)控制了解的光滑程度:当 =0时,解为内插函数;当 时,解为最小二乘直线;当0< <时,^r(x)是一个自然三次样条.需要注意下列事项:首先三次样条表示曲线在结点(knot)之间是三次多项式,且在结点处有连续的一阶和二阶导数;其次一个m阶样条为一个逐段m-1阶多项式,所以三次样条是4阶的(m=4);第三,自然样条表示在边界点处二阶导数为0,即在边界点外是线性的;第四,样条的结点等于数据点.为了加速计算,将数据点重新排序,假设a,b为样本点x的上下界,令a=t1 t2 t n-1=b,这里t是x重新排序后的点,称为结点.可用B样条基(B-spline basis)[16]作为该三次样条的基,即^r(x)= n-m-1i=0P i b i,m(t) t [t m-1,t n-m](21)P i称为控制点,共n-m个,形成一个凸壳.n-m个B样条基可通过如下计算,首先初始化:b j,0(t)=1 if t j<t<t j+10 otherw ise(22)然后对i=1,逐步+1,直到i=m-1,重复迭代下式:102 武汉工程大学学报第32卷b j,i (t)=t -t jt j +m -1-t j b j,i -1(t)+t j +m -tt j +m -t j +1b j,i +1(t)(23)若结点等距,则称B 样条是均匀的(uniform ),否则称为不均匀.如果两个结点相等,计算过程会出现0/0情况,此时默认结果为0.令矩阵B 的第(i,j )元素b ij =b j (x i ),矩阵 的第(i,j )元素 ij =b n i (x )b nj (x )d x ,则控制点可由式(24)求得P =(B TB + )-1B TY(24)可见,样条也是一个线性光滑器.表面上看,基于核的估计与基于正则化的估计原理与模型均不一致,但是Silver man 证明了如下定理,样条估计^r (x )可视作如下所示的一种渐近的核估计l i (x )1f (x i )h(x i )Kx i -x h (x i )(25)式中,f (x )是x 的密度函数.h(x )=nf (x )1/4(26)K (x )=12ex p -|x |2sin |x |2+4(27)显然,若样本x 是规则设计,则f (x )=1,h(x )=( /n)1/4=h,l i (x ) K [(x i -x )/h],即此时样条估计可视作形如式(27)的渐近核估计.6 正态均值模型令 1, 2, 为一个标准正交基,则显然r (x )可以展开为r(x )=i=1i i ,定义Z j =1nni=1y ij(x i )(28)则随机变量Z j 是正态分布,且均值与方差满足:E(Z j )= j V(Z j )= 2/n (29)可见,若估计出 ,则可近似求得^r (x )ni=1i i.因此正态均值模型将n 个样本的函数估计问题转换为估计n 个正态随机变量Z j 的均值 的问题[17].若直接令^ =Z,则显然得到一个很差的估计,下面给出风险更小的估计.首先,必须做出一个关于^ 的风险估计,Stein 给出下列定理:令Z ~N ( ,V ),^ =^ (Z)为 的一个估计,并令g(Z 1, ,Z n )=^ -Z.则^ 的风险的一个无偏估计为J^(z )=tr (V)+2tr (VD)+ ig2i(z )(30)式中g i =^ i -z i ,且D 的第(i,j )个元素为g (z 1, ,z n )的第i 个元素关于z j 的偏导数[18].假设^ =b Z =(b 1Z 1, ,b n Z n ),式中b 称为调节器,根据b 的设置,存在下列3种情况:b =(b,b, ,b),称为常数调节器(constant m odulator),此时令式(30)最小的称为Jam es -Stein 估计;b =(1, ,1,0, ,0),称为嵌套子集选择调节器(nested subset selection modulator ),此时令式(30)最小的^b 称为REACT 方法.需要注意的是,若基选择傅立叶基,则该方法类似于频域低通滤波器方法.b =(b 1,b 2, ,b n )满足1 b 1 b 2 b n 0,称为单调调节器(monotone m odulator ),该方法理论最优,但是需要的运算量太大,几乎不实用.7 小波方法小波方法[19]适用于空间非齐次(spatially inhomog eneous )函数,即函数的光滑程度随着x 会有本质性的变化.它可视作正态均值模型的推广,但存在两点区别:一是采用小波基代替传统的正交基,因为小波基较一般的正交基具有局部化的优点,能实现多分辨率分析;另一点是采用了一种称为 阈 的收缩方式.不妨假定父小波为 ,母小波为 ,同时规定下标(j ,k)的意义如下:f j,k (x )=2j/2f (2jx -k)(31)为了估计函数r,用n =2J 项展开来近似r ,r (x )2J0-1k=0j 0,k(x ) j 0,k (x )+ Jj =J2j-1k=0j ,kj ,k (x )(32)这里J 0是任取常数,满足0 J 0 J. 称为刻度系数, 称为细节系数.那么如何估计这些系数?首先计算S k =1n ij 0,k(x i )y i (33)D jk =1nij,k(x i )y i(34)S k 、D jk 分别称为经验刻度系数与经验细节系数,可知S k N ( j 0,k , 2/n),D jk N ( j,k , 2/n),可估计方差为median (|D j -1,k -median (D j -1,k )第7期张煜东,等:非参数估计方法103| k =0, ,2J -1-1)0.6745(35)然后根据S k 、D jk 、^ 可得 与 的估计如下:^ j 0,k =S k (36) 的估计形式稍许复杂,采用硬阈与软阈的方式分别为^ jk =0 |D jk |< D jk |D jk |(37)^jk =sig n (D jk )|D jk |- +(38)之所以采用阈的形式,是因为稀疏性(sparse )的思想[20]:对某些复杂函数,在小波基上展开时系数也是稀疏的.因此,需要采用一种方式来捕获稀疏性.然而,传统的L 2范数不能捕捉稀疏性,相反,L 1范数与非零基数能够较好地捕捉稀疏性.例如,考虑n 维向量a =(1,0, ,0)与b =(1/n 1/2, ,1/n 1/2),有 a 2= b 2=1,可见,L 2范数无法区分稀疏性.反之, a 1=1, b 1=n 1/2,因此,L 1范数能提取稀疏性;另外,若令非零基数为J ( )={#(i 0)},则J (a)=1,J (b)=n,因此,非零基数也能提取稀疏性.最后,在正则化估计中若惩罚项分别为L 1范数或非零基数,则最优估计恰好对应着软阈估计与硬阈估计.最后,需要解决阈估计中 的计算问题,这里介绍两种最简单的方式:一是通用阈值(universal thresho ld ),即对所有水平的分辨率阈值均一致,=^2log nn(39)另一种是分层阈值(leve-l by -levelthresho ld ),即对不同分辨率采用不同阈值,一般是通过最小化下式求得S( j )=njk=1^ 2n -2^ 2nI |^ jk j +min (^ 2jk , 2j )(40)j [0,(^ /n j )2log n j ]式中n j =2j -1为在水平j 的参数个数.8 超完备字典小波基较标准正交基的改进在于更加局部化,因此能实现对跳跃的捕捉.然而,虽然小波基非常复杂,但面对各种复杂的函数还是不够灵活.这种缺陷的根源在于:小波基是标准正交基,任意两个基函数之间正交,这保证了基函数简单完整的同时,也丧失了灵活性.基追踪(basis pursuit)方法[21]的思想是采用一种超完备(overcomplete)的基,例如对 光滑加跳跃 的函数,传统的傅立叶基能够捕捉光滑部分,但是难以捕捉跳跃部分;采用小波基能轻易捕捉跳跃部分,但是描述光滑部分较为困难.此时若将 傅立叶基 与 小波基 合并成一个新的基,则显然这种基能够轻松地估计 光滑加跳跃 函数.但是,这种新的基不再正交,它以牺牲正交性来获得更好的灵活性[22],故此时用 字典 来描述更精确,而本文为了简便统一仍采用 基 表述.9 前向神经网络以一个双层神经网络为例,记网络的输入神经元个数为m,隐层神经元个数为n,输出层神经元个数为q ,则网络结构如图2所示.图2 前向神经网络F ig.2 F or war d neural netw or k与上面几节线性方法不同的是,神经网络属于非线性统计数据建模(nonlinear statistical data m odeling),其隐层暗含了 特征提取 的思想,且可视作输入数据在一种 自适应的非线性非正交的基 上的映射.同样地,此时基牺牲了正交性、线性、不变性,增加了计算负担,但换来了更加强大的灵活性[23].简而言之,前向神经网络采用了类似基追踪的方法[24],但基是自适应变化的、非线性的,因此更加灵活.前向神经网络与基追踪相似之处在于,两者的基都不是正交的,都是根据给定数据而自适应选取的最佳基.前向神经网络的优势在于无不需预选字典,字典在算法中自动生成,并可作为特征选择的一种方法.10 径向基函数网络首先观察径向基函数(RBF)神经元如图3所示.图3 RBF 神经元图F ig.3 N euron of R BF图中输入向量p 的维数为R ,首先p 与输入层权值矩阵I W 相减,然后求距离函数dist ,再与104 武汉工程大学学报第32卷偏置b 1相乘,最后求径向基函数radbas (n)=ex p (-n 2),得到神经元的输出为a =radbas ( IW -pb 1)(41)整个RBF 网络由两层神经元组成,第1层为S 1个如图3所示的RBF 神经元,第2层为S 2个线性神经元,如图4所示.在第2层开始时,第1层的输出a 首先经过线性层权值矩阵LW 后与偏置b 2相加,再通过一个纯线性(purelin)函数purelin (n)=n,得到网络输出y 为y =purelin (LW a +b 2)(42)图4 RBF 神经网络结构图F ig.4 St ruct ur e of RN N比较式(41)与式(9)可见,RBF 网络与核方法非常类似,不同之处在于RBF 网络的L W 需要通过求解一个方程组,而核方法的权重是直接通过归一化计算求得,因此RBF 网络预测结果更为逼近完全内插函数估计(注意不是未知函数r ),而核方法计算更为简便[25].11 维数灾难将函数估计推广到高维,则会碰到维数诅咒(curse of dimensionality)[26](图5),它意味着当观测值的维数增加时,估计难度会迅速增大.维数诅咒有两层含义:一是计算的维数诅咒,指的是某些算法的计算量随着维数的增长而成指数增加.解决方法通常采用优化算法,例如遗传算法、粒子群算法、蚁群算法等[27].二是样本的维数诅咒,指的是数据维数为d 时,样本量需要随着d 指数增长.在函数估计中,第二层含义更为重要,这里给予详细解释.图5 样本的维数诅咒示意图Fig.5 Dimensio nality cur se o f samples假设一个半径r 维数为d 的超球,被一个边长为2r 维数为d 的超立方体所包围,假设超立方体内存在一个均匀分布的点,则由于超球的体积为2r dd /2/[d (d/2)],超立方体的体积为(2r )d,因此该点同时也落在超球内的概率P 为P =d/2d 2d -1 (d/2)(43)令维数d 由2逐步增长到20,则对应的概率P 如图6所示.显然,当d =20时,P 仅为2.46 10-8.因此,若在2维空间中1个样本在半径r 的意义下能逼近一个正方形,则在20维空间内,则需要1/2.46 10-8=4.06 107个样本才能在半径r 的意义下逼近超立方体.图6 概率P 与维数d 的关系F ig.6 T he cur ve of pro bability Pagainst dimensio na lit y d因此,在高维问题中,由于数据非常稀少,导致局部邻域中包含极少的数据点[28],因此估计变得异常困难.目前还没有较好的办法解决.12 结 语将文中阐述的方法归结并示于图7.图7 非参数回归方法Fig.7 Sur vey of non -par ametric r egr essio n metho ds不同类型方法的特点总结如下:a.核方法、正则化方法、正态均值模型可以视作最基本最原始的方式.另外,正则化方法与正态均值模型可视作一类特殊的核方法.b.核方法、局部多项式方法、正则化方法、正态均值模型、小波等方法在大多数情况下均非常类似.这些方法都包含了一个偏倚-方差平衡,所以都需要选择一个光滑参数.由于这些方法均是线性光滑器,所以均可以采用第4节中基于CV 、第7期张煜东,等:非参数估计方法105GC V的方法.c.小波方法一般面向空间非齐次函数.如果需要一个精确的函数估计,而且噪声水平较低,则小波方法非常有效.但若面对一个标准的非参数回归问题,而且感兴趣于置信集,则小波方法并不比其它方法明显更好.d.超完备字典缺陷是丧失了基的正交性,因此估计系数变得复杂;优点是更为灵活,能够采用稀疏的系数描述复杂函数.e.前向神经网络与RBF神经网络是基于不同的模型独立推导出来的,二者不可混淆.另外,神经网络方法的缺点是一般不考虑置信带,并常用训练误差代替风险函数,容易过拟合;优点是面向应用、思想简单且设计灵活.f.理论上,这些方法没有大的差别,特别在用置信带的宽度来评价时.每种方法都有其拥护者与批评者,没有哪一种方法目前获得应用上的优势.一种解决方案是对每个问题都利用所有可行的方法,如果结果一致,则选择简单者;如果结果不一致,则必须探讨内在的原因.g.所讨论的方法能够用于高维问题,然而,即使通过智能优化算法解决了计算的维数诅咒,仍然面对样本的维数诅咒.计算一个高维估计相对容易,然而该估计将不如一维情况下那么精确,其置信区间会非常大.但这并不表示方法失效,而是表示问题的固有困难.参考文献:[1] N eumey er N.A not e on unifor m consistency o fmonoto ne functio n estimato rs[J].Statistics&P robability L etter s,2007,77(7):693-703[2] Sheena Y,G upta A K.N ew estimato r for funct ions o fthe canonical cor relat ion co eff icients[J].Journal o fStatistical Planning and Inference,2005,131(1):41-61.[3] 张煜东,吴乐南,李铜川,等.基于PCN N的彩色图像直方图均衡化增强[J].东南大学学报,2010,40(1):64-68.[4] 詹锦华.基于优化灰色模型的农村居民消费结构预测[J].武汉工程大学学报,2009,31(9):89-91. [5] Wasserman L.A ll of No nparametr ic Statistics[M].N ew Y or k:Spring er-V erlag,Inc.[6] 张煜东,吴乐南,吴含前.工程优化问题中神经网络与进化算法的比较[J].计算机工程与应用,2009,45(3):1-6.[7] H ansen C B.Asym pto tic pr operties o f a robustvar iance matr ix estimator for panel data when T islarg e[J].Jo ur na l of Eco no metrics,2007,141(2):597-620.[8] Po khar el P P,L iu W F,P rincipe J C.K ernel leastmean squar e a lg orithm wit h constr ained g row th[J].Sig nal Pr ocessing,2009,89(3):257-265.[9] Ka liv as J H.Cyclic subspace r eg ressio n w ith analy sisof the hat matrix[J].Chemomet rics and Intellig entLabo rato ry Sy st ems,1999,45(1):215-224.[10] 张煜东,吴乐南.基于二维T sa llis熵的改进PCN N图像分割[J].东南大学学报:自然科学版,2008,38(4):579-584[11] G e kinli N C,Yav uz D.A set o f o ptimal discretelinear smoo ther s[J].Sig nal Pro cessing,2001,3(1):49-62.[12] A ntoniot ti M,Car rer as M,F arinaccio A,et al.A napplication of ker nel methods to g ene clustertempor al meta-ana lysis[J].Com puters&O per atio ns Research,2010,37(8):1361-1368. [13] H sieh P F,Cho u P W,Chuang H Y.An M RF-basedkernel metho d fo r no nlinear featur e ex tractio n[J].Imag e and V ision Co mputing,2010,28(3):502-517.[14] K atkovnik V.M ultireso lution lo cal po lynom ialr egr essio n:A new appro ach to po int wise spat ialadapt at ion[J].Dig ital Signal Pr ocessing,2005,15(1):73-116.[15] Ba llo A,G ran A.Lo ca l linear regr ession fo rfunct ional predicto r and scalar respo nse[J].Journalo f M ultiv ariate Analysis,2009,100(1):102-111.[16] Zhang J W,K rause F L.Ex tending cubic unifo rm B-splines by unified t rig onometr ic and hy perbo lic basis[J].G raphical M o dels,2005,67(2):100-119. [17] 张煜东,吴乐南,韦耿,等.用于多指数拟合的一种混沌免疫粒子群优化[J].东南大学学报,2009,39(4):678-683.[18] Chaudhur i S,Perlman M D.Co nsistent est imatio n ofthe minimum norma l mean under t he tr ee-orderr est riction[J].Journal of Stat istical Planning andInference,2007,137(11):3317-3335.[19] L abat D.Recent advances in w avelet analy ses:P art1.A r eview o f co ncepts[J].Journal o f H y dr olo gy,2005,314(1):275-288.[20] K uno th A.A dapt ive Wavelets fo r Spar seRepresentatio ns o f Scattered Data[J].Studies inComputatio nal M athematics,2006,12:85-108. [21] D onoho D L,Elad M.O n the stability of the basispursuit in the pr esence o f no ise[J].SignalP ro cessing,2006,86(3):511-532.[22] M algo uyres F.Rank related pro per ties fo r BasisP ur suit and tota l var iation reg ularization[J].SignalP ro cessing,2007,87(11):2695-2707.106武汉工程大学学报第32卷[23] 张煜东,吴乐南,韦耿.神经网络泛化增强技术研究[J].科学技术与工程,2009,9(17):4997-5002. [24] 屠艳平,管昌生,谭浩.基于BP网络的钢筋混凝土结构时变可靠度[J].武汉工程大学学报,2008,30(3):36-39.[25] Z hang Y D,W u L N,N egg az N,et al.Remo te-sensing Imag e Classificatio n Based on an Impro vedPro babilistic N eural N etw ork[J].Sensor s,2009,9:7516-7539.[26] A leksandr ow icz G,Barequet G.Co unting po ly cubesw ithout the dimensionality curse[J].DiscreteM athematics,2009,309(13):4576-4583.[27] 张煜东,吴乐南,奚吉,等.进化计算研究现状(上)[J].电脑开发与应用,2009,22(12):1-5.[28] 王忠,叶雄飞.遗传算法在数字水印技术中的应用[J].武汉工程大学学报,2008,30(1):95-97.Survey of non-parametric estimation methodsZHANG Yu-dong1,2,Y AN Jun1,W ANG Shui-hua1,WU Le-nan1(1.Schoo l o f Info rmation Science&Engineer ing,So ut heast U niv ersity,N anjing210096,China;2.Br ainimag ing L ab.,Depar tment o f Psycholog y,Co lumbia U niver sity,N ew Y or k NY10032,U SA)Abstract:In or der to so lve the pro blem of functio n estimation,w e first discuss traditional param etric regression metho d.Since it needs a pr io ri kno w ledge to deter mine the model,the par am etric m ethod is no t robust and is mode-l sensitive.Thus,data-driven non-par am etric metho d is intro duced,w hich needs no t any a prior know ledge to estim ate the unknow n function.Eig ht m ajo r no n-parametric m ethods are discussed as kernel method,local poly no mial regression,regularization method,nor mal mean m odel, w av elet method,ov ercomplete dictionary,fo rw ar d neur al netw ork,and radial basis function netw ork. These alg orithms are com pared,and their coher ence and inher itance ar e investigated.Finally,g eneralize the algo rithms to high dimensionality and po int out tw o pro blems as curse of dimensionality of com putation and sam ple.The for mer can be settled dow n by intelligent methods w hile the latter is pro blem intrinsic.Key words:par am etric statistics;no n-parametric statistics;kernel method;local polynom ial r eg ressio n; regular ization m ethod;no rmal mean mo del;w avelet;ov er-co mplete dictionary;forw ard neural netw ork; radial basis function netw ork本文编辑:龚晓宁。

第4章 非参数谱估计

第4章 非参数谱估计

E A cos( 0 n ) v ( n) A cos( 0 n 0 l ) v ( n l )
A2 A2 E cos(2n0 0 l 2 ) cos(0 l ) 2 2 A cos(0 n )v ( n l ) A cos(0 n 0 l )v( n) v ( n)v ( n l ) 1 2 A cos( l0 ) v2 ( l ) 2
80
160
180
200
1
0.5
r(l)
0 -0.5 0
20
40
60
80
现代信号处理
1 2 2 理论值:rx ( l ) A cos( l0 ) v ( l ) 2
100 l
120
140
160
180
200
EE of BUPT
L = N/4
Sample Sequence 4
Amplitude
MATLAB函数: window rectwin(或boxcar) bartlett, blackman, chebwin, hamming, hann, kaiser and triang
现代信号处理
EE of BUPT
22
相关图法功率谱估计的步骤

估计自相关序列

构成加窗自相关序列
1 ˆx ( l ) r ˆx ( l ) r N
现代信号处理
EE of BUPT
19
自相关估计的第二种估计算法
1 N l 1 N l x( n l ) x( n), 0 l L N n 0 rx ( l ) rx ( l ), N L l 0 其他 0, 尽管这个估计量是无偏的,但是由它组成的自相关矩 阵不保证非负定。 第一种方法比第二种方法有更小的方差和均方误差。 在信号处理中,大多数情况下还是采用第一种方法。

参数估计与非参数估计

参数估计与非参数估计

i=1,2,…M
所后来验概率
P(
|
X
i)
P( X i | ).P() P( X i | )P()d(贝叶斯公式)
因为N个样本是独立抽取旳,所以上式能够写成
N
P( | X i) a P(X k | ).P()
k 1
其中 a
1 P( X i | )P()d 为百分比因子,只与x有关,与μ无关
1 (X
2
k
1)
0
N
k 1
2
log P(X k
| i)
N
[
k 1
1 2 2
( X k 1)2 ]
2
2 2
0
1
1
1 N
N k 1
Xk
即学习样本旳算术平均
2
2 1
1 N
N k 1
Xk
2
样本方差
• 讨论: 1.正态总体均值旳最大似然估计即为学习样本旳算术平均 2.正态总体方差旳最大似然估计与样本旳方差不同,当N较 大旳时候,两者旳差别不大。
若PN(x)收敛于P(x)应满足三个条件:

lim
N
V
N
0
,当N↑时,VN↓,N→∞,VN→0
这时虽然样本数多,但因为VN↓,落入VN内旳样本KN
也减小,所以空间变化才反应出来

lim K N
N
,N ↑ ,kN ↑ ,N与KN同相变化

lim
N
KN N
0
,KN旳变化远不大于N旳变化。
所以尽管

1 N 2
N 2
1
2 0
N
N 2
1
2

现代非参数估计

现代非参数估计

3.1 普通的极大似然估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 经验似然估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第四章 NA序列的基本性质及基本不等式
为f (x)的核密度估计, 其中K (u)称为核函数,hn 称为窗宽. 注 1.1.1 在理论上, 往往考虑核函数K (u)为一般的Borel可测函数. 但在实际应
用中, 一般取核函数K (u)为一个概率密度函数, 即 ∫ ∞ K (u) ≥ 0, K (u)du = 1.
−∞
2
1.1. 核密度估计的定义 核函数K (u)的常见候选函数有: 均匀核函数 K (u) = 正态核函数 K (u) = √ XX=rnorm(2000)
4.1 基本性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 基本不等式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第五章 NA样本回归函数估计的强相合性
( ) n x − Xj 1 ∑ fn (x) = K nhn j =1 hn
(1.1.3)
注意K (x)为区间[−1, 1)上均匀分布的概率密度函数. 4. 核密度估计 定义 1.1.1 设K (u)是定义在R1 上的一个Borel可测函数, hn > 0为常数, 则称 ( ) n 1 ∑ x − Xj fn (x) = K (1.1.4) nhn j =1 hn

非参数估计

非参数估计
第p分位数:T (F ) = F−1 ( p) T (F )的估计为 Fˆn−1 ( p)
由于 Fˆn 不可逆,为避免歧义,定义
{ } Fˆn−1 ( p) = inf x : Fˆn (x) ≥ p
Fˆn−1 ( p) 称为样本分位数。
Statistical Inference 7-17
义为
LF
(x)
=
lim
ε→0
T
⎣⎡(1−
ε)
F
+ ε
εδ x
⎤⎦
−T
(F
)
=
lim
ε→0
T
(

)−T
ε
(
F
)
其中δx 为x处的一个Delta函数,X ~ Fε为F和点x的混合体
X ~ ⎧⎪⎪⎨⎪⎪⎩Fx
概率为1- ε 概率为 ε
影 。 的响 影 方函 响 差数 函 有形 数 关式 越 )同 大导 ,数 当F相变同成,F表ε 时示,统T计(F函)变数化T 越(F大)的(变与化估率计 Statistical Inference 7-20
Statistical Inference 7-8
EDF的置信区间
Glivenko-Cantelli 定理 如果 X1,...X n ~ F ,则
sup Fˆn (x)− F (x) ⎯P⎯→ 0
x
Dvoretzky-Kiefer-Wolfowitz (DKW)不等式 如果 X1,...X n ~ F ,则对任意 ε > 0
函数,在有样本时跳 1/n 。
Statistical Inference 7-6
1
Fˆn (x)是F的一个很好估计?

概率密度函数的估计非参数估计

概率密度函数的估计非参数估计
模式识别
第3章 概率密度函数的估计
可编辑ppt
1
总体分布的非参数估计
前面的方法
密度函数的形式已知
存在问题
密度函数的形式常常未知 一些函数形式很难拟合实际的概率密度
经典的密度函数都是单峰的,而在许多实际情况 中却是多峰的
因此用非参数估计
可编辑ppt
2
总体分布的非参数估计
非参数估计
处理问题
直接用已知类别样本去估计总体密度分布p(x|ωi)
需要计算^p(x|ωi)的每个点的值 方法
① 用样本直接去估计类概率密度p(x|ωi)以此来设 计分类器, 如窗口估计
② 用学习样本直接估计后验概率p(ωi|x)作为分类 准则来设计分类器如k近邻法.
本章只考虑第一种方法
可编辑ppt
3
总体分布的非参数估计
k
pˆ(x) N
V
所以如果样本有限,则估计值一定有方差。
可编辑ppt
11
总体分布的非参数估计
p(x)估计值的收敛性讨论
考虑无限多样本情况
构造一串包括x的区域序列R1,R2,…RN. 对R1采用1个样本进行估计, 对R2采用2个样本进行估计, ……
VN是RN的体积,KN是N个样本落入VN的样本数则
7
总体分布的非参数估计
估计概率p(x)
密度p(x)的估计:
k pˆ ( x) N
V
(V足够小)
上式就是对x点概率密度p(x)的估计值
可编辑ppt
8
真实概率是 0.7 横坐标是k/N 纵坐标是概率分布
可编辑ppt
9
总体分布的非参数估计
p(x)估计值的收敛性讨论
当V固定的时候
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

此方法的有效性取决于样本数量的多少, 此方法的有效性取决于样本数量的多少,以 及区域体积选择的合适。 及区域体积选择的合适。
概率密度估计
收敛性问题:样本数量 无穷大是 无穷大是, 收敛性问题:样本数量N无穷大是,估计的概率函 数是否收敛到真实值? 数是否收敛到真实值?
N →∞
ˆ lim pN ( x ) = p ( x )
实际中,ˆ 越精确,要求: 实际中,p ( x ) 越精确,要求: R → 0 实际中, 是有限的 是有限的: 实际中,N是有限的: 绝大部分区间没有样本: ˆ 当 R → 0 时,绝大部分区间没有样本: p ( x ) = 0
ˆ 如果侥幸存在一个样本, 如果侥幸存在一个样本,则: p ( x ) = ∞
概率密度估计
直方图的例子
概率密度估计
非参数概率密度估计的核心思路:
一个向量x落在区域 中的概率 一个向量 落在区域R中的概率 为: P = ∫ p ( x )dx 落在区域 中的概率P为
R
因此,可以通过统计概率 来估计概率密度函数 来估计概率密度函数p(x) 因此,可以通过统计概率P来估计概率密度函数
kn / N pn ( x ) = Vn
的第n次估计 为p(x)的第 次估计 的第
概率密度估计
能够收敛到p(x),那么必须满足: ,那么必须满足: 如果要求 pn ( x ) 能够收敛到
n →∞
lim Vn = 0
n →∞
lim kn = ∞
lim kn / n = 0
n →∞
选择V 选择 n
选择k 选择 n
1 ϕ (u) = 0 1 u j ≤ , j = 1,L , d 2 otherwise
中心在原点的 单位超立方体
Parzen窗估计
落入以X为中心的立方体区域的样本数为: 落入以 为中心的立方体区域的样本数为: 为中心的立方体区域的样本数为
x − xi kn = ∑ ϕ i =1 hn X处的密度估计为: 处的密度估计为: 处的密度估计为
p (x)
概率密度估计
直方图方法: 直方图方法:非参数概率密度估计的最简单 方法
1. 把x的每个分量分成k 个等间隔小窗, x的每个分量分成 个等间隔小窗, 的每个分量分成k 则形成k 个小舱) ( x∈Ed ,则形成 d 个小舱) ∈ 2. 统计落入各个小舱内的样本数 i 统计落入各个小舱内的样本数q 3. 相应小舱的概率密度为: qi /(NV ) 相应小舱的概率密度为: 总数, 小舱体积) ( N :样本 总数,V :小舱体积)
10 . 0
h 1 = 0 . 25
h1 = 1
h1 = 4

1 .0 0 .1 0 . 01 0 . 001 10 . 0 1 .0 0 .1 0 . 01 0 . 001 10 . 0
Parzen 窗 法 估 计 两 个 均 匀 分 布 的 实 验
1 .0 0 .1 0 . 01 0 . 001 10 . 0 1 .0 0 .1 0 . 01 0 . 001
n
kn / n 1 n 1 x − xi ˆ pn ( x ) = = ∑ ϕ Vn n i =1 Vn hn
可以验证: ˆ 可以验证: pn ( x ) ≥ 0
ˆ ∫ p ( x )dx = 1
n
窗函数的要求
Parzen窗估计过程是一个内插过程,样本xi 距离x越近,对概率密度估计的贡献越大,越 远贡献越小。 只要满足如下条件,就可以作为窗函数:
− 2
0
2
− 2
0
2
− 2
0
2
由图看出, PN(x)随N, h1的变化情况 ①当N=1时, PN(x)是一个以第一个样本为中心的正 态曲线,与窗函数差不多。
②当N=16及N=256时
h1=0.25 曲线起伏很大,噪声大 h1=1 起伏减小 h1=4 曲线平坦 ③当N→∞时, PN(x)收敛于一平滑的正态曲线, 估计曲线较好。
Pk = P k (1 − P ) k
k 的期望值为: E [ k ] = NP 的期望值为: 的估计: 对P的估计: 的估计
ˆ= k P N
当 N → ∞ 时, 估计是非 常精确的
概率密度估计
假设p(x)是连续的,且R足够小使得 是连续的, 足够小使得p(x)在R内几乎 假设 是连续的 足够小使得 在 内几乎 没有变化。 没有变化。 是包含样本点x的一个区域 令R是包含样本点 的一个区域,其体积为 ,设有 是包含样本点 的一个区域,其体积为V, N个训练样本 其中有k落在区域 N个训练样本,其中有k落在区域R中,则可对概率 个训练样本, 落在区域R中 密度作出一个估计: 密度作出一个估计: ˆ= k P P = ∫ p ( x )dx = p ( x ) V N R
ϕ (u ) ≥ 0
∫ ϕ ( u ) du = 1
窗函数的形式
方窗函数
1 1 , | u |≤ ϕ (u ) = 2 0 .其他
正态窗函数
指数窗函数
ϕ (u ) =
1 exp{− u 2} 2 2π
1
ϕ ( u ) = exp{ − | u |}
x − xi 其中: 其中:u = hn
窗口宽度的影响
Parzen估计的性能与窗宽参数hn紧密相关
当hn较大时,x和中心xi距离大小的影响程度变弱,估计 的p(x)较为平滑,分辨率较差。 当hn较小时,x和中心xi距离大小的影响程度变强,估计 的p(x)较为尖锐,分辨率较好。
窗口宽度的影响
5个样本的 个样本的Parzen窗估计: 窗估计: 个样本的 窗估计
非参数估计
刘芳, 刘芳,戚玉涛 qi_yutao@
引言
参数化估计: 方法和 方法和Bayesian估计。假设概率 估计。 参数化估计:ML方法和 估计 密度形式已知。 密度形式已知。 实际中概率密度形式往往未知。 实际中概率密度形式往往未知。 实际中概率密度往往是多模的, 实际中概率密度往往是多模的,即有多个局部极大 值。 实际中样本维数较高, 实际中样本维数较高,且关于高维密度函数可以表 示成一些低维密度函数乘积的假设通常也不成立。 示成一些低维密度函数乘积的假设通常也不成立。 本章介绍非参数密度估计方法: 本章介绍非参数密度估计方法:能处理任意的概率 分布,而不必假设密度函数的形式已知。 分布,而不必假设密度函数的形式已知。
ห้องสมุดไป่ตู้
概率密度估计
假设N个样本的集合 假设 个样本的集合 是根据概率密度 函数为p(x)的分布独立抽取得到的。 的分布独立抽取得到的。 函数为 的分布独立抽取得到的 那么,有k个样本落在区域 中的概率服从二项式 那么, 个样本落在区域R中的概率服从二项式 个样本落在区域 定理: 定理: N N −k
例:设待估计的P(x)是个均值为0,方差为1的正态密度 函数。若随机地抽取X样本中的1个、 16个、 256个作为 学习样本xi,试用窗口法估计PN(x)。 解:设窗口函数为正态的, σ=1,μ=0
ϕ(
| x − xi | hN
1 1 | x − xi | )] )= exp[− ( 2 hN 2π
窗函数
密度估计值
渐近收敛性
Parzen窗密度估计的渐近收敛性:
无偏性: 当 Vn → 0 时,E pl ( x ) → p ( x ) ˆ 一致性:
n →∞
lim σ 2 pn ( x ) = 0 ˆ
例:对于一个二类( ω1 ,ω2 )识别问题,随机抽取ω1类 的6个样本X=(x1,x2,…. x6) ω1=(x1,x2,…. x6) =(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1) 估计P(x|ω1)即PN(x) x6 0 1 2 x5 x3 x1 x2 3 4
k/N ˆ p (x) = V
对p(x) 在小区域内的平均值的估计
概率密度估计
当样本数量N固定时,体积 的大小对估计的 当样本数量 固定时,体积V的大小对估计的 固定时 效果影响很大。 效果影响很大。
过大则平滑过多,不够精确; 过大则平滑过多,不够精确; 过小则可能导致在此区域内无样本点, 过小则可能导致在此区域内无样本点,k=0。 。
例:待估的密度函数为二项分布 解:此为多峰情况的估计 设窗函数为正态
-2.5<x<-2 1 P(x) = 0.25 0<x<2 0 x为其它
-2.5 -2
P(x)
1
0.25
0
2 x
解:此为多峰情况的估计 1 设窗函数为正态 ϕ (u ) =
1 2 h1 exp[ − u ], hN = 2 2π N
−2
0
2
−2
0
2
−2
0
2
当N=1、16、256、 ∞时的PN(x)估计如图所示 ①当N=1时, PN(x) 实际是窗函数。 ②当N=16及N=256时
h1=0.25 曲线起伏大 h1=1 曲线起伏减小 h1=4 曲线平坦 ③当N→∞时,曲线较好。
Parzen窗估计
优点
由前面的例子可以看出, Parzen窗估计的优点是应用的 普遍性。对规则分布,非规则分布,单锋或多峰分布都 可用此法进行密度估计。 可以获得较为光滑且分辨率较高的密度估计,实现了光 滑性和分辨率之间的一个较好平衡。
2
hN = h1 N
V N = hN
hN:窗长度,N为样本数,h1为选定可调节的参数。
1 PN ( x) = N
∑V
i =1
N
1
N
ϕ(
| x − xi | hN
)= h1
1
∑ N
i =1
N
1 1 | x − xi | N exp[− 2 2π h1
相关文档
最新文档