概率神经网络讲解

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概率神经网络讲解

Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

Donald

Probabilistic Neural Networks

Neural Networks,,,1990

概率神经网络

摘要:以指数函数替代神经网络中常用的S形激活函数,进而构造出能够计算非线性判别边界的概率神经网络(PNN),该判定边界接近于贝

叶斯最佳判定面。还讨论了拥有类似性质的其他激活函数。所提出的这种4层神经网络能够把任何输入模式映射到多个类别。如果能取得新数据的话,可以使用新数据实时地修改判定边界,并可以使用完全并行运行的人工“神经元”付诸实现。还为估计类别的出现概率和可靠性,以及做判别作好准备。对于反向传播增加的适应时间占总计算时间的重大部分的问题,这种方法显示出非常快速的优点。PNN范式比反向传播快200,000倍。

关键词:神经网格,概率密度函数,并行处理机,“神经元”,模式识别,Parzen窗口,贝叶斯策略,相联存储器

1. 动机

神经网络常用来依据向实例学习进行模式分类。不同的神经网格范式(paradigm)使用不同的学习规则,但都以某种方式,根据一组训练样本确定模式的统计量,然后根据这些统计量进行新模式分类。

通用方法如反向传播,使用探试法获得基础的类别统计量。探试法通常包含对系统参数的许多小的改进,逐渐提高系统的性能。除了训练需要长的计算时间外,还表明,反向传播增加的适应近似法对错误的最小值很敏感。为了改进这种方法,找到了基于己确立的统计原理的分类方法。

可以表明,尽管最终得到的网络在结构上类似于反向传播,且其主要区别在于以统计方法推导的激活函数替代S形激活函数,但这个网络具有的特点是:在某些易满足的条件下,以PNN实现的判别边界渐进地逼近贝叶斯最佳判定面。

为了了解PNN范式的基础,通常从贝叶斯判定策略以及概率密度函数的非参数估计的讨论开始。之后可以表明,这种统计方法如何映射到前馈神经网络结构,网络结构是以许多简单处理器(神经元)代表的,所有处理器都是并行运行。

2. 模式分类的贝叶斯判定策略

用于模式分类的判定规则或策略的公认标准是:在某种意义上,使“预期风险”最小。这样的策略称之“贝叶斯策略”,并适用于包含许多类别的问题。

现在考察两类的情况,其中,已知类别状态θ为A θ或B θ。如果想要根据p 维向量X T

=[X 1…X i …X p ]描述的一组测量结果,判定θ=A θ或θ=B θ,贝叶斯判定规则变成:

()A d X θ= 如果()()A A A B B B h l f X h l f X >

()B d X θ= 如果()()A A A B B B h l f X h l f X <

(1)

式中,()A f X 和()B f X 分别为类别A 和B 的概率密度函数;A l 为θ=A θ时判定()B d X θ=的损失函数;B l 为θ=B θ时判定()A d X θ=的损失函数(取正确判定的损失等于0);A h 为模式来自类别A 出现的先验概率;和

B h =1-A h 为θ=B θ的先验概率。

于是,贝叶斯判定规则()A d X θ=的区域与贝叶斯判定规则()B d X θ=的区域间的界限可用下式求得

()()A B f X Kf X = (2) 式中

/B B A A K h l h l = (3)

一般地,由式(2)确定的两类判定面可以是任意复杂的, 因为对密度没有约束,只是所有概率密度函数(PDF )都必须满足的那些条件,即

它们处处为非负,是可积的,在全空间的积分等于1。同样的判定规则可适用于多类问题。

使用式(2)的关键是根据训练模式估计PDF 的能力。通常,先验概率为己知,或者可以准确地加以估计,损失函数需要主观估计。然而,如果将要划分类别的模式的概率密度未知,并且给出的是一组训练模式(训练样本),那么,提供未知的基础概率密度的唯一线索是这些样本。

在Parzen (1962)的经典论文中,他指出,只要基础的母体密度是连续的,类别的PDF 估计器可以渐进地逼近基础的母体密度。

3. 密度估计的一致性

判别边界的准确度决定于所估计基础PDF 的准确度。Parzen (1962)论述如何构造()f X 的一族估值,

()11n Ai

n i X X f X n ϖλλ=-⎛⎫

= ⎪⎝⎭

∑ (4)

其在连续PDF 的所有点X 上都是一致的。令X A1,…X Ai ,…X An 为恒等分布的独立随机变量,因为随机变量X 的分布函数()f X =P [x ≤X ] 是绝对连续的。关于权重函数()y ϖ的Parzen 条件是

()sup ||y y ϖ-∞<<+∞<∞ (5)

其中,sup 为上确界,

()||y dy ϖ+∞

-∞<∞⎰ (6)

()lim ||0y y y ϖ→∞

=

(7)

和 ()1y dy ϖ+∞

-∞=⎰ (8)

式(4)中,选择()n λλ=作为n 的函数,且

()lim 0n n λ→∞

=

(9)

和 ()lim n n n λ→∞

=∞

(10)

Parzen 证明,在

()()2||0n E f X f X -→ 随n →∞ (11)

意义上,()f X 估值的均方值一致。

一致性的这一定义,一般认为,当根据较大数据集估计时,预计误差变小,这是特别重要的,因为这意味着,真实分布可以按平滑方式近似。

Murthy (1965,1966)放宽了分布()f X 绝对连续的假定,并指明,类别估计器仍然一致地估计连续分布F (X )所有点的密度,这里密度()f X 也是连续的。

Cacoullos (1966)还扩展了Parzen 的结果,适用于多变量情况。Cacoullos (1966)中定理指明如何扩展Parzen 的结果,以在这种特殊情况下估计出多变量核为单变量核之积。在Gaussian 核的特殊情况下,多变量估计可表达为

()()()()/2211

1exp 22T m

Ai Ai A p p i X X X X f X m σπσ=⎡⎤--=-⎢⎥⎢⎥⎣⎦

∑ (12)

式中, i = 模式号, m = 训练模式总数,

X Ai = 类别A θ的第i 训练模式, σ = “平滑参数”, P = 度量空间的维数。

请注意,()A f X 简单地为中心位于每个训练样本的小的多变量Gaussian 分布之和。然而, 这个和不限于Gaussian 分布。实际上,可以近似任意平滑密度函数。

图1表示出独立变量X 为二维情况下,不同的平滑参数σ值对()A f X 的影响。三种不同的σ值,各种情况使用相同的训练样本,据式(12)绘

相关文档
最新文档