概率神经网络的结构优化研究及其应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

概率神经网络的结构优化研究及其应用导师：丁宇新硕士研究生：马运勇答辩日期：2008.12 内容提纲 ? ? ? ? ? 一. 二. 三. 四. 五. 课题背景、研究现状及主要工作 PNN网络模型 PNN网络结构优化研究基于PNN的垃圾邮件过滤系统结论一. 课题背景、研究现状及主要工作 ? 1. 课题背景 (1) 概率神经网络(Probabilistic Neural Network, PNN) 是基于贝叶斯决策理论与Parzen窗概率密度估计方法而建立的一种分类网络。 (2) PNN具有算法简单、训练简洁、追加样本方便和计算过程完全前向等优点，在模式识别和模式分类领域有着广泛的应用。 (3)PNN网络传统训练方法中每个训练样本对应一个隐层神经元，当训练样本数量巨大时，将导致规模庞大的网络结构，阻碍了PNN网络的推广和应用。 (4)垃圾邮件分类是网络安全领域研究的热点，具有非常广泛的现实意义，其实质上是一个模式分类问题，因此考虑将PNN引入其中。一. 课题背景、研究现状及主要工作 ? 2. 研究现状对样本向量降维；利用Kmeans, EM, LVQ等聚类算法选择隐 ? 结构优化：层神经元，降低网络结构的复杂性。 ? 模型改进及算法学习：径向基概率神经网络模型(RBPNN)；时变PNN模型；遗传算法对参数进行训练。 ? 应用性研究对PNN的应用性研究并不是很多，G.Pajares等人将其用于立体视觉匹配，Wang Cheng-Ru等人将其引入到说话人识别等一. 课题背景、研究现状及主要工作 ? 3. 主要工作 (1) PNN决策边界分析； (2) 基于有监督信号的竞争学习算法； (3) 混叠类别情况下收敛条件的确定； (4) PNN平滑因子的选取； (5) 基于PNN的垃圾邮件过滤系统。内容提纲 ? ? ? ? ? 一. 二. 三. 四. 五. 课题背景、研究现状及主要工作 PNN网络模型 PNN网络结构优化研究基于PNN的垃圾邮件过滤系统及实验分析结论二.PNN网络模型 ? 1. PNN理论基础-贝叶斯决策 P ( x | ? ) P (? ) i i 贝叶斯公式 P (? | x ) ? i ? P( x | ?k ) P(?k ) k ?1 c 决策规则 P ( x | ? ) P (? ) ? P ( x | ? ) P (? )=>x ? ? i i j j i 二.PNN网络模型 ? 2. PNN理论基础-Parzen窗概率密度估计 Parzen窗估计法表示： 1 p( x) ? K /(nV ) ? nV x ? xk ?( ) ? h k 高斯发展了Parzen的结论，提出了一个多元高斯核函数的特例，即概率密度函数的估计可以表示为： ? ( x ? xi )T ( x ? xi ) ? f ? ( x) ? exp ? ? ? ? d /2 d 2 (2? ) ? m i ?1 2 ? ? ? 1 m 二.PNN网络模型 ? 3. PNN拓扑结构二.PNN网络模型 ? 3. PNN拓扑结构输入层：输入数据，不做任何计算隐层： ? ( x ? xij )T ( x ? xij ) ? 1 ?ij ( x) ? exp ? ? ? d /2 d 2 (2? ) ? 2 ? ? ? ? ? 累加层： 1 f iNi ( x) ? Ni ? ? ( x) j ?1 ij Ni 输出层： ?( x) ? arg max[?i fiNi ( x)] 内容提纲 ? ? ? ? ? 一. 二. 三. 四. 五. 课题背景、研究现状及主要工作 PNN网络

模型 PNN网络结构优化研究基于PNN的垃圾邮件过滤系统结论三.PNN网络结构优化研究 ? 目前PNN结构优化技术： ? 基于PCA的样本降维技术 ? PNN隐中心选择：Kmeans算法、EM算法和LVQ算法 ? 我的研究工作：目前PNN结构优化技术利用的是无监督学习算法，在分类性能、泛化能力等上存在不足，本文提出一种有监督竞争学习算法，利用 PNN分类结果调整选择的隐中心矢量，具体工作包括： ? PNN决策边界分析； ? 基于有监督信号的竞争学习算法； ? 混叠类别情况下收敛条件的确定； ? PNN平滑因子的选取；三.PNN网络结构优化研究 ? 1. PNN样本降维技术-PCA算法 ? x11 ? ? 假设有N个样本，每个样本由n个观测变量： ? ? ? ?x ? N1 ? y1 ? a11 x1 ? a21 x2 ? ... ? an1 xn x1n ? ? ? ? xNn ? ? 设综合指标为 ... ym ? a1m x1 ? a2 m x2 ? ... ? anm xn ???m ? n 其中 y1 为 x1 , x2 ,..., xn 线性组合中方差最大的， y2 , y3 ,..., ym 依次递减。 y1 , y2 ,..., ym 分别称为 x1 , x2 ,..., xn 的第1，第2，....，第m个主成分。三.PNN网络结构优化研究 ? 2. PNN隐层神经元的选择-Kmeans算法 ? ? ? 典型的基于划分的聚类算法 K-means算法如下：输入：类的数目k和包含n个对象的数据集；输出：k个类，使得平方误差准则最小；算法过程： (1) 选择k个对象作为初始的类中心； (2) Repeat; (3) 根据类的中心，将每个对象赋给最类似的类； (4) 更新类的中心，即计算类中对象的平均值； (5) Until不再发生变化。把聚类中心做为PNN隐中心矢量三.PNN网络结构优化研究 ? 3. PNN隐层神经元的选择-EM算法 ? 假设所有的训练样本由N个不同的正态分布的混合分布生成，来估计这N个分布中的均值，即假设为： h ? (u1 , u2 ,..., u N ) ? 通过搜寻使E[lnP(Y|h’)]最大化的h’来寻找极大似然假设h，重复以下两个步骤直至收敛估计(E)步骤： Q(h ' | h) ? E[ln p(Y | h ') | h, X ] h ? arg max Q (h ' | h) h' 最大化(M)步骤：三.PNN网络结构优化研究 ? 4. PNN隐层神经元的选择-LVQ算法 1) 给定数据集 X ? ( x1 , x1 ,..., xn ) ,给定c，T，一个比较小的ε，其中ε>0， c为聚类数目，T为迭代步骤； d 2) 初始化，设置聚类初始点为 V0 ? (v1,0 , v2,0 ,..., vc,0 ) ? R ； 3) 对于t=1,2,…,T, k=1,2,…,n a 找到 || xk ? vi ,t ?1 ||? min{|| xk ? v j ,t ?1 ||} 1? j ? c b 修改竞争获胜的点：类别一致时： vi ,t ? vi ,t ?1 ? ?t ( xk ? vi ,t ?1 ) 否则：vi ,t ? vi ,t ?1 ? ?t ( xk ? vi ,t ?1 ) c 输入下一个数据 4) 计算 Et ? ? r ?1 || vr ,t ? vr ,t ?1 || ，如果 Et ? ? c 则停止，否则调整学习率转下一步t。三.PNN网络结构优化研究 ? 5. 我的研究工作-PNN决策边界分析 rj ( x ) —— 样本x属于第j类，PNN计算此样本属于第j类的决策风险值 rj ' ( x ) —— PNN计算x属于除第j类以外所有类别的

决策风险的最小值定义变量 m( x) ? rj ( x) ? rj ' ( x) 1) m(x) < 0时，样本x被PNN正确分类 2) m(x) > 0时，样本x被PNN误分类 3) m(x)绝对值较小时，表示这个样本向量的空间位置距离决策边界较近，对于混叠类别，x很可能落入混叠的区域。三.PNN网络结构优化研究 ? 6. 我的研究工作-有监督竞争学习算法 1) 对训练样本进行聚类。 ? 聚类后中心为 (u1 , u2 ,..., uQ ) ? 聚类中心的比例因子 ? Qj i ?1 ? ij ? 1??( j ? 1,..., M ) ? 聚类算法可以采用Kmeans算法，EM算法和LVQ算法等，也可以采用其他的聚类算法； 2) 利用聚类后的中心向量作为PNN隐层中心矢量，设计PNN网络；三.PNN网络结构优化研究 ? 6. 我的研究工作-有监督竞争学习算法 3) 利用PNN对训练样本x分类，假设样本x属于第j类且 PNN将x分为j’类，按如下方式进行调整： a 竞争获胜隐中心下标： i ? arg?min{|| x ? uij ' ||}i ?1 b 如果 j’=j Qj ' (uij )new ? (uij )old ? ?? x ? (uij )old ?， ?? ij )new ? ?? ij )old ? ?? c 如果 j’ ≠j (uij )new ? (uij )old -?? x ? (uij ) old ?， ?? ij ) new ? ?? ij ) old -?? 三.PNN网络结构优化研究 ? 6. 我的研究工作-有监督竞争学习算法 4)重复步骤2)，3)直到满足终止条件或达到规定的学习次数终止。无混叠类别分类时，典型的收敛条件为所有的训练样本能被正确的分类 ? ? 类别间存在混叠时，无法满足使所有的训练样本都被正确分类这个收敛条件三.PNN网络结构优化研究 ? 7. 我的研究工作-软决策边界收敛条件 ? PNN决策边界分析：硬决策：软决策： m( x) ? rj ( x) ? rj ' ( x) ?0,??m ? 0 ?( m ) ? ? ?1,??m ? 0 ?0,??m ? 0 ?(m, b, s ) ? ? ? ( m ?b ) / s ),??m ? 0 ?1/(1 ? e ? 对于混叠类别问题，通过计算PNN网络误分类的百分比来作为终止收敛条件，遇到一个误分类的样本，更新MP(误分类百分比)的大小： ( MP)new ? ( MP)old ? ?MP 其中 ?MP ? ? / N 初始时MP的值设为0。计算MP的大小，当小于一定的阈值时，训练过程结束。三.PNN网络结构优化研究 ? 8. 我的研究工作-平滑因子σ的确定 ? σ 的大小，反应了窗的宽度： 1) 如果宽度太大，隐中心的窗会有重叠，造成分辨率降低； 2) 如果宽度太小，隐中心之间容易出现空隙。因此平滑因子的大小与隐中心之间的距离有关。 ? 给出一种平滑因子的确定方案：为每个隐中心赋予一个平滑因子： ?i ? ? dist (u , u ) j ?i i j G 三.PNN网络结构优化研究 ? 9. 我的研究工作-标准正态分布二维样本分类实验 Class 1： x ~ N (0, ?1,0.75,0.75;0); Class 2： x ~ N (0,-1,0.75,0.75;0); 三.PNN网络结构优化研究 ? 9. 我的研究工作-标准正态分布二维样本分类实验 ? 原始PNN分类决策面 ? 所有训练样本都做为PNN 隐中心矢量，结构复杂； ? 噪声数据参与分类。三.PNN网络结构优

化研究 ? 9. 我的研究工作-标准正态分布二维样本分类实验 ? Kmeans-PNN和Kmeans-COMPETE-PNN分类决策面比较 ? Kmeans-COMPETE-PNN更接近理想决策面三.PNN网络结构优化研究 ? 9. 我的研究工作-标准正态分布二维样本分类实验 ? EM-PNN和EM-COMPETE-PNN分类决策面比较 ? EM-COMPETE-PNN更接近理想决策面三.PNN网络结构优化研究 ? 9. 我的研究工作-标准正态分布二维样本分类实验 ? LVQ-PNN和LVQ-COMPETE-PNN分类决策面比较 ? LVQ-PNN分类正确率：88.88% ? LVQ-COMPETE-PNN分类正确率：89.62% 三.PNN网络结构优化研究 ? 9. 我的研究工作-标准正态分布二维样本分类实验 ? 结论： 1) 增加有监督竞争学习算法后的PNN对标准正态分布样本有较好的分类性能，分类决策面更接近理想决策面。 2) 结构优化PNN隐层神经元数目较少，有效的降低了PNN网络结构的复杂性。内容提纲 ? ? ? ? ? 一. 二. 三. 四. 五. 课题背景、研究现状及主要工作 PNN网络模型 PNN网络结构优化研究基于PNN的垃圾邮件过滤系统结论四.基于PNN的垃圾邮件过滤系统 ? 1.基于PNN的垃圾邮件过滤系统结构训练样本待分类邮件邮件预处理邮件预处理特征选择特征集合分类和输出 PNN分类器分类集合四.基于PNN的垃圾邮件过滤系统 ? 1.基于PNN的垃圾邮件过滤系统结构 ? 邮件预处理：分析邮件结构、抽取邮件正文、中文分词 ? 特征提取：改进的TFIDF方法 ? PNN分类器：分别采用Kmeans、EM和LVQ算法，以及提出的竞争学习算法来设计PNN 分类器，对邮件进行分类。四.基于PNN的垃圾邮件过滤系统 ? ? 2.邮件分类实验——评价体系本文采用了三种评价方法对实验结果进行评估 (1) 准确率对所有邮件，包括垃圾邮件和合法邮件的判对率。 (2) 误报率正常邮件被判成垃圾邮件占所有正常邮件的百分比。 (3) 漏报率垃圾邮件被判为正常邮件占所有垃圾邮件的百分比。四.基于PNN的垃圾邮件过滤系统 ? ? ? 2.邮件分类实验——实验采用的数据集邮件语料库：中国教育和科研计算机网紧急相应组(CCERT) 发布数据集划分：大规模数据集训练集样本总数训练集中垃圾邮件数目训练集中垃圾邮件数目测试集样本总数测试集中垃圾邮件数目 16000 8000 8000 2400 1200 小规模数据集 2000 1000 1000 1400 700 测试集中垃圾邮件数目 1200 700 四.基于PNN的垃圾邮件过滤系统 ? 3. 实验及结果分析本文共进行了六组实验： ? 第一组：原始PNN邮件分类 ? 第二组：Kmeans-PNN和Kmeans-COMPETE-PNN邮件分类 ? 第三组：EM-PNN和EM-COMPETE-PNN邮件分类 ? 第四组：LVQ-PNN和LVQ-COMPETE-PNN邮件分类 ? 第五组：PCA对PNN邮件分类的影响 ? 第六组：结构优化PNN与原始PNN结果比较第一组：原始PNN邮件分类 ? 原始PNN邮件分类：测试结果

受平滑因子影响较大；训练样本的分类结果明显优于测试样本结果；网络结构复杂，小样本集下共2000个隐层神经元。平滑因子训练精确率 77.80% 95.65% 98.10% 99.40% 99.75% 99.75% 99.75% 训练误报率 1.00% 8.00% 3.80% 1.20% 0.50% 0.50% 0.50% 训练漏报率 43.4% 0.70% 0 0 0 0 0 测试精确率 77.80% 91.30% 74.50% 82.10% 84.10% 73.10% 67.40% 测试误报率 3.00% 14.86% 48.29% 30.14% 23.57% 13.57% 2.00% 测试漏报率 41.43% 2.57% 2.71% 5.71% 8.29% 40.14% 63.29% 0.1 0.2 0.5 1 2 5 10 第二组：Kmeans-PNN和Kmeans-COMPETE-PNN 邮件分类 ? 精确率比较：Kmeans-COMPETE-PNN精确率基本要高于 Kmeans-PNN 第二组：Kmeans-PNN和Kmeans-COMPETE-PNN 邮件分类 ? 误报率和漏报率比较：Kmeans-COMPETE-PNN在误报率与KmeansPNN相近的情况下，漏报率降低幅度较大。第三组：EM-PNN和EM-COMPETE-PNN邮件分类 ? 精确率比较：EM-COMPETE-PNN精确率基本要高于EM-PNN 。第三组：EM-PNN和EM-COMPETE-PNN邮件分类 ? 误报率和漏报率比较：EM-COMPETE-PNN与EM-PNN相比，在漏报率相近的情况下，误报率下降幅度较大；误报率相近的时候，漏报率下降幅度较大。第四组：LVQ-PNN和LVQ-COMPETE-PNN邮件分类 ? 精确率比较：LVQ-COMPETE-PNN精确率基本要高于LVQ-PNN 。第四组：LVQ-PNN和LVQ-COMPETE-PNN邮件分类 ? 误报率和漏报率比较：EM-COMPETE-PNN的漏报率和误报率基本均要低于EM-PNN 。第五组：PCA对PNN邮件分类结果的影响 ? Kmeans-COMPETEPNN：200维 ? EM-COMPETE-PNN ：150维 ? LVQ-COMPETE-PNN ：50维 ? 维数降低而精确率有所提高：样本中含有冗余特征。第六组：结构优化PNN与原始PNN结果比较 ? 精确率比较： ? 原始PNN精确率：最高 91.30% ，最低67.40%， 2000个隐层神经元 ? Kmeans-COMPETE-PNN: 10个隐中心数目，精确率 94.79% ? EM-COMPETE-PNN：5 个隐中心数目，精确率 92.86% ? LVQ-COMPETE-PNN： 10个隐中心数目，精确率 93.71% 第六组：结构优化PNN与原始PNN结果比较 ? 误报率比较： ? 原始PNN误报率：最低 2.00% ，最高48.29% ? Kmeans-COMPETE-PNN: 20个隐中心数目，误报率 2.29% ? EM-COMPETE-PNN：10 个隐中心数目，误报率 1.86% ? LVQ-COMPETE-PNN： 10个隐中心数目，误报率 9.14% 第六组：结构优化PNN与原始PNN结果比较 ? 漏报率比较： ? 原始PNN漏报率：最低 2.57% ，最高63.29% ? Kmeans-COMPETE-PNN: 5个隐中心数目，漏报率 4.14% ? EM-COMPETE-PNN： 100个隐中心数目，漏报率 6.86% ? LVQ-COMPETE-PNN：5 个隐中心数目，漏报率 2.14% 内容提纲 ? ? ? ? ? 一. 二. 三. 四. 五. 课题背景、研究现状及主要工作 PNN网络模型 PNN网络结构优化研究基于PNN的垃圾邮件过滤系统结论五结论 ? 增加了有监督竞争学习算法的PNN网络获得了较好的分类性能，如隐中心数目为5时，基于Kmeans的PNN分类器增加有监督竞争学习算法后

使邮件分类的精确率由91.64% 提高到了94.50%。 PCA处理在降低样本向量维数的同时可以有效的排除冗余属性，经 PCA处理的LVQ-COMPETE-PNN分类器精确率由94.75% 提高到 95.65%情况下，维数由500维降低到了50维。经过有监督竞争学习算法进行结构优化的PNN分类器和原始PNN相比，在不损失分类性能的前提下，大大降低了PNN网络拓扑结构的复杂性，小样本集下Kmeans-COMPETE-PNN精确率由原始PNN的91.30% 提高到94.50%，隐层神经元数目减少到了原来的1/200。 ? ? 谢谢各位老师、同学们！