贝叶斯语义分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于语义特征关联的贝叶斯网络分类
孟宇龙,印桂生,徐东
哈尔滨工程大学计算机科学与技术学院,哈尔滨(150001)
E-mail:mengyulong@
摘要:为将数据的语义特征体现在数据分类过程中,提出语义特征关联的贝叶斯网络分类法。该方法在分析数据的多语义异构性基础上进行分类学习。与传统贝叶斯网络分类相比,可在不损失分类精度情况下将具有语义特征的数据进行分类。
关键词:语义特征;数据分类;贝叶斯网络
中图分类号:TP391
1.引言
对数据分类而言,数据分类标准以及数据分类精度满意度的评价与所选择的数据分类任务相关。分类后的数据应该具有子类内数据以及类间关系的高度凝聚性。朴素贝叶斯分类器[1](Naive Bayesian Classifier,NBC)是一种基于贝叶斯理论的简单分类方法[2][3]。独立关系是贝叶斯网络中最基本、最重要的理论关系,即在满足独立性的条件下,贝叶斯分类器才能有很好的表现。文献[4]的研究表明,当训练数据集属性间的独立性提高后,应用贝叶斯分类器并不能明显地提高分类效果。即贝叶斯分类模型的表现和独立性是否满足没有必然联系,通过策略降低属性关联关系,提高独立关系,可以降低分类的时间、空间复杂度,同时并不会影响贝叶斯分类器的分类满意度。所以朴素贝叶斯分类器仍然是一种非常实用的分类方法。例如对一个网络安全事件进行评估,显然忽略带宽、传输速率与攻击强度之间的相互关系是错误的。即使在这样一种人为假定下(假定彼此无关),朴素贝叶斯分类器仍然有很满意的分类表现[6][7]。大量研究和实验表明,在不满足条件独立性要求情况下,朴素贝叶斯分类器也能取得比较满意的分类结果。针对此特性,为将数据的语义特征体现在分类过程,本文在研究贝叶斯定理及朴素贝叶斯分类器基础上,引入贝叶斯网络[5],提出一种具有语义特征的基于贝叶斯网络的数据语义分类算法——语义特征关联的贝叶斯网络分类,利用网络节点间的关联表示语义,而其它非语义关联则全部忽略。在不损失分类精度情况下将具有多语义特征的数据进行分类。经仿真实验验证可获得满意的分类精度。
2.贝叶斯网络分类器
2.1朴素贝叶斯分类模型(小四号,宋体,加粗)
朴素贝叶斯分类模型将训练实例I分解为特征向量A和决策类别变量C,该模型根据类独立条件构造,朴素贝叶斯分类模型如图1所示。
图1 朴素贝叶斯分类模型
基金项目:水下机器人国家重点实验室基金
朴素贝叶斯分类的工作过程如下:
(1) 设D 是训练数据属性和类C 的集合。其中训练属性用i A 表示。
(2) 每个数据样本用一个n 维特征向量()12,,,n X X X X =L 表示,其中,i X 分别描述
n 个性质12,,,n A A A L 产本的n 个度量。
(3) 假定有n 个类 ()12,,,n C C C K 。给定一个未知的数据样本X ,由贝叶斯定理可得
到C 后验概率最高的类i C ,即:
()()||i j P X C P X C > 1,j m i j ≤≤≠
(4) ()P X 对于所有类为常数,如果类的先验概率未知,通常假定可以假定()i P c 相
等,即12()()...()i P c P c P c === 。
(5) 如给定具有许多属性的数据集,计算(|)i P X C 的系统开销会很大。此时,可以
做出类条件独立的朴素假定,即在属性间,不存在依赖关系。可得:
()1|(|)n
i k i k P X C P x c ==∏
其中(|)k i P x c 可以由训练数据集合D 估值,如果i A 是分类属性,可直接得到每个属性i
A 以及类C 的后验概率()|i P C A 。如果i A 是连续属性,通常假定i A 服从高斯分布。
2.2贝叶斯网络分类器
贝叶斯网络允许定义变量间的依赖关系,它可以用一个有向无环图来描述:
,,B N A =<Θ>
该图包括一个结构模型和与之相关的一组条件概率分布函数。图中节点n N ∈表示领域变量,是对过程、事件、状态等实体的特性描述,边a A ∈表示变量间的概率依赖关系,每个节点对应一个条件概率分布表CPT ,Θ表示CPT 的参数。
假设()12,,,n X X X X =K 表示领域变量,()12,,,n x x x x =K 是X 的值,贝叶斯网络的联合概率分布表示如下:
()|(|())i i i i
P X C P x parent x =∏
其中()i parent x 是有向无环图中i x 的双亲集合。
3. 语义特征关联的贝叶斯网络分类器S-BNC
贝叶斯网络的一个关键特征是它提供了一种把联合概率分布分解为局部分布的方法,即它的图形结构编码了变量间概率依赖关系,可以借此来承载清晰的语义特征。从语义角度分析,贝叶斯网络的信息包含两部分:第一是表示条件独立性信息的网络结构,其中的每一节点表示域中的一个概念或随机变量及其属性,节点之间的连接表示了可能的因果关系和语义关系,可以体现语义方面的特征;第二是节点拥有与其相联系的条件概率分布CPT ,CPT 体现了该节点的定量信息,该定量信息可以用来给出变量间不确定的数值度量。因此,实际上贝叶斯网络能提供某一特定领域的结构性的定性和定量的语义表达。
3.1 S-BNC 处理的对象及其集合
在语义关联贝叶斯网络分类(Semantic feature associated - Bayesian Network Classification ,S-BNC )内,对数据而言,其属性、关系、值以及需概念化的语义抽象等均可视对象。
定义1 (,,,)obj Dom name pro val =为S-BNC 处理对象,其中Dom 为obj 所属域,obj 为处理对象标识,obj 来源于Dom 内数据的抽象,name 为对象名称,pro 为对象属性,val 为object 的值。
根据定义1可知,领域Dom 内,数据抽象后的对象标识唯一存在,可以得到Dom 上的S-BNC 数据训练集1(,,)n X X X =K 。返回Dom 内obj 的分类函数定义如下:
定义2 函数(,)CLobj Dom rule 返回Dom 内的同类标识, rule 为数据抽象规则。
此时,在S-BNC 讨论范围内,我们将Dom 的数据抽象划分为若干基于rule 规则的分类对象集合。此时可以对Dom 进行定义如下。
定义3 Dom 是一个具有语义特征的,具有关系和行为规则的一个数据抽象后的对象集合,该集合是一个抽象的五元组:
(,,,,)Dom clobj rule rel form semt =
其中(,)clobj CLobj Dom rule =,为数据的同类标识集合,rel 为clobj 在Dom 上的关系,form 为clobj 在Dom 上的行为规则,semt 为clobj 在Dom 上的语义。
分类抽象规则描述如下:
定义4 D =为Dom 内的数据,D 的分类抽象规则为:
(,,)Dom rule RULE task agl imod =
其中,task 为S-BNC 范围内的分类任务,agl 为数据凝聚性,imod 为选取的数据分类模型S-BNC 。
3.2训练样本的选择
语义关联的贝叶斯网络分类结果满意度依赖于训练样本数据选择,训练样本分布和测试样本分布的相似度越大,分类效果的可信度就越高。本文实验中训练样本的选择参考了网络安全事件检测中网络日志数据的绝大多数特性,包括生成节点、日志格式、生成时间等。样本选择时的样本空间数据应尽量覆盖全部规则。
3.3语义特征提取及关联
语义特征提取和关联的任务就是把低层的语义特征映射到高层语义。目前,语义特征提取主要依赖专家系统支持,借助专家系统的客观知识,通过概率理论和图论的结合对训练样本数据进行样本空间的有限划分。对于给定的训练样本集()12,,,n X X X X =L ,根据定义1与定义3,给出元数据的形式化定义为:
定义5 数据()_,,,,X OD ID T C P D =,其中ID 表示数据标识,T 表示数据类型,C 表示数据约束,P 表示数据属性,D 表示数据描述。
可以分别计算,,,T C P D 在X 上的概率分布,从而得到对训练样本数据进行样本空间的有限划分。概率理论将保证整个系统的一致性,并巧妙地将专家知识和数据有效地结合起来,直观定量地表达了系统中各个因素以及它们之间的关联程度。 对进行有限划分的样本空间做如下假设:
假设1 两个概率分布一致的节点认为语义相同; 假设2 两个概率分布相近的节点认为语义相似。
事实上,与语义特征项提取中的概率计算不同,衡量多个语义特征之间的相关程度是极不容易实现的,不但处理起来极为复杂,而且如果全部语义特征项关联全部计算的话,因计算量太大而得出的语义相关性并不可靠,此时我们给出另一个假设:
假设3 一个语义特征项最多与一个其它特征项有语义相关性。