基于双隶属度模糊支持向量机的邮件过滤
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010,46(2)
1引言
近年来,垃圾邮件在全球的泛滥影响和制约了电子邮件服务的健康、持续发展,对互联网的安全和信息安全构成了直接威胁。
中国互联网协会反垃圾邮件中心()最新发布的2008年第一季度反垃圾邮件状况调查报告中调查显示,中国网民每周收到垃圾邮件的比例为56.70%,垃圾邮件不仅浪费网络传输带宽,增加了互联网使用成本,而且也影响到人们的日常工作和生活。
邮件过滤是一个在线二值分类问题,过滤器需要将邮件区分为垃圾邮件或者正常邮件。
与普通的分类问题相比,邮件过滤有很多自身的特性:
(1)实时性。
邮件过滤要求过滤器必须具备较高的速度来处理所收到的邮件。
而且电子邮件的各种特征会随时间不断发生变化,为了使过滤器随时间具有很好的泛化性,自学习功能也是邮件过滤的关键。
(2)结构性。
日常所收发的邮件是一种半结构化的数据,通常包含主题、收件人、正文、发送地址、附件等多个域。
邮件的这种结构性方便了对邮件特征的分析和提取,另一方面邮件的这种半结构化使其具有更多的分类特征可供选择。
这些特征包括语言文本特征和邮件的各种行为特征。
(3)模糊性。
一封邮件的内容针对于不同的收件人来说可能会有不同的看法,同一封邮件对于客户甲来说可能是合法邮件,而同样对于客户乙来说可能就会被认为是垃圾邮件,所以在邮件的过滤中应该考虑邮件的这种模糊性的特性。
(4)非对称性。
待过滤的邮件分布非常不均匀,其中垃圾邮件占绝对多数。
因此不能简单的用分类问题的准确率来评判邮件过滤方法的性能。
对于邮件过滤来说,将合法邮件错判为垃圾邮件造成的不良后果远比将垃圾邮件误判为是合法邮件要大得多。
另一方面邮件正文长度也是很不均匀的,有的邮件正文很长,有的邮件正文可能会很短,判定那些正文很短、信息量很少的邮件更加困难。
总之,以上邮件过滤的4种特性不同于一般文本分类,在研究垃圾邮件过滤时应加以重点考虑。
重点考虑邮件内容的模糊性和非对称性,应用双隶属度模糊支持向量机进行对垃圾邮件过滤,利用模糊隶属度对每封邮件属于合法邮件或垃圾邮件的程度做综合评价。
2模糊支持向量机
支持向量机(Support Vector Machine,SVM)[1]是由Vapnik 等人提出的一种基于结构风险最小化原理的新颖机器学习方法,它具有小样本、良好的推广性能、全局最优等特点,已被成
基于双隶属度模糊支持向量机的邮件过滤
孙名松,高庆国,王宣丹
SUN Ming-song,GAO Qing-guo,WANG Xuan-dan
哈尔滨理工大学计算机科学与技术学院,哈尔滨150080
College of Computer Science&Technology,Harbin University of Science and Technology,Harbin150080,China
E-mail:gaoqingguo@
SUN Ming-song,GAO Qing-guo,WANG Xuan-dan.Mail filtering by dual membership fuzzy support vector machine. Computer Engineering and Applications,2010,46(2):93-95.
Abstract:Based on fuzzy of information contained in mail and asymmetry of legitimate mails and spam at the misjudgment price,a mail filtering method is proposed.It makes use of dual membership fuzzy support vector machine.According to provide a different pair of membership for each sample,the optimal classifier is derived.It improves the accuracy of mail filtering.The simu-lation results show that the method is able to effectively reduce the misjudgment of legitimate messages as spam.In additional,it has a high accuracy and so on.
Key words:spam filtering;fuzzy support vector machine;membership;dual membership fuzzy support vector machine
摘要:针对邮件所含信息的模糊性和合法邮件与垃圾邮件错分代价的不对称性提出了基于双隶属度模糊支持向量机的邮件过滤方法,通过对每个样本赋予不同的双隶属度,得到最优分类器,提高了邮件过滤的正确率。
经仿真实验证明,该方法能够有效降低将合法邮件误判为垃圾邮件,而且有很高的正确率等特点。
关键词:垃圾邮件过滤;模糊支持向量机;隶属度;双隶属度模糊支持向量机
DOI:10.3778/j.issn.1002-8331.2010.02.029文章编号:1002-8331(2010)02-0093-03文献标识码:A中图分类号:TP393.098
作者简介:孙名松(1963-),男,教授,主要研究方向网络应用、网络安全;高庆国(1980-),男,硕士研究生,主要研究方向网络应用、网络安全;王宣丹(1983-),男,硕士研究生,主要研究方向网络应用、网络安全。
收稿日期:2008-07-25修回日期:2008-10-13
Computer Engineering and Applications计算机工程与应用93
Computer Engineering and Applications计算机工程与应用2010,46(2)
功地运用于许多分类问题的研究。
Lin等学者提出了模糊支持向量机方法(Fuzzy Support Vector Machine,FSVM)[2],将模糊技术应用于支持向量机中,对不同的样本采用不同的惩罚权系数,使得在构造目标函数时,不同的样本有不同的贡献,对含有噪声或野值的样本赋予较小的权值,从而达到消除噪声与野值样本影响的目的。
在支持向量机的邮件分类方法中,一封邮件样本均被明确的标记为垃圾邮件或者是合法邮件。
而在模糊支持向量机的邮件分类中,一封邮件训练样本被赋予一个模糊隶属度,当采用模糊支持向量机作为邮件分类器时的原理如下:假设有邮件训练样本集:
D={(x1,y1,s1),…,(x n,y n,s n)}
其中,x i∈R N表示训练集中第i个样本邮件;y i∈{-1,1}代表邮件所属类(垃圾邮件或合法邮件);s i∈[σ,1]表示第i个邮件样本属于类的隶属度,σ>0为足够小的数。
假设Z=φ(x)为训练样本从原始模式空间R n映射到高维特征空间Z之间的映射关系φ,ξi是支持向量机目标函数中的分类误差项,s iξi为带权的误差项,得到最优分类平面为下面的目标函数的最优解:
准(ω,ξ)=1ωωT+C(
n
i=1
Σs iξi)
约束条件为:
y i[(ωT·z i+b)]-1+ξi≥0,i=1,2,…,l
ξi≥0,i=1,2,…,l
其中惩罚因子C为常数,ω表示线性可分函数y i的权系数。
从而相应的最优分类面的判别函数为
f(x)=sgn(
n
i=1
Σa i y i K(x i,x)+b)
其中K(x i,x)为核函数,K(x i,x)将高维特征空间中内积运算转化为低维模式空间上的一个简单的函数计算。
a i的条件式为:0≤a i≤s i C,i=1,2,…,l,a i>0相应的样本x i为支持向量,这里有两种类型的支持向量,一种满足0<a i<s i C的支持向量x i位于分类面附近;另一种满足a i=s i C的支持向量x i为错误分类样本。
模糊支持向量机方法和支持向量机方法的差别在于,由于在模糊支持向量机中含有隶属度s i,同样a i值的样本x i在两种方法可能属于不同类型的支持向量。
3隶属度
模糊集合使得某些特征可以一定程度的属于某集合,某特征属于某集合的程度由0与1之间的一个数值—隶属度来描述[3]。
把一个具体的元素映射到一个合适的隶属度由隶属函数来实现,隶属函数可以是任意形式的曲线,取什么形状取决于是否让使分类器简单、快速、有效,惟一的约束条件是隶属函数的值域为[0,1]。
常用的隶属度函数有双侧高斯型、钟型、sigmoid 函数型、差型sigmoid函数、积型sigmoid函数、梯形和矩形等。
下面介绍两种常用的隶属度函数。
3.1基于距离的隶属度函数
样本到类中心之间的距离是衡量样本对所在类贡献大小的依据之一。
目前,在模糊支持向量机中,基于距离的隶属度函数的确定是将样本的隶属度看作是特征空间中样本与其所在类中心之间距离的函数,基于距离的隶属度函数中常用的是S 型和π型。
基于S型函数的隶属度函数是一种从0到1单调递增函数,通常有3个参数来确定Zadeh定义的标准S型函数的隶属度[4],形式如下:
μS(x i,a,b,c)=
0,x i≤a
2
x i-a
c-a
≤≤2a≤x i≤b
1-2
x i-c
c-a
≤≤2b≤x i≤c
1,x i≥
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤c
其中,a,b,c为参数,b=a+c
2
,且在x i=b时隶属度函数等于0.5。
π型函数是指“中间高两边低”的函数,可以用S型函数定义,标准π型函数的定义是
μπ(x i,a,b,c)=
μS(x i,a,b,c)x i≤c
1-μS(x i,a,b,c)x i≥
≤
c
3.2基于紧密度的隶属度函数
模糊支持向量机方法中,最优分类面主要由支持向量决定,支持向量通常位于类边缘,而野值或含噪声的样本也位于类边缘附近,如果在确定样本隶属度时,如果将有效样本与野值或含噪声样本同等对待,则求出的分类面不是真正的最优分类面。
前面介绍的两种确定隶属度的方法中,都是依据样本到类中心之间距离确定样本的隶属度,对类中每个样本都按照同一种方式进行考虑,对有效样本与含噪声的样本或野值无法区分开,因此,它们不能有效地反映样本的不确定性为两个不同类中样本之间紧密度的差别。
该方法所采用的是一种改进的隶属度函数算法:使用正类样本的均值作为正类的中心,记为x+,负类样本的均值作为负类的中心,记为x-,定义正类和负类的半径分别为:
R
+
=max|x
i
-x
+
|
R
-
=max|x
i
-x
-
|
2类中心的距离为T=|x
+
-x
-
|,每个正类样本到正类中心的
距离为D+
i
=|x
+
-x
i
|,每个负类样本到负类中心的距离为D-
i
=|x
-
-x
i
|,σ为一个事先给定的很小的正数,作为噪声和孤立点隶属度,ε为引入的半径控制因子,满足ε>0,使T·ε<R+和T·ε<R-。
则隶属度函数定义为:
s+
i
=
δ+D+
i
R
+
,D+
i
≤T·ε
δ,D+
i
>T·
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
ε
s-
i
=
δ+D-
i
R
-
,D-
i
≤T·ε
δ,D-
i
>T·
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
≤
ε
上面公式中:δ是一很小的正数,为了保证s i>0。
4双隶属度模糊支持向量机
首先邮件本身所含信息具有模糊性,另外对于一封正常邮件被误判为垃圾邮件所造成的后果远比垃圾邮件被误判为正常邮件的危害大的多,充分考虑到以上两点,在邮件过滤的过程中采用双隶属度模糊支持向量机分类器进行邮件过滤。
在传
94
2010,46(2)统的模糊支持向量机模型中,每一个训练样本的隶属函数中只有一个隶属度,而在双隶属度模糊支持向量机[5]模型中,每一个邮件训练样本拥有两个隶属度,即属于正常邮件的隶属度和垃圾邮件的隶属度。
应用双隶属度模糊支持向量机寻找最优类超平面的问题描述为:
min w ,a ,ξk
,ηk
ζ(w ,a ,ξi ,ηi )=1w T w +c l
i =1
Σ[m i ξi +(1-m i )ηi ]约束条件为:
w T 准(x k )+b ≥1-ξi ξi ≥0,i =1,2,…,l w T
准(x k )+b ≥-1+ηi ηi ≥0,i =1,2,…,l 其对偶形式为:max αi
,βi
l i =1Σαi +l
i =1
Σβi -1
2l i =1
Σl
j =1
Σ
(αi
-βi
)(αj
-βj
)准(x i
)T
准(x j
)约束条件为:
l
i =1
Σαi
=l
i =1
Σβi
,
0≤αi
≤Cm i
0≤βi ≤C (1-m i ),
i =1,2,…,l 转化为二次规划问题为,令γi =αi -βi ,所以上面的式子变为max αi
,βi
l i =1Σγi +l
i =1
Σ2βi -12l i =1
Σl
j =1
Σγi γj
K
(x i
,x )约束条件为:l
i =1Σγi
=0,
0≤βi
+γi
≤Cm i
0≤βi ≤C (1-m i ),i =1,2,…,l 最终邮件的分类器变为:
f (x )=sgn (w T
·准(x )+b )=sgn (l
i =1
Σ(αi -βi )K (x i ,x )+b
)其中m i 为邮件训练样本的隶属度。
5仿真实验与结果分析5.1邮件过滤器性能指标
LR 是合法邮件的查全率(Legitimate Recall )LR=n l →l N l ;
LP 是合法邮件的准确率(Legitimate Precision )LR=
n l →l n s →l +n l →l。
准确率与查全率反应分类质量的不同方面,两者统一考虑组成新的指标F1测试值:
F 1=2LP
·LR LP+LR
引入权重,把一个合法邮件误判的重要性要高于垃圾邮件误判的λ倍,
则精确率和错误率分别为:WA=λn l →l +n s →s
λN l +N s WErr=λn l →s +n s →l
λN l +N s
同时假设没有过滤器时,合法邮件能被正确识别,垃圾邮件全部被识别为合法邮件,定义基准的精确率和基准的错误率为:
WA b
=λN l
l s
WErr b
=
N s
λN l +N s
则可得到TCR 测试值,TCR 的值越大,说明邮件过滤器的性能越好。
TCR =WErr b
WErr =
N s λn l →s +n s →l
5.2实验结果及分析
采用CCERT 提供的2005年6月份中文语料集,其中包括合法邮件9042封,
垃圾邮件样本为20308封,垃圾邮件的比例为69.2%。
从中随机取出正常邮件1752封,垃圾邮件1024封。
将这2776封分为4组,每次取3组做为训练集,另一份为测试集。
分别采取应用支持向量机,模糊支持向量机和双隶属度支持向量机对数据进行实验得到结果如表1。
通过对比实验,可以看出,对于合法邮件的正确率,前两种方法的差别不大,但是所提出的方法就明显高于前两种方法,而且就合法邮件的查全率来说,基于双隶属度模糊支持向量机的方法就要明显好于标准的支持向量机和模糊支持向量机方法。
从后面三个综合性的评价指标也可以看出基于双隶属度模糊支持向量机的邮件过滤性能都优于其他两种方法。
6总结
针对邮件内容的模糊性和误判邮件代价的非对称性,提出了基于双隶属度模糊支持向量机的邮件过滤方法,并对该方法中隶属度的确定进行了分析和研究,并对隶属度函数进行了改进,而且把该方法应用到双隶属度模糊支持向量机中,最后得到了双隶属度模糊支持向量机的分类器模型,并进行了仿真实验,实验结果表明该方法的性能优于基于支持向量机的邮件过滤方法和基于模糊支持向量机的邮件过滤方法。
参考文献:
[1]Vapnik V N.Estimations of dependence based on empirical data[M].
New York :Springer Verlag ,1982.
[2]Lin C F ,Wang S D.Fuzzy support vector machines[J].IEEE Trans -
actions on Neural Networks ,2002,13(2):464-471.
[3]Chang J H ,Hao P Y.A new kernel based fuzzy clustering ap -
proach :Support vector clustering with cell growing[J].IEEE Trans -actions on Fuzzy Systems ,2003,11(4):518-527.
[4]Vapnik V N.The nature of statistical learning theory[M].New York :
Springer Verlag ,1995.
[5]黄颖,
李伟,刘发升.双隶属度模糊支持向量机算法[J].计算机应用,2007,11(27):2821-2823.
SVM FSVM DMFSVM
LR /(%)85.6994.3595.58
LP /(%)89.5591.0093.26
F 1/(%)87.5892.6494.41
WA /(%
)86.1393.9498.68
TCR 0.721.661.89
表1三种方法的对比结果
孙名松,高庆国,王宣丹:基于双隶属度模糊支持向量机的邮件过滤
95。