基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可 以使 用 个性化 的垃圾 邮件 过 滤方案 , 支持使 用邮件 下载协 议 ( OP 、M P 3 I AP协议 ) 邮件服 务 器下载 邮件 , 从
以及使 用邮件 解析 协议 ( ME协议 )对 于邮件 进行 解析 ,支持 邮件 发送 协议 ( MT MI S P协 议 )帮 助 用户发
l o hm De i n a d I A g rt sg n m plm e t to i e n ai n
F N h. n XUETa - n XI A S iu . 1 inj , AWe u i
( i j N r a U i ri, Tni 3 0 8 , h a T ni om l nv sy I a 0 3 7 C i ) a n e t af n n
摘 要 : 贝叶斯过 滤 算法和 费舍 尔过 滤 算 法均是 利 用统计 学知 识 对于 垃圾 邮件进 行 过 滤的算 法 ,有 着
良好 的过 滤效 果。 该文设 计将 某一词 组 ( 单词 )出现概 率使 用加 权计 算的 方 法 ,改善 了朴素 贝叶 斯算 法和
朴素 费舍 尔的 邮件 过 滤算 法对 于 出现 较 少的单 词误 判情 况 ,使 系统对 于垃 圾 邮件判 断 的准确 率上 升 。设计
poait i rvs i a os hc e a e aei g rh dh a e i e a o t ae s de rbb i oe t t n i t i ys na oi m a e i s r l r m j gd ly mp su i w h h N v B a l t n t N v F h gi h r miu
雪釜进
■ d i 1 9 9js n1 7 - 1 22 1 90 6 o: 0 3 6 /is 6 112 0 20 0
基于 贝叶斯 算法和费 舍尔算法 的 垃圾 邮件过 滤 系统设 计与实现
范仕伦 ,薛天俊 ,夏玮
( 天津师范大 学,天津 ,3 0 8 0 3 7)
whc e M TP r t c 1 ihus sS p o o o.
K e r :s a fl rn b y sa lo t m ; s e lo ih ywo ds p m ti g; a e in ag r h f h rag rt i e i i m
1 相关 工作
tes a f tr gag rtm a eag o l r g e e t T ed sg ih u e i h e to ac lt r s h m l i lo h h v o d f t i f c. h e i nwh c s s p ien i ien we g tdmeh d t c lu aewo d o
p ro lz d f trn c e le ss r m al. e i nwhih e e s nai e le g s h mef tr pa e isThed sg i i i e c us sPOP3p o o o rI AP p o o o up rs r t c lo M r t c ls pot
11算法 比较器的设计与实现 .
111算法模拟器概 述 ..
在 进行 系统设计之前 ,首先制作 算法模拟器 ,该算法模拟器从 9 7 2 2封正常邮件和 2 0 8封垃圾 邮件 中随机选择 需要进行训 58
练 和过滤的邮件,在挑选 邮件 的过程 中,使用哈希表 数据结构 , 保证 抽取邮件的唯一 性,即训练邮件和过滤 邮件 每封不 同,同 时为了 现出算法 的随机性 ,采用随机抽取 阈值 ( 体 贝叶斯算法 和上下限概率值 ( 。) 费舍尔算法 ) 的方法,每个算法选用 5 个不
送邮件 。
关键词 :垃圾 邮件过 滤 ; 贝叶斯 算 法 ;费舍 尔算法 中图分 类号 :T 3 3 8 文 献标识 码 : 文章 编号 :17— 12( 0 2 9 0 1— 5 P9. 0 A 6 1 12 2 1 )0— 08 0
S m al ltrS se b s do y sa g rt pa Em iFi e y t m a e nBa einAl o ihm n s e a dFih r
t o o d wnla m al r m h als re ,nay e m al ih u eM I E oo ol n ep s r o snde al o de i fo tem i ev ra lz se iswhc s M pr tc d h lsu e st e m is s a
同的参数对 同样邮件进行过滤 ,最后对过滤算法的查准率 、查全率 、计算 时间进行对比,得出实验结果。
112算 法 模 拟 器 的 设 计 实 现 ._
算法模拟器制作过程中使用 的编程工具是 Vsa Su i2 1 , i l tdo 00 采用 c u #语言进 行编程, 整个算法模拟器的代码数量在 5 0 0 0行 , 制作过程 中使用 了c #的窗体编程 知识 、线程知识、I O操作知识 、贝叶斯概率知识 、数据结构的哈希表知识。
Absr c : y sa le ngag rtm n s rfle ngagoihቤተ መጻሕፍቲ ባይዱ ih aeu eofsaitc l no e gefr t a t Ba e inf tr lo ih a dFihe tr l rtm wh c r s tsia wld o i i i i t k
wh nte n w wod ma sa dic ae p m jd me t cu ayrt. h einw i ss sr e y f d f rs ne i n r sssa g n crc e T ed s hc u e u e S h i e i l n e u a a g h ’
相关文档
最新文档