垃圾邮件过滤

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

此时该邮件为垃圾邮件的可能性为:
P=(0*1)/[0*1+(1-0)*(1-1)]=0 (ps:实际应用时应该不能出现0,否则一
出现“律”时
P=0/(0+0.5)=0; 由此可得第三个哈希表:
hashtable_probability 其数据为:
法:0.375 轮:1 功:1 律:0
项为零会影响全局)
介绍贝叶斯算法背后的数学模型与公式
贝叶斯垃圾邮件过滤算法的应用案例
通过实际案例展示让大家加深对该算法的理解
简述与总结
概括贝叶斯算法运作规则,展望垃圾邮件过滤功能的未来
文本分析简介
简要介绍文本分析的概念、如何运作、主要功能和应用。
Part 1 文本分析简介
基本概念
文本分析是指对文本的表示及其特征 项的选取,即对文本进行科学的抽象,建 立它的数学模型,用以描述和代替文本。 使计算机能够通过对这种模型的计算和操 作来实现对文本的识别。
Part 2 贝叶斯垃圾邮件过滤算法原理
Part 2 贝叶斯垃圾邮件过滤算法原理

我们的理解:
基于多项式模型和低风险的贝叶斯垃圾邮 件处理主要是利用两个模型,将判别出的垃圾 邮件不看作是一个准确事件。再进一步的判别 和确定,最终得出一个准确率高的答案。采用 贝叶斯多项式模型来对特征项利用率进行改进, 同时采用低风险策略来对邮件进行分类。
希表中的记录为
法:1次 轮:1次 功:1次 计算得在本表中: 法出现的概率为0.3 轮出现的概率为0.3
法:1
律:1 计算得在本表中:
法出现的概率为0.5
律出现的概率为0.5 综合考虑两个哈希表,共

功出现的概率为0.3
有四个TOKEN串: 法 轮
功律
Part 3 贝叶斯垃圾邮件过滤算法的应用案例
当邮件中出现“法”时,该邮件为垃圾邮件
贝叶斯垃圾邮件过滤算法的应用案例
通过实际案例展示让大家加深对该算法的理解。
Part 3 贝叶斯垃圾邮件过滤算法的应用案例
例如:一封含有“法轮功”字样的垃圾邮件 A 和 一封含有“法律”字样的非垃圾邮件B 根据邮件A生成hashtable_ bad,该哈 根据邮件B生成 hashtable_good,该哈 希表中的记录为:
文本分析 之 垃圾邮件过滤系统
马力 15241043 郝殊宇 15241033 陈思宇 14261031 林尹棋 15241040 李文哲 15241038 李文强 15241037 张佳慧 15241058
小组成员:
文本分析简介
简要介绍文本分析的概念、如何运作、主要功能和应用
贝叶斯垃圾邮件过滤算法原理
由此可推出该邮件为非垃圾邮件
简述与总结
概括贝叶斯算法运作规则,展望垃圾邮件过滤功能的未来
Part 4 简述与总结
简述: 1. 收集大量垃圾邮件和非垃圾邮件,建立二者数据集分类 2. 编码 3. 计算字符串出现概率 4. 自我学习 5. 接收邮件+判断
Part 4 简述与总结
避免在邮件服务器系统中开放转发功能,在网关这一 道重要关口中采用基于硬件的邮件过滤系统,构成可 靠的过滤链。
的概率为: P=0.3/(0.3+0.5)=0.375 出现“轮”时: P=0.3/(0.3+0)=1 出现“功“时: P=0.3/(0.3+0)=1 当新到一封含有“功律”的邮件时,我们 可得到两个TOKEN串,功 律
查询哈希表hashtable_probability可得
P(垃圾邮件| 功)=1 P (垃圾邮件|律)=0
Start
技术
系统
客户端
“错纠率”依旧较高,因此, 要过滤垃圾邮件,必须将两 种或以上的技术合并使用, 以达到有较好的过滤效果, 降低误判率。
今客户端邮件过滤器,重点 考虑用户个性化特征,能随 时自动地抓捕新垃圾邮件标 本,或建立自动生成新的邮 件过滤规则。
THANKS
如何运作
Part 1 文本分析简介
主要功能:
文本总结
应用:
电子邮件管理
文档管理
文本分类
文本聚类
自动问答系统
市场研究 情报收集
关联分析
分布分析
趋势预测
Part 1 文本分析简介
今天,我们主要介绍文本分析在垃圾邮
件过滤中的应用,介绍如何通过贝叶斯
算法对垃圾邮件进行过滤。
贝叶斯垃圾邮件过滤算法原理
介绍贝叶斯算法背后的数学模型与公式。
相关文档
最新文档