基于特征选择的垃圾短信过滤研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性权重用 v 2表示 。
通过对这些短信深入细致的研究分析, 归纳出垃圾短信不同
收稿 日期 : 10- 2 140 0. 1 基 金项 目: 1年度 河北省科技支撑计划 项 目 手机垃圾短信语 义识别及分类”编 号:o1.51 0 20 “ , N .P3 。 (1 8 作 者简介 : 霞( 7 )女 , 杨凤 1 1 , 河北献县人 , 9. 沧州师范学 院计算机 系讲 师 , 工学硕 士。
¨
一
1 特征属性 的选取
11 垃圾短信特点分析 . 通过各种通讯媒体 和因特 网共采集 垃圾 短信 和正常短
1 口 )
( 1一口 )
其 中 n 为一般 标点的个数 , 。 r 为高危标 点 的个 数 ; / , Ⅱ为调节 参数 , 经大量实验验证 , 02 a= . 。
信20 0 条。涵盖了广告类垃圾短信、 0 欺诈类垃圾短信、 陷阱 类垃圾短信和少量的不 良垃圾短信 , 也包含了拜年、 日常交
算法(oe 等。文献[ 应用贝叶斯分类方法过滤垃圾短信, Bys ) 2 ] 取得了较好的效果。J 文献[] 2 3利用主题句选取算法获取短信 文本的主题, 采用 K N算法对短信文本的主题进行分类 , N 分
类速度提高 了 1倍 多。J 3 [
义的角度, 选取关键词属性, 包括明显关键词属性、 发送信息
第 2 卷第 3 7 期
21 9月 01年
沧州师范专科学校学报 J m l Cl O a e ’ o e o a u f l  ̄ HT c r Clg eh s le
、0 .7 N 3 ,12 . o.
Sp21 e. 1 0
基于特征选择的垃圾短信过滤研究
杨凤霞
( 沧州师范学院 计算机系, 河北 沧州 01 1 6 0) 0
摘 要: 根据短信文本长度有限的特点, 分别从句法、 句式、 语义等不同角度选取特征属性, 然后设定属性权重, 最后 用
平衡 权重与大量实验 总结得 出的阈值相 比较 , 实现短信文本分类。此方法计 算量小, 高了分类速度和 准确率 , 提 同时为
实现用户过 滤的个I化要 求提供 了方便的途径。 } 生 关键词 : 短信 ; 垃圾 特征选择 ; 短信过滤 中图分类号 :Il TB l 文献标 识码 : A 文章编 号 : 0 锕 ( 1 B 1 - l8 0 - l) - 1 ∞ 0O 7
掉 , I发送。 阳 E
现有 的文本分类方 法主要 有支持 向量机 (v )K最近 sM 、 邻( N 、 ) 决策树 、 线性最小二 乘法估计 (LF 和贝叶斯 分类 tS )
述垃圾短信 。 句法 和语 法的角度 , 取两个 以上 的多标 点 从 选 属性 ; 从短信句式 的长短结构角度 , 选取短信 长度 属性 ; 从语
1 属性 : 1 多个标点属性 。该属性主要是用来判 断短信中 共使用 了多少个标点符号。标 点分为 : 一是一般 标点 , 。! 如 , ? 等 ;- -是高危标点 , : O r. 、 #*%@& ¥ 如 “ /] 一 ; ” l 等。其属
性权重用 v 表示 。 1 r 包含零个或—个标点 0
或回复信 息属性 、 电话号 码或 网址信 息属性 。对这 些属性设
定权重的计算策略, 权重表示此属性对判定该短信是否为垃
圾短信 的贡献程度。
13 属性表示及权重计算 方法 .
短信的文本分类必须针对短信文本的特点 , 开发适应性
技术 , 笔者分别从 句法和语法 、 、 义等不 同角度选 取特 句式 语 征属性 , 据大量的实验数据 , 依 总结归 纳出各特征属性权重 的 计算方法 , 并引入平衡 权重来 区分 垃圾短信 与一些特 殊 的正 常短信 , 如拜年类 、 日 节 祝福类 短信 。实 验表 明 , 些属 性 的 这 加入有效地提高 了垃圾短信的识别效果 。
据统计 , 国手机用户 已突破 7 , 我 亿 短信文本给 人们 的沟
于正常短信 的几 个特征 : ) ( 长度较长 ; ) 1 ( 包含多种标 点符 号 ; 2
通交流带来极大的方便。但是短信中的垃圾短信正成为一
种新的语言污染 , 着人们 的生活 。控制垃 圾短信传 播蔓 困扰
() 3包含较明显的关键词: 免费”“ 如“ , 咨询”“ , 二手车” 办证” , “ ,
试 。( 见表 1 和表 2 )
表 i 垃圾短信 测试
r 属性 : I 3 关键词属性。通过对采集到的垃圾短信进行分
析 和研究 , 总结出有代 表性 的关键词表 , 中包括 :1 其 ( 广告 短 )
信关键词, 如长期招聘 ; 月薪; 新产品; 上市; 机票; 特惠; 房产 ; 餐饮等等。() 2违法短信关键词, 如代开; 票据; 发票; 办证 ; 二
流、 陌生号码来 信等多种正 常短信。虽然 收集 的垃圾 短信数 量有限 , 但是对 垃圾 短信 的研究 足 以起 到 良好 的支 持作 用。
r 属性: I 2 短信长度属性。该属性用来标识短信的长度 , 由于正常短信和垃圾短信在长度上有一定区别, 通过对大量
ຫໍສະໝຸດ Baidu
垃圾短信的分析研究, 最后选取 6个字节为长度阈值。其属 0
“ 发票” 交友” ; ) , “ 等 ( 包含 电话号 码 , 等联 系方 式 ; ) 4 网址 ( 要 5
求发送 或回复信 息。 12 特征属性选取方法 . 根据归纳所 得垃圾短信 的特点 , 选取 以下几个属性来 描
延的有效方法就是对短信文本做二次分类, 即将短信分为正 常短信和垃圾短信。j L正常短信允许发送, 1 垃圾短信被过滤
・
i 7 ・ 1
长度 长度
=
≤ 6 字节 0 ≤ 10 0 字节 ≤ 10 2 字节
≤ 1 字节 4 0
2 实验与分析
21 实验 .
长度
长度
为 了说 明基于特征选择 的垃圾 短信过 滤方法 的执行 过 程, 分别选取有代表 f的正常短信和垃圾短信 各 l条进行 测 生 0
通过对这些短信深入细致的研究分析, 归纳出垃圾短信不同
收稿 日期 : 10- 2 140 0. 1 基 金项 目: 1年度 河北省科技支撑计划 项 目 手机垃圾短信语 义识别及分类”编 号:o1.51 0 20 “ , N .P3 。 (1 8 作 者简介 : 霞( 7 )女 , 杨凤 1 1 , 河北献县人 , 9. 沧州师范学 院计算机 系讲 师 , 工学硕 士。
¨
一
1 特征属性 的选取
11 垃圾短信特点分析 . 通过各种通讯媒体 和因特 网共采集 垃圾 短信 和正常短
1 口 )
( 1一口 )
其 中 n 为一般 标点的个数 , 。 r 为高危标 点 的个 数 ; / , Ⅱ为调节 参数 , 经大量实验验证 , 02 a= . 。
信20 0 条。涵盖了广告类垃圾短信、 0 欺诈类垃圾短信、 陷阱 类垃圾短信和少量的不 良垃圾短信 , 也包含了拜年、 日常交
算法(oe 等。文献[ 应用贝叶斯分类方法过滤垃圾短信, Bys ) 2 ] 取得了较好的效果。J 文献[] 2 3利用主题句选取算法获取短信 文本的主题, 采用 K N算法对短信文本的主题进行分类 , N 分
类速度提高 了 1倍 多。J 3 [
义的角度, 选取关键词属性, 包括明显关键词属性、 发送信息
第 2 卷第 3 7 期
21 9月 01年
沧州师范专科学校学报 J m l Cl O a e ’ o e o a u f l  ̄ HT c r Clg eh s le
、0 .7 N 3 ,12 . o.
Sp21 e. 1 0
基于特征选择的垃圾短信过滤研究
杨凤霞
( 沧州师范学院 计算机系, 河北 沧州 01 1 6 0) 0
摘 要: 根据短信文本长度有限的特点, 分别从句法、 句式、 语义等不同角度选取特征属性, 然后设定属性权重, 最后 用
平衡 权重与大量实验 总结得 出的阈值相 比较 , 实现短信文本分类。此方法计 算量小, 高了分类速度和 准确率 , 提 同时为
实现用户过 滤的个I化要 求提供 了方便的途径。 } 生 关键词 : 短信 ; 垃圾 特征选择 ; 短信过滤 中图分类号 :Il TB l 文献标 识码 : A 文章编 号 : 0 锕 ( 1 B 1 - l8 0 - l) - 1 ∞ 0O 7
掉 , I发送。 阳 E
现有 的文本分类方 法主要 有支持 向量机 (v )K最近 sM 、 邻( N 、 ) 决策树 、 线性最小二 乘法估计 (LF 和贝叶斯 分类 tS )
述垃圾短信 。 句法 和语 法的角度 , 取两个 以上 的多标 点 从 选 属性 ; 从短信句式 的长短结构角度 , 选取短信 长度 属性 ; 从语
1 属性 : 1 多个标点属性 。该属性主要是用来判 断短信中 共使用 了多少个标点符号。标 点分为 : 一是一般 标点 , 。! 如 , ? 等 ;- -是高危标点 , : O r. 、 #*%@& ¥ 如 “ /] 一 ; ” l 等。其属
性权重用 v 表示 。 1 r 包含零个或—个标点 0
或回复信 息属性 、 电话号 码或 网址信 息属性 。对这 些属性设
定权重的计算策略, 权重表示此属性对判定该短信是否为垃
圾短信 的贡献程度。
13 属性表示及权重计算 方法 .
短信的文本分类必须针对短信文本的特点 , 开发适应性
技术 , 笔者分别从 句法和语法 、 、 义等不 同角度选 取特 句式 语 征属性 , 据大量的实验数据 , 依 总结归 纳出各特征属性权重 的 计算方法 , 并引入平衡 权重来 区分 垃圾短信 与一些特 殊 的正 常短信 , 如拜年类 、 日 节 祝福类 短信 。实 验表 明 , 些属 性 的 这 加入有效地提高 了垃圾短信的识别效果 。
据统计 , 国手机用户 已突破 7 , 我 亿 短信文本给 人们 的沟
于正常短信 的几 个特征 : ) ( 长度较长 ; ) 1 ( 包含多种标 点符 号 ; 2
通交流带来极大的方便。但是短信中的垃圾短信正成为一
种新的语言污染 , 着人们 的生活 。控制垃 圾短信传 播蔓 困扰
() 3包含较明显的关键词: 免费”“ 如“ , 咨询”“ , 二手车” 办证” , “ ,
试 。( 见表 1 和表 2 )
表 i 垃圾短信 测试
r 属性 : I 3 关键词属性。通过对采集到的垃圾短信进行分
析 和研究 , 总结出有代 表性 的关键词表 , 中包括 :1 其 ( 广告 短 )
信关键词, 如长期招聘 ; 月薪; 新产品; 上市; 机票; 特惠; 房产 ; 餐饮等等。() 2违法短信关键词, 如代开; 票据; 发票; 办证 ; 二
流、 陌生号码来 信等多种正 常短信。虽然 收集 的垃圾 短信数 量有限 , 但是对 垃圾 短信 的研究 足 以起 到 良好 的支 持作 用。
r 属性: I 2 短信长度属性。该属性用来标识短信的长度 , 由于正常短信和垃圾短信在长度上有一定区别, 通过对大量
ຫໍສະໝຸດ Baidu
垃圾短信的分析研究, 最后选取 6个字节为长度阈值。其属 0
“ 发票” 交友” ; ) , “ 等 ( 包含 电话号 码 , 等联 系方 式 ; ) 4 网址 ( 要 5
求发送 或回复信 息。 12 特征属性选取方法 . 根据归纳所 得垃圾短信 的特点 , 选取 以下几个属性来 描
延的有效方法就是对短信文本做二次分类, 即将短信分为正 常短信和垃圾短信。j L正常短信允许发送, 1 垃圾短信被过滤
・
i 7 ・ 1
长度 长度
=
≤ 6 字节 0 ≤ 10 0 字节 ≤ 10 2 字节
≤ 1 字节 4 0
2 实验与分析
21 实验 .
长度
长度
为 了说 明基于特征选择 的垃圾 短信过 滤方法 的执行 过 程, 分别选取有代表 f的正常短信和垃圾短信 各 l条进行 测 生 0