可拓多过滤器融合方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
=
c <a :b 2பைடு நூலகம் 2 p,p
C3 < ap3, 3 >
() 3
Rf q l ]
一
其 中 ,n < bi是 P在 c上 的取值 范 围 , 指 的 ) = ,P ( > 是 c对所 有 训练 例 进行 判 定 时 的最小 取 值 , 则 是最 t
P q o <a lbl> o, o
Ro=
c < 2 ,o b2>
< , >
() 2
为 了使 用 可拓 方 法 .首先 要 考虑 的 问题 就 是将 邮 件表 示成 物元 , 事元或 关 系元 . 由于本文 主 要考 虑 特征 其 中 ,a < a a 是 P 在 过 滤 器 c 上 的取 值 范 围 X = a, > b 0 i 的分 布对 于过滤 结果 的影 响 .所 以只考 虑将 邮 件表 示 ( 1 2 3 i , ,.下 同 )a 的值 是 C判 定 一个 邮件 是 垃圾 的 = ,e , 成 物元 的情况 ,我们将 另文 讨论 对基 于 复合 元表 示 邮 下限值 , 是 c判 定一 个 邮件是 垃圾 的上 限值 . ; 件进 行挖 掘 的问题 . 其 次 , 确定 节域 , 为 : 要 记 本文 融合 了三种过滤器 : 素贝 叶斯 过滤 器 ( B) 、 朴 N 即 P q <a l l e, > K N过 滤器嗍 V M 滤器 . 一个 过 滤器 对 于某 邮件 N 、S 过 每 e是 否 是 垃圾 都 存在 一 个 判定 值 . 因此 . 们使 用 下 面 我 的物元 来表 示 邮件.
( ) 大取 值. 1 最后 , 据 待过 滤 的对 象 P P用 () 表 示 ) C、 根 ( 1式 在
L I
- J l
2 1 年第 1 01 期
福
建 电
脑
15 1
可拓 多过滤器融合方法
张 娟 , 高克 峰 ,张 曦
f1 石 家庄 经 济 学院现代 教 育技 术 中心 河北 石 家庄 0 0 3 . 50 1
2 张 家 口 市 下 花 园 区地 方 税 务 局 . 河 北 张 家 口 0 5 0 73 0
3 中国移 动通信 集 团 河北有 限公 司 下花 园分 公 司 河北 张 家 口 0 5 0 . 7 3 0)
【 摘
要 】 垃 圾过 滤 问题备 受研 究人 员的 关注 , : 已有 方 法通 常都 具 有较 低 的误 拒 率 , 同时误 收率 也 但
较 高. 文基 于可拓 学 。 出了一种 多过 滤 器融合 方 法 . 本 提 比较 实验 的结 果表 明 , 方 法 的误 拒 率和 误 收率 较 该
其 它方 法都低 .
【 关键 词 】 垃圾 , 滤 器 , : 过 多过 滤 器融合 , 可拓 学
1 引 言 .
N 是所 表 示 的 邮件 名 称 ;1c, 分 别是 上 述 三 个 c, c
网络 上 的各 类 资源 日益 丰 富 .人们 在 享受 有 用 资 过 滤器 ; v,] v,:v 分别是 三 个过 滤器 对 于 N是 否是 垃 圾 源的 同时 . 日益受 ” 也 垃圾 ” 资源 的 困扰 . 如何 有效 地 过 的判定 的值 . 本 文 中 , 即是 使用 贝 叶 斯 方法 判 定 N属 于 垃圾 v, 究人 员 的广泛关 注 过 滤 问题是 一个 代价 敏感 的分类 的后 验 概率 .2K1K. V = / 它表 示 的是 K N方 法 中 . N 在前 问题 , 即将 非 垃 圾 分类 为 垃 圾 ( 误 拒 ” 与将 垃圾 判 定 K个 与 N最相 似 的训 练例 中. ” ) 垃圾 训 练例 所 占的 比例 .
滤 这些垃 圾 的问题 ( 以下称 为过 滤问 题 ) 已经 引起 了研 为非 垃圾 (误 收” 的代 价是 不相 同的 ; 外 , 滤 问题 V= oo OoCs,其 中 CS 是 N与垃 圾训 练例 的 中心 n ) 另 过 3cS CS 01 / + O0
要求 在 不 增加 ” 收 . 的情 况 下 . ” 拒 ” 尽 可 能 向 量 的夹角 .o 1 是 N与 非垃 圾 训 练例 的 中心 向量 误 . 率 使 误 率 cs 则
2可 拓 方 法 .
小 , 定 P的类别 . 简 单 起 见 , 文 只 给 出 P() 计 判 为 本 o p
我 国学 者 蔡 文 1 8 9 3了提 出 了可 拓集 合 [ 经 过 2 算方 法 , 】 ) 2 1 . 0 P( 的计算方 法类 似 . p 几 年 的发展 , 已经 发展成 可 拓学 . 并形 成 了初 步 的理论 为 了计 算 P()首 先要 确定 经典 域 , 为 : o , p 记 框架 . 在某 些领 域 已有 应用 . 将可 拓 学应 用 到数 据 挖 掘 上. 将是 一个全 新 的方 向. 21邮件 表示 .
地低.而 已有 的许 多算 法都 将 过滤 问题 看 作 是一 个 普 的 夹 角 .
通 的分 类 问题 , 多算 法虽 然具 有较 低 的误拒 率 . 同 22可 拓 方 法 许 但 . 时也具 有较 高的误 收率 . 而导致算 法 的不 实用【 从 1 1 . 不妨 设训 练 例集 为 P, 圾训 练集 为 P , 垃 圾训 垃 0非 本 文 利用 可 拓方 法 融合 多个 过 滤器 对 垃圾 邮 件进 练集 为 P , 0 l P uP= ,待 过 滤 的 邮件 为 P 过 1 nP= P , 0 lP , 行 过滤 .对 比实验 的结果 表 明该 方法 的误 拒 率 和误 收 滤 问题 即是要 分别计 算 P属 于 P 和 P 的程度 , 0 】 分别记 率都 比较 理想. 为 P() P()最 后 通 过 比较 P ( 和 P() 0) I和 1 , p 0 ) 的取 值 大 p p
c <a :b 2பைடு நூலகம் 2 p,p
C3 < ap3, 3 >
() 3
Rf q l ]
一
其 中 ,n < bi是 P在 c上 的取值 范 围 , 指 的 ) = ,P ( > 是 c对所 有 训练 例 进行 判 定 时 的最小 取 值 , 则 是最 t
P q o <a lbl> o, o
Ro=
c < 2 ,o b2>
< , >
() 2
为 了使 用 可拓 方 法 .首先 要 考虑 的 问题 就 是将 邮 件表 示成 物元 , 事元或 关 系元 . 由于本文 主 要考 虑 特征 其 中 ,a < a a 是 P 在 过 滤 器 c 上 的取 值 范 围 X = a, > b 0 i 的分 布对 于过滤 结果 的影 响 .所 以只考 虑将 邮 件表 示 ( 1 2 3 i , ,.下 同 )a 的值 是 C判 定 一个 邮件 是 垃圾 的 = ,e , 成 物元 的情况 ,我们将 另文 讨论 对基 于 复合 元表 示 邮 下限值 , 是 c判 定一 个 邮件是 垃圾 的上 限值 . ; 件进 行挖 掘 的问题 . 其 次 , 确定 节域 , 为 : 要 记 本文 融合 了三种过滤器 : 素贝 叶斯 过滤 器 ( B) 、 朴 N 即 P q <a l l e, > K N过 滤器嗍 V M 滤器 . 一个 过 滤器 对 于某 邮件 N 、S 过 每 e是 否 是 垃圾 都 存在 一 个 判定 值 . 因此 . 们使 用 下 面 我 的物元 来表 示 邮件.
( ) 大取 值. 1 最后 , 据 待过 滤 的对 象 P P用 () 表 示 ) C、 根 ( 1式 在
L I
- J l
2 1 年第 1 01 期
福
建 电
脑
15 1
可拓 多过滤器融合方法
张 娟 , 高克 峰 ,张 曦
f1 石 家庄 经 济 学院现代 教 育技 术 中心 河北 石 家庄 0 0 3 . 50 1
2 张 家 口 市 下 花 园 区地 方 税 务 局 . 河 北 张 家 口 0 5 0 73 0
3 中国移 动通信 集 团 河北有 限公 司 下花 园分 公 司 河北 张 家 口 0 5 0 . 7 3 0)
【 摘
要 】 垃 圾过 滤 问题备 受研 究人 员的 关注 , : 已有 方 法通 常都 具 有较 低 的误 拒 率 , 同时误 收率 也 但
较 高. 文基 于可拓 学 。 出了一种 多过 滤 器融合 方 法 . 本 提 比较 实验 的结 果表 明 , 方 法 的误 拒 率和 误 收率 较 该
其 它方 法都低 .
【 关键 词 】 垃圾 , 滤 器 , : 过 多过 滤 器融合 , 可拓 学
1 引 言 .
N 是所 表 示 的 邮件 名 称 ;1c, 分 别是 上 述 三 个 c, c
网络 上 的各 类 资源 日益 丰 富 .人们 在 享受 有 用 资 过 滤器 ; v,] v,:v 分别是 三 个过 滤器 对 于 N是 否是 垃 圾 源的 同时 . 日益受 ” 也 垃圾 ” 资源 的 困扰 . 如何 有效 地 过 的判定 的值 . 本 文 中 , 即是 使用 贝 叶 斯 方法 判 定 N属 于 垃圾 v, 究人 员 的广泛关 注 过 滤 问题是 一个 代价 敏感 的分类 的后 验 概率 .2K1K. V = / 它表 示 的是 K N方 法 中 . N 在前 问题 , 即将 非 垃 圾 分类 为 垃 圾 ( 误 拒 ” 与将 垃圾 判 定 K个 与 N最相 似 的训 练例 中. ” ) 垃圾 训 练例 所 占的 比例 .
滤 这些垃 圾 的问题 ( 以下称 为过 滤问 题 ) 已经 引起 了研 为非 垃圾 (误 收” 的代 价是 不相 同的 ; 外 , 滤 问题 V= oo OoCs,其 中 CS 是 N与垃 圾训 练例 的 中心 n ) 另 过 3cS CS 01 / + O0
要求 在 不 增加 ” 收 . 的情 况 下 . ” 拒 ” 尽 可 能 向 量 的夹角 .o 1 是 N与 非垃 圾 训 练例 的 中心 向量 误 . 率 使 误 率 cs 则
2可 拓 方 法 .
小 , 定 P的类别 . 简 单 起 见 , 文 只 给 出 P() 计 判 为 本 o p
我 国学 者 蔡 文 1 8 9 3了提 出 了可 拓集 合 [ 经 过 2 算方 法 , 】 ) 2 1 . 0 P( 的计算方 法类 似 . p 几 年 的发展 , 已经 发展成 可 拓学 . 并形 成 了初 步 的理论 为 了计 算 P()首 先要 确定 经典 域 , 为 : o , p 记 框架 . 在某 些领 域 已有 应用 . 将可 拓 学应 用 到数 据 挖 掘 上. 将是 一个全 新 的方 向. 21邮件 表示 .
地低.而 已有 的许 多算 法都 将 过滤 问题 看 作 是一 个 普 的 夹 角 .
通 的分 类 问题 , 多算 法虽 然具 有较 低 的误拒 率 . 同 22可 拓 方 法 许 但 . 时也具 有较 高的误 收率 . 而导致算 法 的不 实用【 从 1 1 . 不妨 设训 练 例集 为 P, 圾训 练集 为 P , 垃 圾训 垃 0非 本 文 利用 可 拓方 法 融合 多个 过 滤器 对 垃圾 邮 件进 练集 为 P , 0 l P uP= ,待 过 滤 的 邮件 为 P 过 1 nP= P , 0 lP , 行 过滤 .对 比实验 的结果 表 明该 方法 的误 拒 率 和误 收 滤 问题 即是要 分别计 算 P属 于 P 和 P 的程度 , 0 】 分别记 率都 比较 理想. 为 P() P()最 后 通 过 比较 P ( 和 P() 0) I和 1 , p 0 ) 的取 值 大 p p