一种新的基于软集合理论的文本分类方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2 9卷
第 1 期
广西 师范 大学 学报 : 自然科 学 版
Ju n l f a g i r l ies y Naua S i c dt n o ra o n x Noma Unv ri : trl c n eE io Gu t e i
V o .2 N o.1 1 9
表 l J 个 n项 式 实 验 的 m ×n列 联 表 , 1
Ta b.1 J × n ab e , l t l
1Oi 示 第 J个 试验 的 第 i 观 察 值 ; i 示 第 个 随 机 变 量 在 所 有 m 次 试 验 中 的 观察 值 之 和 ; 表 示 第 J 试 验 中 所 有 一个 观 察 值 之 .) 表 个 O表 D 次 和 ; . 示所有试验中的所有观察值之和 。 o 表
软 集合 理 论是 1 9 9 9年提 出的 处理 模糊 对 象 的数 学工 具 , 年 来许 多 学 者对 其 理 论 和应 用 进行 研 究 。 近
如 文献 [ ] 出一种 基 于软 集合 文本 分类 方 法 。 7提 本文 在 文本 特征 选 择 阶段 采 用一 种新 的基于 独 立度 和齐性 C i 假 设 检验 的特 征选 择 方法 , 所 获取 h2 将
零假设 H。 : 为 随机 变 量 t与试 验 无关 , 0 =D 。 . =Oi。它 的检验 统计 量 表示 为 : 有 = . = _ ・
收 稿 日期 :0 01 —0 2 1—22
基金项 目: 国家 自然科学基金重 大研究计划培育项 目( 0 1 00 ; 9 7 8 2 )澳大利亚 A RC项 目( 0 6 0 0 DP 6 7 6 )
第2 8卷
。
㈩
当 日。 真时 , 为 第 个 多项式 实验 的第 个 观察值 的期 望可 表示 为 :
E = = = , () 2
因此 式 ( ) 似服 从 自由度 为 ( 1近 一1 ( 一1 的 C i ) ) h2分布 。式 ( ) 1 的值 越 大 , 相关 性 越高 。
文本 分类 技术 是文 本 信 息处 理的 核心 技 术之一 , 主要 包含 文本 的 向量 模 型 、 征选 择和 分 类器训 练 等 特 3个 过程 , 任务 是 指依 据文 本 的 内容 , 文 本判 分 预先 定 义好 的类 别 。 其 将 虽然 , 已经建 立 了许 多可用 的文
本 分类 系 统 , 并取得 了一定 的成 果 , 仍需 继续 完善 。 比如 : 本特 征 的选 择和 抽取 技 术不 完善 , 但 文 导致 文 本
分 类结 果 不理 想 。
特 征选 择 是 从确 定 的特 征 空 间 中选取 能 够 充分 代表 文 档 内容 的 特征 子 集 的过 程 , 文 本 分类 中的关 是 键, 目前 已经 存 在许 多 相关 工作 , : 献 [ ] 于独 立性 理论 、 如 文 1基 文献 [ — ] 24 基于 贝叶斯 粗 糙集 方 法 、 文献 [ ] 5 基 于粗糙 集 和 灰色关 联 度 的综 合 、 文献 [ ] 合优 化 的 文档频 和 P 方 法进 行 文档 特 征选 择 。 6结 A
1 2 随 机事 件 的独立 度 .
我 们定 义随 机事 件独立 度如 下 : 样本 空 间中的 2个 事件 A 和 B, 们称 I , 一P( P( I 设 我 P( B) A) B) 的 值 为 随机变 量 和 B之 间的独 立程度 ( 依赖度 ) 。
摘
要 : 本 分 类 技 术 是 文 本 信 息 处 理 的核 心 技 术 之 一 , 要 包 括 文 本 的 向量 模 型 表 示 、 本 特 征 选 择 和 分 类 文 主 文
器 训 练 三 大过 程 。本 文 提 出 了 一 种 混 合 ( I A+D h2 特 征 选 择 算 法 , 将 所 获 取 的 特 征 作 为 软 集 合 理 论 EB HC i) 并 中的 参 数 集进 行 文 本 分 类 , 而 建 立 了一 种 新 的 基 于 软 集 合 理 论 的 文 本 分 类 技 术 。实 验 表 明 查 准 率 与 查 全 率 从 比原 有 算 法 都 有 所 提 高 , 明 新 的 基 于 软 集 合理 论 的 文 本 分 类 算 法 是 有 效 的 。 说 关 键 词 : 本 分 类 ; 征 选 择 ; h2假 设 检 验 ; 立 度 ; 糊 软 集 合 文 特 Ci 独 模 中 图 分 类 号 : P 9 T 31 文献标识码 : A 文 章 编 号 :0 16 0 (0 10 — 1 90 1 0 :6 0 2 1 ) 10 2 —4
的特 征作 为 软集 合理 论 中的参 数 集进 行文 本 分类 , 而建 立一 种 新 的文本 分类 技 术 。 从
1 相 关 理 论 基 础
1 1 齐性 C i . h2假设 检 验
齐性 C i h2假设 检验 的 目的 是检 验 随机变 量 在 m 次试 验 中的 独立性 假 设 。对 于 个 m 项式 试验 可 以 用 ×m 的联表 表示 ( 1 。其 中 : 表 ) , 示试 验次 数 , ”表 ”表示 每次 试 验 中随机 变 量 的个数 。
通 讯 联 系 人 : 鼎 荣 (9 7 ) 男 , 袁 16 一 , 广西 全 州 人 , 广西 师 范 大 学 副 教 授 , 士 。E mal ru n 硕 — i: y a @malo . x u eu c d i x g n . d .n b
1O 3
广西师范大学学报 : 自然 科学 版
M a 201 r 1
21 0 1年 3月
一
种 新 的 基 于 软 集 合 理 论 的文 本 分 类 方 法
袁 鼎 荣 , 扬才 。陆 广 泉 刘 。谢 , , 星。
(.北 京工 业大 学 计 算 机 学 院 , 京 1 0 2 ;.广西 师 范 大 学 计 算 机 科 学 与 信 息工 程 学 院 , 1 北 0142 广西 桂 林 5 1 0 ) 4 0 4
第 1 期
广西 师范 大学 学报 : 自然科 学 版
Ju n l f a g i r l ies y Naua S i c dt n o ra o n x Noma Unv ri : trl c n eE io Gu t e i
V o .2 N o.1 1 9
表 l J 个 n项 式 实 验 的 m ×n列 联 表 , 1
Ta b.1 J × n ab e , l t l
1Oi 示 第 J个 试验 的 第 i 观 察 值 ; i 示 第 个 随 机 变 量 在 所 有 m 次 试 验 中 的 观察 值 之 和 ; 表 示 第 J 试 验 中 所 有 一个 观 察 值 之 .) 表 个 O表 D 次 和 ; . 示所有试验中的所有观察值之和 。 o 表
软 集合 理 论是 1 9 9 9年提 出的 处理 模糊 对 象 的数 学工 具 , 年 来许 多 学 者对 其 理 论 和应 用 进行 研 究 。 近
如 文献 [ ] 出一种 基 于软 集合 文本 分类 方 法 。 7提 本文 在 文本 特征 选 择 阶段 采 用一 种新 的基于 独 立度 和齐性 C i 假 设 检验 的特 征选 择 方法 , 所 获取 h2 将
零假设 H。 : 为 随机 变 量 t与试 验 无关 , 0 =D 。 . =Oi。它 的检验 统计 量 表示 为 : 有 = . = _ ・
收 稿 日期 :0 01 —0 2 1—22
基金项 目: 国家 自然科学基金重 大研究计划培育项 目( 0 1 00 ; 9 7 8 2 )澳大利亚 A RC项 目( 0 6 0 0 DP 6 7 6 )
第2 8卷
。
㈩
当 日。 真时 , 为 第 个 多项式 实验 的第 个 观察值 的期 望可 表示 为 :
E = = = , () 2
因此 式 ( ) 似服 从 自由度 为 ( 1近 一1 ( 一1 的 C i ) ) h2分布 。式 ( ) 1 的值 越 大 , 相关 性 越高 。
文本 分类 技术 是文 本 信 息处 理的 核心 技 术之一 , 主要 包含 文本 的 向量 模 型 、 征选 择和 分 类器训 练 等 特 3个 过程 , 任务 是 指依 据文 本 的 内容 , 文 本判 分 预先 定 义好 的类 别 。 其 将 虽然 , 已经建 立 了许 多可用 的文
本 分类 系 统 , 并取得 了一定 的成 果 , 仍需 继续 完善 。 比如 : 本特 征 的选 择和 抽取 技 术不 完善 , 但 文 导致 文 本
分 类结 果 不理 想 。
特 征选 择 是 从确 定 的特 征 空 间 中选取 能 够 充分 代表 文 档 内容 的 特征 子 集 的过 程 , 文 本 分类 中的关 是 键, 目前 已经 存 在许 多 相关 工作 , : 献 [ ] 于独 立性 理论 、 如 文 1基 文献 [ — ] 24 基于 贝叶斯 粗 糙集 方 法 、 文献 [ ] 5 基 于粗糙 集 和 灰色关 联 度 的综 合 、 文献 [ ] 合优 化 的 文档频 和 P 方 法进 行 文档 特 征选 择 。 6结 A
1 2 随 机事 件 的独立 度 .
我 们定 义随 机事 件独立 度如 下 : 样本 空 间中的 2个 事件 A 和 B, 们称 I , 一P( P( I 设 我 P( B) A) B) 的 值 为 随机变 量 和 B之 间的独 立程度 ( 依赖度 ) 。
摘
要 : 本 分 类 技 术 是 文 本 信 息 处 理 的核 心 技 术 之 一 , 要 包 括 文 本 的 向量 模 型 表 示 、 本 特 征 选 择 和 分 类 文 主 文
器 训 练 三 大过 程 。本 文 提 出 了 一 种 混 合 ( I A+D h2 特 征 选 择 算 法 , 将 所 获 取 的 特 征 作 为 软 集 合 理 论 EB HC i) 并 中的 参 数 集进 行 文 本 分 类 , 而 建 立 了一 种 新 的 基 于 软 集 合 理 论 的 文 本 分 类 技 术 。实 验 表 明 查 准 率 与 查 全 率 从 比原 有 算 法 都 有 所 提 高 , 明 新 的 基 于 软 集 合理 论 的 文 本 分 类 算 法 是 有 效 的 。 说 关 键 词 : 本 分 类 ; 征 选 择 ; h2假 设 检 验 ; 立 度 ; 糊 软 集 合 文 特 Ci 独 模 中 图 分 类 号 : P 9 T 31 文献标识码 : A 文 章 编 号 :0 16 0 (0 10 — 1 90 1 0 :6 0 2 1 ) 10 2 —4
的特 征作 为 软集 合理 论 中的参 数 集进 行文 本 分类 , 而建 立一 种 新 的文本 分类 技 术 。 从
1 相 关 理 论 基 础
1 1 齐性 C i . h2假设 检 验
齐性 C i h2假设 检验 的 目的 是检 验 随机变 量 在 m 次试 验 中的 独立性 假 设 。对 于 个 m 项式 试验 可 以 用 ×m 的联表 表示 ( 1 。其 中 : 表 ) , 示试 验次 数 , ”表 ”表示 每次 试 验 中随机 变 量 的个数 。
通 讯 联 系 人 : 鼎 荣 (9 7 ) 男 , 袁 16 一 , 广西 全 州 人 , 广西 师 范 大 学 副 教 授 , 士 。E mal ru n 硕 — i: y a @malo . x u eu c d i x g n . d .n b
1O 3
广西师范大学学报 : 自然 科学 版
M a 201 r 1
21 0 1年 3月
一
种 新 的 基 于 软 集 合 理 论 的文 本 分 类 方 法
袁 鼎 荣 , 扬才 。陆 广 泉 刘 。谢 , , 星。
(.北 京工 业大 学 计 算 机 学 院 , 京 1 0 2 ;.广西 师 范 大 学 计 算 机 科 学 与 信 息工 程 学 院 , 1 北 0142 广西 桂 林 5 1 0 ) 4 0 4