中文文本分类中特征提取方法的比较与改进

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1 7卷
第 6 期
兰 州 工业 高 等 专 科 学 校 学 报
J u n lo n h uPoye h i l g o r a fLa z o ltc ncCol e e
V01 7, o .1 N .6 De ., 01 c 2 0
21 0 0年 1 2月
文 章 编 号 :o 9 2 6 (0 0 0 -0 0 - 0 lo— 2921)6 0 1 4
(mp o e I r v d CHI ,通 过 分 类 实 验 仿 真 数 据 显 示 , S ) 在 VM 与 KNN 分 类 中 这 种 改 进 后 的 特 征 提 取 方法 I CHI特 征 提 取 效 果 优 于 传 统 的 CHI方 法 , 进 后 的 方 法 I 改 CHI能 提 高 文 本 分 类 的 准 确 率 , 适 合局 部 特征提 取. 关 键 词 : 特 征 提 取 ; 本 分 类 ; 部 文 局
信息 增 益 (no main Gan I fr t i)在 机 器 学 习 ຫໍສະໝຸດ Baidu o 域 被广泛 应 用. 息增 益 的定 义如 下 : 信
/ ( G ) P ( c )o lg +
Te t 计算 了类 别 出 现 的概 率 和 某 个 特 征 出现 的 x) 前 提 下类 别 出现 的 条 件 概率 之 间 的差 别 . 果 词 如 条 和类 别相 关性 很 强 , 对应 的 P( I ) 大 , c £很 并且
第 1 卷 7
响大 , 选取作 为特 征项 . 本证 据权定 义为 : 可 文
W ET( )一 £

公 式 ( )与公 式 ( )相 比 较 , 掉 平 方 的 原 因 6 5 去 是 只 考 虑 与 类 别 c 相 关 特 性 , 母 项 P() 正 分 c P()
耋co P, Cg i l
中 图 分 类 号 :TP 3 1 9
文献 标 志码 : A
0 引 言
文 本 分 类 技 术 Ⅲ 中 的 一 项 关 键 技 术 就 是 特 征

P( )o c l lg

() 2
其 中 P( I )表示 文本 中 出现 特征 t , 本 c £ 时 文 属 于 的 概率 , c ) P( I 表示 文本 中不 出现 特征 t f
率 ; £ 表 示 t 整个 文本 训 练集 中出现 的概率 . P() 在
3 )期 望 交 叉 熵 ( E . C )
期 望 交 叉 熵 ( x etd C osE t p ) 是 E p ce rs n r h [ o 通过 计算 文本 类 别 的概 率 分 布 和在 出现 的某 个 特 征项 的条 件 下 文 本 类 别 的概 率 分 布 之 间 的距 离 , 特征 项 t 的期 望 交叉 熵大 对 文本类 别 分 布 的影 引,
相关 性 , 互信 息评 估 函数定 义 如下 :
I一 尸) ( 妻(o t Cg ) 1 l
2 )信 息增 益 (G) I .
. ( 1 )
4 )文本证 据权 ( E . W T)
文 本 证 据 权 (h eg t o vd n e fr t e W ih f E ie c o
中 文 文 本 分 类 中特 征 提 取 方 法 的 比 较 与 改 进
王 明令
( 州 大 学 阳光 学 院 , 建 福 州 3 0 1 ) 福 福 5 0 5
摘 要 : 目前 有 多 种 特 征 提 取 方 法 用 于 文 本 自动 分 类 , 中 CHI 法 效 果 较 好 , 究 发 现 C 其 方 研 HI 方 法 存 在 着 词 与 类 别 的 无 独 立 性 假 设 及 计 算 复 杂 度 高 等 缺 点 , 出 一 种 改 进 了的 C 提 HI方 法 I CHI
响 也 越 大 , 文 本 类 别 分 布 的 影 响 也 越 大 . 望 交 对 期
1 常 见 文 本 分 类 中 的 特 征 提 取 方 法
1 )互 信息 ( ) MI. 互 信 息衡量 的是 某 个 词 条 和 类 别 之 间 的统 计
叉 熵 定义 为 :
C ( E P ( c )o lg . ( ) 3
时文 本 属 于 C 的 概 率 ; c P( )表 示 类 别 出 现 的 概
提取 , 特征 提 取 的质 量 决定 了 分类 效果 的优 劣 .因 而寻 找有 效 的特征 提 取 方 法不 仅 能 降 低 特 征空 问 的维数 ,而且 能抑 制 干扰 词条 对分 类 的影 响 , 而 从 提 高分 类 的 精 度 . 文研 究 了 常 用 的 特 征 提 取 方 本 法, 并对 这 些 特征提 取 方 法 进 行 系 统 地 比较 , 对 针 C 方 法 的不 足 , 出了一 种改 进算 法 . HI 提
5 )CHIX 估 计) (。 .
署 .㈤ 分布 .去 掉 连 续求 和 的原 因是 当某 特 征 词是 多个
类 的特征 词 , 么 它 的评 分 会 很 高 ; 是 , 果 某 那 但 如 个 词 是某 个 类 的特 有特 征 词 , 它最 后 的评 分 会 则 被 综合 掉 , HI I C 方法 设 计 的 出发 点是 构 造适 合 类
内 特 征 提 取 的 函数 .
的作 用是 引人 条件概 率来 考 察词 条 在类 内的 概率
C 侧重 计算 词条 与类 c 之 间的关联 性 , HI 如 果 t 与类 C 之 间相互 独立 , 那么 特征 t CHI 等 的 值 于零. 于类别 C 特征 t C 估计 定义 如下 : 对 , 的 HI
相 应 类 别 出 现 的 概 率 小 , 明 该 特 征 对 分 类 的 影 表
* 收 稿 日期 :0 0 1 — 1 2 1 — 0 1 作 者 简 介 : 明 令 ( 9 1) 男 , 建晋 江 人 , 理 实 验 师 王 18 一 , 福 助
・2 ・
兰 州 工 业 高 等 专 科 学 校 学 报
相关文档
最新文档