文本分类中特征提取方法的比较改进

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p o r t V e c t o r Ma c h i n e , S V M) J . 文 本 分 类 性 能 的评
I G ( t )= 一∑p ( c ) l o g p ( C i )+ p ( ) ∑( c I
t ) l o g p ( c I t ) + p ( ) ∑ c f I t ) l o g p ( c ) . ( 1 )
第1 步: 利用公式 ( 1 ) 计算 每个类别中的所有
特征的 C H I 值.
文档频 率 ; D为 不 包 含 于类 别 c 也 不 具 有 特 征项 t
的文档 频 ; Ⅳ为 训练 文本 中文 档 总数量 .
第 2步 : 按 C H I的值 将 特 征 进 行 由高 到 底 的 排序 , 选 取其 中前 个特 征 , 这 样会 得 到有 M 个 模


将 基 于改进 统计 量 和模式 聚合 方 法 的文 本 特 征提 取方 法基 本步骤 描述 如下 .
式 中, A为 包含 于 类 别 c同 时具 有 特 征 项 t 的 文档频 率 ; B为具 有 特 征 项 t 但 不 包含 于类 别 c的
文档频 率 ; C为包 含 于类 别 c 但 不 具 有特 征 项 t 的
1 . 1 I G( I n f o r ma t i o n G a i n ) 信 息增 益
分类过 程 主要 由 5个 方 面 的 内容 组成 , 分别是 : 文 本 预处 理 、 文本表示 、 文 本特 征选取 、 文本 分类 算法 和文 本分 类 性 能 评 估 ¨ J . 文 本 预 处 理 是 指 在 文 本 分类 过程 中除 去待 分 类 文本 中和 分类 任 务 无 关 内 容 的过程 . 目前 在文 本表示 中应 用 比较 广泛 的模 型 是 向量空 间模 型 ( V e c t o r S p a c e Mo d e l , V S M) . 文本
评 估结 果提 取适合 的特征 . 目前在 特征 提取 中常用 的方法 有 : I G( I n f o r ma t i o n g a i n ) 信息增益 , MI ( M u —
收 稿 日期 : 2 0 1 3 - 0 3 - 2 8
M I 方法把 相关性 高 的特征 也就 是 互 信息 值较
9 8 1 - ) , 女, 甘肃景泰人 , 讲师 , 硕士生
第 5期

娟: 文本分 类中特征提取方法的 比较改进
・2 3・
1 . 3 DF ( D o c u me n t F r e q u e n c y ) 文档频 率
第2 0卷 第 5期 2 0 1 3年 1 0月
文章编号 : 1 0 0 9— 2 2 6 9 ( 2 0 1 3 ) 0 5— 0 0 2 2— 0 3
兰州 工 业 学 院学 报
J o u na r l o f L a n z h o u I n s t i t u t e o f T e c h n o l o g y
1 . 2 Ml ( Mu t u a l I n f o r ma t i o n ) 互信 息值
估是 由准确率和召回率这两个指标来决定的, 文中
对 特征提 取方 法 中 的 统 计 法 进 行 了改进 , 有 效 提 高 了分 类 的准确率 .
1 特征 提 取
在 进行 特征提 取 时 , 首先 利用 向量 空间模 型将
验使用 1 9 9 6 年到 2 0 0 1 年 的文本作为具体 的研究
对象 , 其中9 1 3 1 1 8个 文 本 作 为训 练 样 本 , 1 8 1 8 6 3 个文 本作 为测试 样本 . 在 实验 中 , 从 中抽 取 关 于 社 会、 娱乐 、 经济 、 国内体育 和 国际体 育 的文章 进行 分 析, 如 表 1所示 . 本文设 计 了 3个 实 验 , 实 验 1是对
摘要 : 介绍 了I G( I n f o r m a t i o n g a i n ) 信 息增 益 , MI ( Mu t u a l i n f o r ma t i o n ) g - 4 ¥息值 , C H I ( 统计 法) 、
D F ( D o c u me n t  ̄ e q u e n c y ) 文档 频 率 4种 常用 的文本特 征提 取 方 法 , 然后 针 对 C H I 方 法提 出 了改进 方法, 并对 改进 的方 法进 行 了实验 分析 , 结果表 明改进的 方法提 高 了文本 分类的 正确 率.
贡献. 当t 与c 相互独立时 , = 0 ; 若 的值越大, 说明特征 t 与类别 c 的相关程度越高. 文本类别受
特征 t 的影 响越 大 ; 反之 , 文本 类 别受 特征 t 的影 响 越小 . 为了将 该方 法 推 广 到 所 有 类 别 时 , 一 般 取 每 个类 别对 应 词条 的 统计 量 的最 大 值 作 为 该 词 条 的
当A D —C B<0 , 特 征 和类 别 负 相 关 . 而在 1 . 4节
在实 验 中 , 选取 了《 读 者 新 闻》 数 据 库 作 为
研究 对象. 《 读 者新 闻》 数据库含有从 1 9 8 7年 到
2 0 0 1 年 的读 者新 闻 , 总共 2 1 9 0 5 2 1篇 文 章 . 本 实
I G( I n f o r ma t i o n G a i n ) 信 息 增 益 通 过 统 计 每 个 类别 中特 征 出现 的 次数 来 表 示 训 练集 上 该 特 征 的
分布情况. 其计算公式如下
特征提取所做的工作就是分析待分类文本中的词 ,
找 出有用 的作 为特 征 词 , 剔 除 那 些无 用 的词 和 “ 噪 声” 词, 以提 高 分 类 的效 率 和 分 类 的精 度 . 常 用 的 文本 分类 算 法 有 : 朴 素 贝 叶斯 算 法 _ 2 J 、 K近邻 ( K N e a r e s t N e i g h b o r , K N N) 以及支 持 向量机 ( S u p .
该值的大小说明 了特征 的分布情况 , 值越 大,
分 布越均 匀 , 该 特 征 越 有 可 能 出现 在 较 多 的类 别
中, 在训练 集上 的分 布也就 越集 中 , 反 之则相 反 . 由 于分 布集 中 的特 征 比较重 要 , 所以 I G方 法 提取 I G 值较 高 的特征 .
第 4步 : 利用凝聚的层次法聚类算法对每个模
式进 行 聚类 ( 一 行表 示 一个 模 式 ) . 将 欧 氏距 离 小 于 一定 阈值 的模式 进行 聚类 . 第 5步 : 重 新计 算 每个 特征 项 的 C H I 值, 根 据 C HI 值 大小选 择前 L 个特 征项 .
中, 利用式 ( 3 ) 计算 统计值 时, 分子 N X( A D—
c ) 使 得特 征 与类别 的 正相关 能 力与 负相 关 能力 被 同 等对 待 , 但 在 实 际分 类 中特 征 与 类 别 的正 、 负 相 关 能力 对分 类结果 的影 响是 不 同 的 . 在 文献 [ 3 ]
1 . 4 C HI ( 统计 法 )
统计量的平均值或最大值. 在改进 的 统计量上 ,
规 定词 条 的 C H I 值 为
统计法通过衡量特征 t 和类别 C 之间 的相
关程度 来 说 明特征 的重 要程度 . 其 前 提条件 是 假定
t 和c 之 间 的关 系满足 一 阶 自由度 的 分布 , 即
MI ( M u t u a l I n f o r m a t i o n ) 互 信息 值 , 它 提取 特 征 的方法是 计算 特征 t 和类 别 c之 间 的相关 性 , 相关
性高的特征 比较重要. 其计算公式如下
MI ( C i l o g . ( 2 )
文本从样本空间映射到特征空间 , 然后在特征空间 利用特征评估 函数对每个特征进行评估 , 最后根据
中指 出 : 特 征 的重要 性主 要 由特征 与类 别 的正 相关
式 的特 征矩 阵.
利 用 统计 法在 进 行特 征提 取 时对 于 任意类 别 中出现 的词频 高 的特征 , 认 为对类 别 的判 断都 有
第 3步 : 首先 利 用公 式 A = / ( m a x—m i n ) 将 各个模 式 的 改进 统 计 量 进 行 处 理 , 使 该 统 计 量处 在 [一1 , 1 ] 之间, 然 后 根据 这 个 值 比较 每 个模 式对 各个 分类 的影 响 比例是 否一致 .
( , c ) =
C H I i =m a x { l j J , I 壶J , …, J I } .
2 . 1 基于 改进 统 计 量 和 模 式聚 合 方 法 的 文本 特 征 降维方 法
( 二 旦 ) :
( +C ) ( B+D) ( A+ ) ( C+ D ) 。
Vo l _ 20 No . 5
0 c t . 2 0 1 3
文 本 分 类 中特 征提 取 方 法 的 比较 改 进
王 娟
( 1 . 兰州理工 大学 计算机 与通信学 院, 甘肃 兰卅I 7 3 0 0 5 0 ; 2 . 兰州工业学 院 软件工程学 院, 甘肃 兰州 7 3 0 0 5 0 )
值高的特征 , 这样可以保证选取的特征具有这样的
特点 : 在训 练集 上 出现 的次 数较 多并 且有 一定 的影
响力 .
( A +C )×( B+D)X( A +B)×( C +D)‘ ( 4 )

Ⅳ ×f AD — C B)
般特 征 的 C H I 值 为该 特 征 对所 有 类 别 的
2 . 2 仿 真实验
全局统计量 , 并设定一个 阈值 , 选取高于阈值的词
条作 为 特征项 .
2 改 进 的 文 本 特 征 提 取 方 法 及 其 仿
真 分 析
在 统 计 法 中 , 特 征 和类 别 的相 关 性 是 有 正 负两 种情 况 : 当A D —C B >0 , 特 征 和类 别 正 相 关 ;
关 键词 : 文 本分 类 ; 特征提 取 , 统 计量
中 图分 类号 : T P 3 9 1
文献标 志码 : A
分 类是 对信息 利用 的前 提条件 , 因此 文本 分类
方法 的研究 便成 为现在 的一 个重要 研究 方 向. 文本
t u a l i n f o r m a t i o n ) 互信 息值 , C H I ( 统 计法 ) 、 D F ( D o c u me n t f r e q u e n c y ) 文档频率 , 下 面对 这 4种 方 法 分别进 行介 绍 .
负相 关性 的方 法 , 即 相关 系数 法 : 认 为 选 取 与类 别 正相关 的特征项 可 以得 到较好 的分 类结果 . 但 是这 个 作 用对 分类效 果 的影 响并不 明显 , 于是 就得 到 了
统计 法 的改进形 式 .
=s i g n ( A D —C B)+
D F ( D o c u m e n t F r e q u e n c y ) 文档频率 , 是 指含 有 该特 征 的文本 在训 练集 中出现次 数 的总 和. 文 本包 含特 征有 两个 方 面的含 义 , 一是 特征 在该 文本 中出 现, 二 是 出现 的次 数 被 忽 略 . 这 该 方 法 中选 取 D F
相关文档
最新文档