中文文本分类中一种基于语义的特征降维方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
胡 刘怀 涛 亮
( 西安电子科技大学经济管理学院,陕西 西安 707) 1 1 0
[ 摘 要】文本提 出了一种基 于语义的特征 降雏方法。通过依存 关系抽取 实现 一次降维;通过计算 类别和依存 关法进行特征选择 实现二次降雏。对 中文文本分类的 实验结果表 明,提 出的特征 降维方法具有较好
的分 类 效 果 。
[ 关键词】文本分类 ;特征 降雏;互信息;依存关 系;语 义
D : 0.9 9/.sn.0 8一o 2 .0 1 1 . 1 OI1 3 6 iis 1 0 8 12 1 .10 1
[ 中图分类号]T 31 [ P9 文献标识码 )A ( 文章编号]1 8 02 21)1一 O6 0 0 — 81( 1 1 O4 — 5 0 0
(col f ngm n,Xda n esy in70 7 ,C i ) Sho ae et ii U i rt,X ’ 10 1 h a o Ma n v i a n
[ b嘣 ]T ippr n oue e at As h ae t dcdas nc—bsdf t ed es nr utnm to .D pnec set c db i s ir m i ae au i ni d co e d eedni xat yd e r m o e i h e r e .
21 年 1 月 01 1 第 3 卷第 l 期 1 1

现 代 情 报
Junlo dm nom t n o ra fMo e Ifr a o i
No . 2 v. 011
V 13 N . 1 o. 1 o 1
理 论 探 索 ・
中文文本分 类中一种基于语义的特征降维方法
1 文 本特征 降 维常用 的方 法
特征选择和特征抽取是文本特征降维 中的主要方法。 特征选 择是指依 据某个准则从 众多原 始特征 中选 择部

w r ]ttls ci ; iesn eu o;m l—n rao;dp dn li ;s at od e a i ao d no dc n ui io tn e nec rao e nc s x csf tn m i r t i i t fm i e y etn m i
分最能反映类别统计特性 的相关特征 ,即要 找到对 文本 内 容 的标引能力最强的特征 子集 ,本 质上是 对特征集 合 的约
缩 。常用的特征选 择方 法有 文 档频 度 、特 征熵 、互信 息 、
定文本类别 的过程…。该技术在 自然语言 处理 、信息组 织 1 与管理、内容信 息过 滤等 领域都有着广泛的应用。 文本分类中 ,主要 采用 向量 空间模 型来表示 文本。向
量空间模型的优点在于将 非结 构化 的文本表示为向量形式 , 方便运 用各 种数学方法 处理。在 向量 空间模型下 ,文 本特
考量而对文本特征集 的一 种压缩 。特征抽 取侧重 于特征 之
的主要 瓶颈。寻找合 理 的特征 降维方法成 为进一步 提高文 本分类效率的关键。
间、特征与文本之间的语义信 息 ,是从变换 的角度 对特 征
进行压缩 ,但存在高维矩 阵分 解的 困难 。常用 的特 征抽 取 方法有 主成分分析 、潜在语 义标引 、非 负矩 阵分解 等。这 些方法从不 同的角度度量 特征对文本 分类所起 的作 用 ,但
随着信 息技 术的高速发 展 ,互联 网上 的信息呈海量 特 征, 人们对 文本 挖掘技术提 出了更高 的要 求。作为文本 挖
掘的一个重要组 成部分 ,文本 分类成 为研 究的热 点。文 本 分类是 指在 预先给定的类别 体系下 ,根据 文本 内容 自动确
简。特征选择注重特 征与文本之 间的分布信 息而很 少利 用 特征之 间的语义信息 ,是从统计 的角度对 特征维数 进行 压
征的高维性 和文本向量数据 的稀 疏性是影 响文本分类 效率
信息增益、 统计量、特征权、期望交叉熵、几率 比等。
这些模型 由于构造相对简单 、易于理解而得到广泛应用 。 特征抽取就是基 于特征项 之间的语义 相关 性、类别 特
征集对类 内文本聚合程度 、类 间离散程度 的影 响力 等方 面
me s n ly r d ci n i ai e u t n; b ac l t gt e sma t i lr y o ae o i n e e d n is c mbn d w t e mut— i oma o t o y c l a n e n i s a i fc tg r s a d d p n e ce , o ie i t l u i h c mi t e h h i n r - f
M eh d o e t r d cin i i e eTe tClsi c t n Ba e n S ma t s t o fF a u e Re u t Chn s x a sf ai s d o e n i o n i o c
Hu Ta Lu Hu i a g o i al n i
i t e s l i t d f e o d dme so rd ci . x ei t n C i ee tx l s a o h w d t tte p o f n fa r ee t n me o rte s c n i n i e u t n E p r ns i hn s e tc s ic t n s o e a h r- o eu co h o h n o me a f i i h p s d f tr i ̄ so d cin meh d h sb t rc s ic t n rs l . 0e au edl n in r u t to a et l s a o ut e l e o e a f i i e s
相关文档
最新文档