文本特征提取以及分类结果分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本特征提取以及分类结果分析
一、目标:
提取文本中的关键信息,用于文本的自动分类。
二、要求:
a)编写特征提取程序,从训练语料中根据IG,MI,CHI或CE等指标,分别提取文
本特征词集。
b)编写文本特征向量生成程序,根据得到的文本特征词集,生成任意文档的权值特征
向量。为其它设计分类器的同学提供训练文档和测试文档的特征向量集。
c)编写统计程序,对其它同学的分类结果进行统计和分析,包括准确率(Precision)和
找回率(Recall),以及综合指标(F-Measure=…)。
三、文本特征提取原理
文本特征提取是进行文本分类训练和识别的基础。其基本思路是基于向量空间面向(VSM――V ector Space Modal),即把一篇文本视为N为空间中的一个点。点的各维数据表示该文档的一个特征(数字化的特征)。而文档的特征一般采用关键词集,即根据一组预定义的关键词,以某种方法计算这些关键词在当前文档中的权重,然后用这些权重形成一个数字向量,这就是该文档的特征向量。
由上面的简介可知,这里有两个方面的问题:(1)如何定义“关键词集”(或称为“特征词集”);(2)如何就是某个关键词在一篇文本中的权重。
1.提取关键词集
首先,我们提取关键词的最终目的是为了对文本进行分类。一些词,如“的”,对应文本分类不可能有任何帮助;或者,“计算机”一词对进行“台独类”和“成人类”文章的分类也没有任何帮助。因此,关键词集是与分类目标相关的。从上面的例子可以想象,在提取关键词集中有两个步骤:
d)筛选关键词的各种方法
根据词汇与预定义分类文本的相关程度来筛选关键词。使用一个训练文档集(其中各文档的分类已经由人工指定),通过计算其中词汇与文档分类的相关程度,选择相关程度高的词汇作为表达文档特征的关键词。
词汇与文档分类相关度的计算有多种方式。
1)词频(TF-T erm Frequency):
该思路很简单:如果词汇w在Ci类文本中出现的频率很高,就用它作为一个关键词:
(|)(,)('|)
i i i C ount w C tf w C C ount w C =
其中,(|)i C ount w C 表示在Ci 类文档中w 出现的总次数;('|)i C ount w C 表示Ci 类文档中的总词汇数。
计算Ci 类文档中各词汇的词汇频率后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 2) 文档频率(DF -Document Frequency )。
文档频率是指在Ci 类文档中,出现词汇w 的文档的比例。该比例越高,则所有w 对Ci 的特征表达可能越重要,所以可以以此作为筛选关键词的条件。
(,)
(,)i i
count w C i D F w C C =
,
其中i C 是属于类i C 的文档总数,(,)i count w C 是在属于类i C 的文档范围内出现w 的文档数量。
计算Ci 类文档中各词汇的文档频率后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 3) TF-IDF (词频-反向文档频率):
可以看出,上述两种方法各有其道理,但都失之偏颇。
注意,这里的反向文档频率与2)中的文档频率是不同的概念。这里的文档频率是指词汇w 在整个文档集中的文档频率,而2)中是指在类Ci 子集中的文档频率。因而这里的文档频率的计算为:
(,)w i n D F w C N
=
其中,w n 是包含w 的文档总数,N 是总文档数。 词汇w 的TF-IDF 计算方法为:
()()
(,)(,)log 1/(,) (,)log /i i i i w TFID F w C tf w C D F w C tf w C N n =⨯=⨯
计算Ci 类文档中各词汇的TFIDF 后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 4) 互信息(MI -Mutual Information ):
互信息指标是用于表示两个特征共同出现的程度。在这里,如何词汇W 和类C 总是共同出现,那么它们的互信息度高,W 就是C 类文档的一个特征词。
(,)(,)log ()()(|) log ()i i i i i P w C M I w C P w P C P C w P C ⎛⎫
= ⎪
⎝⎭⎛⎫
= ⎪
⎝⎭
(1)
其中,()P w 是在整个训练集中,出现词汇w 的文档的概率(用频率代替);
()i P C 是在训练集中,属于类i C 的文档的概率;(,)i P w C 表示在训练集中既出现
w 又属于类i C 的文档的概率。
此外,w 与Ci 的互信息度高,并不说明w 与另一个类Cj 的互信息度就一定低。为了更好地区分两个类,我们应该选择仅与一个类的互信息度高的词汇。这种表达是很理想化的。实际上我们可以选择哪些与不同类的互信息度差距较大的词汇作为关键词。表示这一特征的方法是求词汇w 的互信息度的均方差:
()w σ=
(2)
其中,()avg M I w 为w 的平均互信息度,其公式为:
1
()()(,)m
avg i
i i M I w P C
M I w C ==
⨯∑
互信息的一个缺点是没有考虑w 在某类文档中的词汇频率,因而稀有词汇常常可以有很大的权重。文章《基于改进的互信息特征选择的文本分类》中提出的方法是:
(,)(,)log (,)()()i i i i P w C M I w C TF w C P w P C ⎛⎫
=⨯ ⎪⎝⎭
(3)
其中, (,)i TF w C 是词汇w 的词频在Ci 类文章中的词汇频率:
(|)(,)()
i i count w C TF w C count w =
其中,count(w)是w 在所有文章中出现的词汇数,count (w|Ci )是w 在Ci 类文章中出现的词汇数。
我们在实验中可以比较以上三种指标的分类效果。
计算各词汇与Ci 类的互信息度后,设定一个阀值,选择大于该阀值的词汇作为Ci 类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。 5) χ2统计量:
互信息的关键是考虑词汇与类的同现概率。而χ2统计希望考虑得根据全面:综合考虑词汇w 与类C 关系的四种情况。假设我们用W 表示出现词汇w 的文档,
W 表示不出现w 的文档,C 表示属于类C 的文档,C 表示不属于类C 的文档,
那么它们之间的组合有:(,),(,),(,),,(,)W C W C W C W C 。如:(,)W C 表示既不出现w 又不属于C 的文档。假设以上四种情况的文档子集中包含的文档数分布为下表: