Web文本分类中的几种阈值策略分析与比较

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

________________________________________________

作者简介:李晓黎(1979- ) 女 硕士研究生,研究领域:网上数据挖掘。 Web 文本分类中的几种阈值策略分析与比较 李子久

摘 要 本文主要针对中文网页,分析比较了文本分类中的关于类别阈值的几种策略,分别是: 位置截尾法(RCut )、比例截尾法(PCut )、最优截尾法(SCut )以及改进型截尾法(RTCut ),主要实验结果有: RTCut 的效果最佳;PCut 具有一定的复杂度,不适合在线文本处理;SCut 具有一定的不稳定性;而Rcut 性能最差, 并且使用英文文本和中文文本评测这几种阈值策略的结果是一致的。 关键词 文本分类 阈值 分类算法 特征选取 中图分类号 TP18 文献标识码 A

1. 引言

随着web 信息量的激增,人们需要自动的文本分类技术来实现对web 信息资源的规划及利用。目前,文本分类是信息检索和数据挖掘领域的热门话题,它通过训练一定的文本集合得到类别与未知文本的映射规则,即计算出文本与类别的相关度,再采取一定的阈值策略决定文本的类别归属。不同的分类算法以及阈值策略都会对分类的结果产生一定的影响。但是,目前文本分类的研究热点主要集中在KNN 、贝叶斯、支持向量机等分类算法上,人们往往忽视了分类中阈值策略的重要性。阈值的确定是文本分类中的一个重要的步骤,文献[1]提出了4种阈值策略:位置截尾法(RCut )、比例截尾法(PCut )、最优截尾法(SCut )以及改进型截尾法(RTCut ),并且针对英文文本比较了上述四种阈值策略的优劣。实验结果表明:RTCut 的效果最佳;PCut 具有一定的复杂度,不适合在线文本处理;SCut 具有一定的不稳定性;而Rcut 性能最差。

与英文网页不同的是,中文网页使用汉字,词与词之间没有间隔,不像英语单词之间存在空格符,所以需要在文本分类之前对中文文本进行切词处理,并且切词的准确与否将很大程度的影响分类的效果。所以,本文采用了一个中文网页数据集,对RTCut 、RCut 、PCut 、SCut 这四种阈值策略在中文网页上的性能进行评测。

2. 阈值策略

首先介绍一下文本分类中常用的阈值策略,然后依据分类器的性能,讨论一下各个策略的优劣。

2.1位置截尾法(RCut )

RCut 方法将文本与每个类别的相似度排序,然后将文本指定给前t 个类别。参数t 即可以由用户指定,也可以通过预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值。这种策略考虑到了分类器全局的性能,当t=1时,多用这种

方法来将文本指定到单一类别当中[2]

。 2.2比例截尾法(PCut )

PCut 通过将所有测试文本与某一类别的相似度按照由高到低的顺序排序,然后将前kj 个 文本确定为该类别,这里

m x c P k j j ⨯⨯=)( (1)

训练文本总数

的训练文本数量

类别j j c c P =

)( (2)

m 是类别数量,j c 代表类别j ,)(j c P 是类别j c 的先验概率,可以通过公式(2)计算得

到。

PCut 考虑到了全局的分类性能,主要以x 为参数,它的值可以通过分类的准确程度来调整,这种确定方法类似于RCut 中t 值的确定方法。目前,一些分类器,如:贝叶斯、DTree 、kNN 和LLSF 等方法采用了PCut 阈值策略[3]。 2.3最优截尾法(SCut )

SCut 针对某一类别,计算所有测试文本与该类别的相似度。根据最优化该类别分类器的性能来调整相应的阈值,然后将确定的阈值应用到新的待分类文本上。RCut 和PCut 阈值策略是平均所有分类器的性能,采用t 或x 作为参数;而SCut 只优化某一类别的性能,并不保证所有类别分类结果达到最优。SCut 多被用于Ripper 、FOIL 、Winnow 、EG 、kNN 、LLSF 和Rocchio

等分类算法[4]

2.4改进型截尾法(RTCut )

文献[1]中提出了一种新的阈值策略,即改进型截尾法,这种方法修改了RCut 和SCut 的不足,并将二者结合起来确定类别的阈值,使查全率和查准率达到一定的平衡。在RTCut 中,需要预先确定每个类的最优截尾阈值,新的阈值通过公式(3)计算: {}1

)|'(max )

|()|()|('++

=∈d c s d c s d c r d c f C c (3)

这里,d 是待分类文本,)|(d c r 是RCut 中类别c 的排列位置,)|(d c s 是类别c 的最优截尾阈值,而)|(d c f 是类别c 的新阈值。

3. 实验结果及其分析

3.1实验设置

为了系统的比较RCut 、PCut 、SCut 以及RTCut 这四种阈值策略,作者设计了一个中文网页分类系统,方案如下: (1)数据集

中文网页数据集是实现中文文本分类的前提和基础,为此,作者从中央财经网上人工获取了一个新闻网页语料库,通过中文文本分类器将各新闻信息分门别类,以用于在网上发布。该语料集包括5180个训练文本和615个测试文本,分为财政、经济、贸易、证券、科技5个大类,每个类别平均有1000个训练文本。 (2)数据抽取

利用netspider 获取目标网页以后,需要对Html 文件进行解析,按照一定的抽取规则抽取需要的数据项,系统中主要使用的抽取方法是将Html 文本转换为一棵具有层次结构的HTML 树,利用树结构来表示网页中的标记关系。 (3)特征选取

DF 即文本频度,它表示在训练集中包含某个特征项t 的文本数。这种衡量特征项重要程度的方法基于这样一个假设:DF 较小的特征项对分类结果的影响较小。这种方法优先取DF 较大的特征项,而DF 较小的特征项将被剔除。即特征项按照DF 值排序。DF 是最简单的特征项

相关文档
最新文档