文本分类中的特征提取和分类算法综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本分类中的特征提取和分类算法综述
摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。
采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。
关键字:文本分类特征选择分类算法
A Review For Feature Selection And Classification
Algorithm In Text Categorization
Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment.
kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed.
Keywords:Text categorization Feature selection Classification algorithm
)
|(log )|()()|(log )|()()(log )()(111t C p t C p t p t C p t C p t p C p C p t IG i m i i i m
i i i m i i ∑∑∑===++-=前言
互联网技术的高速发展引起了信息量的爆炸式增长,面对庞大的数据信息,如何在大规模的文本异构信息中准确、快速、全面地查找到个人所需的特定信息,已经成为了一项具有非常重要意义
的研究课题[1]
。
文本分类的主要功能就是对相关的文档集合进行类别的标签与分配,其主要依据是在文本训练过程中将那些已经被提前分配合理的作为类别标签的训练文档集和。作为自动信息管理的核心技术,人工智能与信息检索技术是文本自动分类的两大技术基础,在组织和管理海量文本信息技术领域中
文本分类是一种非常有效的技术手段[1]
。所以,对文本自动分类技术的深入研究有着非常重要的理论意义与实用价值。
目前通常采用向量空间模型来描述文本向量[2]
。然而,面对高维的文本特征,如果不进行降维处理,则会造成“维度灾难”,从而大大影响分类效果。特征降维是文本分类过程中的一个重要环节。特征提取和特征抽取是特征降维技术的两大类,相对于特征抽取方法,特征提取方法因其快速、简单、便捷的优点,在文本分类领域中得到广泛的应用。
选择合适的文本表示模型、特征降维方法和分类器算法对文本分类的速度和精度有着至关重要的影响。本文主要采用NewsGroups 语料库中的20news-18828数据源,使用kNN 和Native Bayes 分类算法对验证几种已有的经典特征选择方法,并将其分类结果进行比较,揭示特征提取算法对分类性能的影响。
1、几种经典的特征提取方法
1.1 文档频率(DF )
文档频率是指在训练文档集中某词条出现过的文档总数[3]
。文档频率特征提取方法的基本思想是:首先根据具体情况设定最小和最大的文档频率阈值,接着计算每个特征词的文档频率。如果该特征词的文档频率大于已设定的最大文档频率阈值或小于最小的文档频率阈值,则删除该特征词,否则保留。
N
n t DF t
=
)( (式1-1) 其中,t n 表示词条t 在文档中出现的次数,N 表示文本的总词汇数。 DF 是一种最简单的词约简技术,常用于大规模的语料特征选择中。但其缺点是如果某一稀有
词条主要出现在某类训练集中,能够很好地反应该类别的特征,但因低于某个设定的阈值而直接滤除掉,因此就可能影响文本分类器的分类精度。
1.2 信息增益(IG )
在文本分类系统中,信息增益算法通过统计某一个特征词t 在文本类别中是否出现的文档频数来计算该特征项t 对于文本类别i c 的信息增益。该算法考虑了特征t 在文档中出现前后的信息熵之差,
公式定义为[3]
:
(式1-2)