文本分类综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2014 ---- 2015 学年第 2 学期)

学院(中心、所):计算机与信息技术学院专业名称:计算机应用技术

课程名称:自然语言处理技术论文题目:文本分类综述

授课教师(职称):

研究生姓名:

年级:

学号:

成绩:

评阅日期:

山西大学研究生学院

2015年 6 月2日

文本分类综述

摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。

关键词文本分类;特征选择;分类器;中文信息处理

1.引言

上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。

利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。

2.文本分类技术的发展历史及现状

2.1文本分类技术发展历史

国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检索上的应用。还有Salton提出利用向量空间模型(Vector Space Model,VSM)对文本进行描述等等。

20世纪80年代,这一阶段主要采用传统的知识工程技术,根据专家提供的知识形成规则,手工建立分类器。这一段时期,信息检索技术逐渐成熟,为文本分类提供了许多技术支持,比如1962年H.Borko等人提出了利用因子分析法进行文献的自动分类。Rocchio在1972年提出了再用户查询中不断通过用户反馈来修正类权重向量,来构成简单的线性分类器,还有Van RiJsbergen提出了信息检索的评估标准如准确率,查全率等。

20世纪90年代后进入第三阶段,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。比如1992年,Lewis 在他的博士论文《Representation and Learning in Information Retrieval》中系统的介绍了文本分类系统实现方法的各个细节,并且在自己建立的数据集上进行了测试。这篇博士论文是文本分类领域的经典之作。后来的研究者在特征的降维和分类器的设计方面做了大量的工作。Yang Yiming对各种特征选择算法进行了分析比较,讨论了文档频率(Document Frequency,DF)、信息增益(Informatiob Gain,IG)、互信息(Multi-information,MI)和CHI 等方法,结合KNN分类器,得出IG和CHI方法分类效果相对较好的结论,对后来的研究起到了重要的参考作用。新加坡的Hwee Tou NG等人研究了用Perceptron Learning的方法进行文本分类,使用了一直树状的分类结构,大大提高了准确率。

1995年,Vipink基于统计理论提出了支持向量机SVM(Support Vector Machine)方法,基本思想是想找到最优的高维分类超平面。后来有人将线性核函数的支持向量机应用与文本分类,与传统的算法比较在性能上得到了很大的提高,后来也提出了AdaBoost算法框架,比较有代表性的有 Real AdaBoost,Gentle Boost,LogitBoost等。这些 Boosting 算法均己被应用到文本分类的研究中,并且取得和支持矢量机一样好的效果。

2.2文本分类国内外发展现状

国外在自动文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。八十年代,自动文本分类以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机自动文本分类的依据。进入九十年代,基于统计的自动文本分类方法日益受到重视,它在准确率和稳定性方面具有明显的优势。到目前为止,国外的文本自动分类研究已经从最初的可行性基础研究经历了实验性研究进入实用的阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用。

国外当前流行的文本分类算法有Rocchio法及其变异算法、k近邻法(KNN)、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)等方法,这些方法在英文以及欧美语种的文本分类上有广泛的研究,并且KNN和SVm确实是英文分类的最好方法。国外对英文文本分类领域的各个问题都有相当深入的研究,对几种流行的方法进行了大量的对比研究。

相关文档
最新文档