文本分类概述教学教材

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本分类概述

第一章绪论

1.1研究背景

当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。

据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖端科技文献的增长则更快,约2-3年翻一番。

同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的

159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。

从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。

如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本数据的关键技术,受到了广泛的关注。

1.2文本分类的定义

1.2.1文本分类的定义

文本分类是指依据文本语义内容将未知类别的文本归类到已知类别体系中的过程。文本分类有多个英文名称,如Text Categorization [5]、Text

Classification [6]、Document Categorization [7]、Document Classification [8]以及Topic Spotting [9]等,现在比较常用的为Text Categorization (TC)。文本分类的形式化定义如下,假设有一个文本集合D = {d 1,…,d |D |}和一个预先定义的类别集合

C = {c 1,…,c |C |},二者之间的真实关系可由以下函数表示[5]:

⎪⎭

⎪⎬⎫⎪⎩⎪⎨⎧∉∈=Φ→⨯Φj i j i j i j i c d if F c d if T c d c d F T C D ,,),(),(}

,{:α (1-1) 于是,自动文本分类问题可以转化为找到函数Φ的近似表示Φ(:

⎪⎭

⎪⎬⎫⎪⎩⎪⎨⎧∉∈=Φ→⨯Φj i j i j i j i c d if F c d if T c d c d F T C D ,,),(),(}

,{:(α( (1-2) 使得Φ(尽量逼近未知的真实函数Φ。此处的函数Φ(称为文本分类器,力求真实反映文档和类别的关系,以便尽可能对未知类别的文本进行正确分类。

文本分类根据分类算法的不同,可以分为两类分类算法和多类分类算法。所谓两类分类算法是指算法本质上只能进行两类分类,即只能判别文档属于两类中的某一类,如支持向量机算法;而多类分类算法是指算法可以同时对多个类别进行操作,即同时判别文档属于多类中的某一类或某几类,如KNN 算法。两类分类算法应用于多类分类问题时,通常需要将一个多类分类问题转化为若干个两类分类问题来解决。具体转化方法将在本文第二章详细论述。

另外,文本分类根据文档所属类别是否单一还可以分为单标号分类(Single-label Text Categorization)问题和多标号分类(Multilabel Text Categorization)问题。所谓单标号分类指文档的类别体系没有重合,一篇文档属于且只属于一个类别,而多标号分类是指文档的类别体系有重合,一篇文档可以属于多个不同的类别。

1.2.2自动文本分类过程

现代自动文本分类技术涉及到人工智能、机器学习、模式识别和统计理论等多个学科,自动文本分类的过程实际上也是机器学习和模式识别的过程。图1-1为基本的分类过程。

图1-1自动文本分类模型

如其他机器学习问题一样,文本分类也包括训练和测试两个模块。训练模块由预处理、文本表示、特征选择(Feature Selection)、分类器(Classifier)和性能评价五个部分组成:

1. 预处理

负责对训练集中的文本进行去除停用词、词干化(Stemming)、分词、统计等操作,并对文本进行去噪处理。此处对中英文分别采取不同的处理,英文使用空格进行分词[1,10],而中文则需要根据语义进行分词[11-15]或采用N-gram 法进行分词[16,17]。

2. 文本表示

把文本表示成分类算法可以识别的形式。最常用的统计模型是由Salton 等人提出的向量空间模型[18],在此模型中,文档d j 被表示成向量的形式,>=

3. 特征降维

相关文档
最新文档