自动文本分类

自动文本分类
自动文本分类

摘要

九十年代以来,Internet 以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。

自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。

在本设计中,我们实现了一个基于支持向量机(SVM)的网页分类器,使用LTC权重作为特征项的权重表示,利用SVM的方法进行分类;并结合Unigram模型进行特征提取,实验证明,该方法提高了分类的准确率。

关键词 自然语言理解 向量空间模型 支持向量机 文本分类

Unigram模型

- 1 -

Abstract

Since 1990s, Internet developed vapidly. There’re large amounts of information of any field, including text information, sound information, image information and so on. In recent years, how to find the most efficient information from the plentiful and disordered texts has become a target of information processing field. The Text Categorization System based on AI technique can automatically classify the texts according to their senses, thus help people control the information. Text Categorization has gradually been combined with other information processing techniques such as searching engine, information pushing, and information filter, in this way, the quality of information service has been effectively improved.

Automatically Text Categorization is the problem of categorizing natural language texts according to given topics, which is a very important problem in natural language processing. Text Categorization can be applied in the task of information retrieval, machine translation, automatic summarization, information filter, e-mail filter and so on. The main problem of Text Categorization is how to select the features (words) and assign the weighting of them.

In my work, I implemented a Chinese Web Page Classifier based on Support Vector Machine (SVM). The classifier uses LTC weighting as the representation of the features and uses SVM algorithm to categorize. Furthermore, I had combined the Unigram Model for feature selection, experimental results showed that this method can improve the categorization accuracy.

Keywords Natural Language Processing, Vector Space Model, Support Vector Machine, Text Categorization, Text Classification,

Unigram Model

- 2 -

目录

毕业设计(论文)评语......................................................错误!未定义书签。毕业设计(论文)任务书..................................................错误!未定义书签。摘要.. (1)

Abstract (2)

第1章绪论 (5)

1.1 课题背景 (5)

1.2 相关工作介绍 (6)

1.3 研究内容和实验结论 (7)

1.4 本文的内容结构 (7)

第2章文本分类及向量空间模型 (8)

2.1 文本分类 (8)

2.1.1 系统任务 (8)

2.1.2 文本的表示 (8)

2.1.3 特征项的抽取 (11)

2.1.4 分类流程 (13)

2.1.5 评价方法 (13)

2.2 向量空间模型 (14)

2.2.1 最小距离分类器 (14)

2.2.2 K最近邻分类器 (15)

2.2.3 基本Bayes分类器 (16)

2.2.4 支持向量机分类器 (17)

2.3 本章小节 (19)

第3章问题理解 (20)

3.1 网页分类器的任务 (20)

3.2 网页的结构特征 (21)

3.3 网页在系统中的表示 (26)

3.4 本章小节 (27)

第4章中文网页分类器的实现 (28)

4.1 网页的预处理 (28)

- 3 -

4.1.1 内容过滤 (28)

4.1.2 分词 (28)

4.1.3 去掉停用词 (28)

4.2 降维 (29)

4.3 特征表示(权重) (30)

4.4 本章小节 (31)

第5章实验结果与分析 (32)

5.1 训练集与测试集的建立 (32)

5.1.1 实验1 (32)

5.1.2 实验2 (32)

5.1.3 实验3 (32)

5.2 实验结果与分析 (33)

5.3 改进的实验结果 (34)

5.4 本章小节 (35)

结论 (35)

致谢 (35)

参考文献 (36)

附录1(翻译) (36)

附录2(原文) (43)

附录3 (51)

- 4 -

第1章绪论

1.1课题背景

分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。在科学技术、工农业生产以及工商业领域,分类都起着至关重要的作用。例如人类基因序列的识别、电子商务、图书的分类、动植物的分类等等。尤其是随着计算机技术的飞速发展,分类技术也呈现出了日新月异的景象。我们现在可以利用计算机,自动的或者辅以少量的人工帮助,对大量的数据进行快速、准确的分类,我们称这种自动(半自动)的分类方法为分类器。人们经过多年研究和试验,针对不同的问题和目的构造出了各种各样的分类器。在计算机应用领域,分类器被大量的应用于图像、语音、语言处理等各个方向。尤其是自然语言处理中的绝大多数问题,都可以归结为分类问题,如文本分类[1](将多个文本按照其内容进行分类)、词义消歧(将多意词分到正确的词义类中)、自动分词和词性标注(按照词的边界分类,并将其分成不同的词性)等等。

文本的人工分类从很早以前就已经开始。例如,图书馆的工作人员按照一定的分类体系将各种图书按照内容分到不同的类别中。人工分类需要大量工作,并且要求分类人员具有较多经验和专门知识。然而,分类质量有时得不到保证,周期长,费用高,效率低,不易满足实际需要。因此,在人工分类文本中存在大量问题,主要体现在精确度和代价上。

近年来,随着Internet的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的文本库不断涌现,有些已经达到T级。如何在海量文本库中搜寻、过滤、管理这些文本成为一个亟待解决的问题。 基于人工智能技术的文本自动分类技术应运而生。所谓的文本分类,即是对所给出的文本,给出预定义的一个或多个类别标号。对文本进行准确、高效的分类是许多数据管理任务的重要组成部分。对文本、电子邮件的内容实时辨识和过滤并据此将其放置到相应的文件夹下,进行类别标识以便后续进行与类别相关的处理。结构化的搜索和浏览,提供个性化的服务等方面,均在一定程度上依赖于准确的文本分类技术。

- 5 -

按文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动分类和基于信息过滤和用户兴趣(Profiles)的自动分类。基于分类体系的分类一般要经过特征提取、文本表示、分类模型训练和分类几个步骤。基于信息过滤(Information Filtering)的自动分类的目的是为用户自动过滤掉那些用户所不感兴趣的信息。网上信息众多,人们没有必要而且也没有足够的时间和精力去阅读所有的信息,因此,越来越多的用户只希望看到自己感兴趣的信息,这也使得进行网上的文本进行分类显得越来越重要。

1.2相关工作介绍

目前常用的文本分类器有最小距离分类器,K-最近邻分类器, Na?ve Bayes分类器和支持向量机分类器等。最小距离分类器是基于向量空间模型和最小距离的方法,其优点是简单,快速,它对于那些类间距离大、类内距离小的类别分布比较有效,而对于不能满足这种条件的类别分布效果就比较差。k-最近邻分类器,顾名思义,是考察与待分类文本最相似的k篇文本,根据这k 篇文本的类别来判断待分类文本的类别的分类器,相似值的判断可以使用欧拉距离,或者余弦相似度等。最相似的k篇文本按其和待分类文本的相似度高低对类别值予以加权平均,从而预测待分类文本的类别,k-最近邻分类器的分类效果与k值的选取有很大关系,而且实时性不够良好。Na?ve Bayes分类器利用类别的先验概率和词的分布对于类别的条件概率来计算未知文本属于某一类别的概率,在实际应用中可以得到比较好的效果。

中科院计算所已完成了几个演示系统(可在https://www.360docs.net/doc/c14431351.html,/class/测试),其中有,

1.聚类粒度原理分类器

本系统采用基于聚类粒度原理的VSM分类方法,以聚类指导分类;

测试文档都是新闻稿,按照中图分类法分成38大类,结合聚类结

果形成1532个子类;分类正确率:封闭测试为99.8%,开放测试为

85.12%。

2.LSI聚类粒度原理分类器

本系统采用基于LSI和聚类粒度原理的VSM分类方法,在LSI空间

以聚类指导分类;所有测试文档都是新闻稿,按照中图分类法分成

38大类;测试文档向量经LSI转换后,结合聚类结果形成1074个

子类;分类正确率:封闭测试为99.7%,开放测试为84.0%。

- 6 -

3.LSI分类器

本系统采用基于LSI的VSM分类方法,在LSI空间进行分类;所有

测试文档都是新闻稿,按照中图分类法分成38大类,转换到LSI

空间;分类正确率:封闭测试为85%,开放测试为82%。

4.距离中心法

本系统采用复旦大学黄萱菁的距离中心分类方法,基于VSM模型;

测试文档都是新闻稿,按照中图分类法分成38大类,每类一个中心;

分类正确率:封闭测试为83.93%,开放测试为79.8%。

5.K-NN分类器

本系统采用基于K最近邻原理的VSM分类方法;所有测试文档为复

旦新闻语料集,按照中图分类法分成38大类,分类正确率:封闭测

试为90%,开放测试为84%。

1.3研究内容和实验结论

本文主要完成了在本科毕业设计阶段完成的以下工作:

1.回顾了当今已存在的文本分类系统,了解他们的工作原理和性

能。

2.详细介绍了一个基于支持向量机(SVMs)的中网页分类器的原理

及其实现。

3.使用真实网页进行实验,并对得到的实验结果进行比较和分析。

4.进行分析之后,在原有分类系统中引入Unigram模型,优化特征提

取,提高分类的准确率。

1.4本文的内容结构

本文第二章简要介绍文本分类和向量空间模型的知识;第三章介绍针对网页这一种类的文本的处理方法;第四章详细介绍了中文网页分类器的具体实现步骤;第五章为实验结果及分析;接下来,对论文工作进行了总结。

- 7 -

第2章文本分类及向量空间模型

2.1文本分类

2.1.1系统任务

简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:

:,其中,A为代分类的文本集合,B为分类系统中的类别B

?

A

f?→

集合;

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。

2.1.2文本的表示

人在阅读文章后,根据自身的理解能力和已掌握的知识可以产生对文章内容的模糊认识。计算机并不具有人类这样的的智能,因而它并不能轻易地“读懂”文章。因此文本自动分类遇到的基本问题是如何对文本按照计算机可以“理解”的方式进行有效的表示,从而在这个表示的基础上进行分类。当前文本分类中主要应用的模型是文本的向量空间模型(Vector Space Model,VSM)。

向量空间模型的基本思想是以文本的特征向量来表示文本,其中Wi为第 i 个特征项的权重。因此基于向量空间模型的分类中关键一步就是如何从文本中提取反映类别的有效特征。一般可以选择字、词或词组作为文本的特征,根据实验结果,普遍认为选取词作为特征项要优于字和词组。对于汉语文本,就首先要将文本分词,由这些词作为向量的项来表示文本。

在向量空间模型中,文档集合是使用词-文档矩阵A来表示的,其中每一项表示一个词在某个文档中出现的情况:

A = (a ij) (2-1)

- 8 -

- 9 -

这里a ij 表示词i 在文档k 中的权重(weight ),因为词不是均匀分布在各个文档中的,所以A 通常为稀疏矩阵(sparse matrix )。矩阵的行数,M ,表示在文档中出现的词的个数。M 可能非常大,所以文本分类问题的一个主要特征,也是困难所在就是特征空间的维数过大。在第四章的4.3部分我们还要介绍降维的方法。

有几种方法可以用于确定a ij ,但是多数方法都是基于以下两点经验: z 如果一个词在某个文档中出现的次数越多,那么它与该文档主体的

关联性越强;

z 如果一个词在集合中很多文档中都出现多次,那么它对分类的贡献

就小。

令f ij 表示词i 在文档k 中出现的频率,N 为集合中文档的总数,M 为经过预处理(将在4.1部分介绍)后保留的词的个数,n i 为词i 在文档集合中出现的总次数,下面介绍几种计算权重的方法:

布尔权重(Boolean weighting )

这是一种最简单的方法:如果该词在文档中出现,其权重就为1;否则为0:

a ik = ???01 if f ik > 0 then a ik = 1 else a ik = 0 (2-2)

词频权重(Word frequency weighting )

另一种简单的方法就是使用词频作为权重:

a ik = f ik (2-3)

tf ×idf 权重(tf ×idf weighting )

以上两种方法都没有考虑到词在全局(整个文档集合)的作用。另一种比较常用的计算权重的方法是tf ×idf 权重:

log(

*i ik ik n N f a = (2-4) tfc 权重(tfc-weighting )

tf ×idf 权重没有考虑到集合中的文档长度的问题,tfc 权重与tf ×idf 权重十分相似,但是它将长度归一化因子作为计算词权重的因素:

- 10 -

21)]log(

*[)log(

*∑==

M j j jk i ik ik n N f n N f a (2-5) ltc 权重(ltc-weighting )

ltc 权重稍有不同,它没有简单的取用词频,而使用了词频的对数,因此减少了词频上的差异构成的影响:

21)]

log()0.1[log()log(*)0.1log(∑=++=M j j

jk i ik ik n N f n N f a (2-6) 熵权重(Entropy weighting )

熵权重是基于信息理论思想,并且是最经典的权重衡量方法,词i 在文档k 中的权重按如下公式计算:

???????

?++=∑=N j i ij i ij ik ik n f n f N f a 1log([)log(11*)0.1log( (2-7) 式中 ∑=N j i

ij i ij n f n f N 1log([)log(1——词i 的平均熵(不确定度); 如果词i 平均分布在所有的文档中,它的值为-1;如果词i 只在一个文档中出现,它的值则为0。

在我们的设计中,使用了ltc 权重来表示文本。文本经过分词程序分词后,首先去除停用词,合并数字和人名等词汇,然后统计词频,计算特征的权重,最终表示为文本向量。如下所示为训练中得到的一个索引文件的部分,每一行表示一个文档,该矩阵为一稀疏矩阵,为了节省开销,省略了权值为零的特征号:

2 101:0.105409 111:0.17421 117:0.214551 132:0.0927988……

2 96:0.273522 355:0.382916 991:0.418609 1021:0.537412 ……

2 96:0.208432 116:0.216286 188:0.348911 198:0.125755……

……

2 96:0.259482 116:0.269259 341:0.280068 357:0.280068……

1 84:0.599318 1151:0.53069

2 1259:0.599318……

1

1 51:0.713878 170:0.558597 619:0.29474 1223:0.26099……

……

图2-1 文本向量表示

图2-1中,每行的第一个单元(如“2”)表示该文档所属的类别号,冒号前为特征项的编号,冒号后为相应特征的权值。(因为特征空间中的特征项数目很大,这里列出的只是其中很少的一部分。)从图中第7行可以看出,有的文档在降维之后已经不包含任何特征项,这种文档的类别特征不强烈,是分类中引起误差的因素,也是需要特殊注意的。

2.1.3特征项的抽取

构成文本的词汇数量是相当大的,因此,表示文本的向量空间的维数也相当大,可以达到几万维,因此我们需要进行维数压缩(降维)的工作,这样做的目的主要有两个,第一,为了提高程序的效率,提高运行速度;第二,所有几万个词汇对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的词汇对分类的贡献小,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,对于每一类,我们应去除那些表现力不强的词汇,筛选出针对该类的特征项集合。在文本分类中对向量空间模型中的向量降维,以及对文本向量权值的调整通常是通过在训练数据集上的统计来计算每一维的某种特征值,根据指标值的高低决定是否保留相应的字或词,或者对对应维的权值进行加权,从而实现特征选择和提取。存在多种筛选特征项的算法,如根据词和类别的互信息量判断,根据词

χ统计判断等。我们熵判断,根据KL距离判断,利用信息增益判断,利用2

仅简单介绍一下基于互信息的特征提取方法以及信息增益法。

互信息衡量的是某个词和类别之间的统计独立关系,考虑某个词t和某个类别c,互信息定义如下:

- 11 -

- 12 -

)

()()(log ),(c p t p c t p c t I ×∧= (2-8) 式中 )(c t p ∧——t 和c 的同现概率;

)(t p ——t 出现的概率;

)(c p ——c 出现的概率;

从概率上说,如果某个词和某一类别在分布上统计独立,那么)()()(c p t p c t p ×=∧,从而有),(c t I 为0,也就是说词t 的出现对于预测类别c 没有什么信息量。在实际计算中,这些概率可以用训练集中相应的出现频率予以近似。定义t 和c 在训练集中的同现频率为A ,N 为训练集中文本的数目,B 为t 在训练集中出现的文本频数,C 为c 在训练集中出现的文本频数,那么互信息),(c t I 可以近似为

C

B N A c t I ××=log ),( (2-9) 在一个包含m 个类别的集合上词t 的互信息值可定义如下:

∑==m

i i i r avg c t I c P t I 1),()()( (2-10)

或者

),(max )(1max i m

i c t I t I == (2-11) 信息增益(我们所采用的)需要已知某个词在文档中是否出现及出现的情况,从而得到预测分类的信息。我们用C 1, C 2, …, C k 表示已知的K 个类别,对每个词ω,通过以下公式求出其IG 值,

∑∑∑===++?=K

j j j K j K j j j j j C P C P P C P C P P C P C P IG 111)

|(log )|()()

|(log )|()()(log )()(???ωωωω (2-12)

式中 P(C j )—— 属于C j 类的文档个数占文档总数的比重;

P(ω)—— 出现过词ω的文档个数占文本总数的比重;

P(C j |ω)——C j 类中包含词ω的文档个数占C j 类中的文档总数的比重;

P(C j |?)——C j 类中不包含词ω的文档个数占C j 类中的文档总数的比重。

我们通过计算得到每个词的IG值,再选取适当的阈值,只保留IG值大于此阈值的词作为向量空间的特征项,以达到降维的目的。

在我们的实验中,使用的就是上面提到的信息增益方法。

2.1.4分类流程

现在我们已经了解了文本分类的几个关键步骤,在实际分类时,首先将文本表示成以某种形式的元素(通常用词)表示的向量,然后按某种方法进行特征提取,将特征用权值表示。这样就可以对元素-权值表示的文档向量进行训练,得到向量模型。分类时,也将带分类文档表示成元素-权值文档向量,并与训练得到的向量模型进行比较(我们使用的是SVM算法),最终判断其类别。通用的文本分类流程如下图所示:

图2-2 分类流程描述

2.1.5评价方法

因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素),与人工分类结果越相近,分类的准确程度就越高,这里隐含了评估文本分类系统的两个指标:准确率和查全率。

准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:

- 13 -

- 14 - 实际分类的文本数分类的正确文本数准确率=

)(precision (2-13) 查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,

其数学公式表示如下: 应有文本数分类的正确文本数

查全率=

)(recall (2-14) 准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,

不可偏废,因此,存在一种新的评估指标,F1 测试值,其数学公式如下: 查全率准确率查全率准确率测试值+××=2

1F (2-15)

另外有微平均和宏平均两种计算准确率、查全率和 F1 值的方法。 微平均:计算每一类的准确率、查全率和 F1 值。

宏平均:计算全部类的准确率、查全率和 F1 值。

所有文本分类系统的目标都是使文本分类过程更准确,更快速。

2.2 向量空间模型

和在其他研究领域所使用的分类器相同,用于文本分类的分类器其目的也是实现从特征空间到类别空间的映射。在文本分类领域,一个比较明显的特点是待分类样本维数高,类别可能比较多,而且噪声大。所以分类器的设计必须要充分考虑到这些特点,以达到较好效果。目前常用文本分类器有:最小距离的分类器,Bayes 分类器,K 近邻分类器,支持向量机(SVM)分类器等。下面对这些分类器做以扼要介绍。

2.2.1 最小距离分类器

这种方法基于向量空间模型和最小距离方法,其优点是简单,计算迅速。计算步骤是:将文本表示为向量空间中的高维向量,按照训练集中正例的向量赋予正权值,反例的向量赋予负权值,相加平均以计算每一类别的中心。对于属于测试集的文本,计算它到每一个类别中心的相似度,将此文本归类于与其相似度最大的类别。由其计算过程可见,如果对那些类间距离比较大而类内距离比较小的类别分布情况,最小距离分类器能达到较好的分类精度,而对于那些达不到这种“良好分布”的类别分布情况,最小距离分类器方法效果比较差。由于其计算简单、迅速,所以这种方法经常被用于和其他

- 15 -

分类方法比较的标准。这个分类以及评价过程可以表示如下:

(1)求取类中心,对于第C i 类,其类中心向量Center i 的计算公式为: ∑==i N j ij i

i Doc N Center 11 (2-16)

其中,

是第

类中文本的数目,而

是类别为的第j 个文本向量。

(2)对待分类文本

进行分类,其类标签按照下式计算: (2-17) 其中,相似度S i m 的计算通常采用余弦相似度,即两个向量的点积除以两个向量长度的乘积。

(2-18)

具体的实现步骤如下: 第一步,计算每类文本集的中心向量,计算方法为所有训练文本的向量算术平均;

第二步,新文本到来后,分词,将文本表示为特征向量;

第三步,计算新文本特征向量和每类中心向量间的相似度;

第四步,比较每类中心向量与新文本的相似度,将文本分到相似度最大的那个类别中。

2.2.2 K 最近邻分类器

直观地理解,所谓的k 近邻,就是考察和待分类文本最相似的k 篇文本,根据这k 篇文本的类别来判断待分类文本的类别值。相似值的判断可以使用欧拉距离,或是余弦相似度等。而最相似的k 篇文本按其和待分类文本的相似度高低对类别值予以加权平均,从而预测待分类文本的类别值。在k 近邻分类器中,一个重要的参数是k 值的选择,k 值选择过小,不能充分体现待分类文本的特点,而如果k 值选择过大,则一些和待分类文本实际上并不相似的文本亦被包含进来,

造成噪声增加而导致分类效果的降低。利用的K 近邻分类器进行分类,文本向量

χ属于类别的权值

由下式计

算,权值越高,认为文本向量χ属于类别的概率越高:

(2-19)式中S——公式(2-19)中定义的向量之间的余弦相似度;

——训练集中和χ余弦相似度最大的K个文本向量;

当属于类别时为1

,否则为0。

由上述过程可见,k近邻法其实并没有离线训练阶段,所有的计算都是在线的。所以这种方法实时性不好,计算的时间复杂性是O(L*N),其中L 是待分类文本向量中非

0的分量个数,而N是训练集的文本数目。

具体算法步骤如下:

第一步,根据特征项集合重新描述训练文本向量;

第二步,在新文本到达后,根据特征词分词新文本,确定新文本的向量表示;

第三步,在训练文本集中选出与新文本最相似的K个文本;

第四步,在新文本的K个邻居中,依次计算每类的权重;

第五步,比较类的权重,将文本分到权重最大的那个类中。

2.2.3基本

Bayes分类器

Bayes分类器是常用于文本分类领域的概率分类器,它利用类别的先验概率和词的分布对于类别的条件概率来计算未知文本属于某一类别的概率。在假设文本中词的分布相互独立,即忽略上下文的Unigram

模型中,贝叶斯分类器用数学形式来表示,即是

(2-20)

式中——某一类别;

——未知类别文本;

——中出现的单词;

——在中出现的次数。

和可以从训练集中估计。

对于不同的类别,上式的分母不变,故只要选择使得分子最大的类别,即认为是待分类文本的类别。Unigram假设在实际文本中显然是不成立的,但是在实际应用的时候Bayes分类器一般都能取得相对较好的结果。

- 16 -

- 17 -

具体的算法步骤如下:

第一步,计算特征词属于每个类别的几率向量,其中, ∑∑∑===++==||1||1||1),(||)

,(1)|(V s D i i s D i i k j k k d W N V d W N C W P ω (2-21)

第二步,在新文本到达时,根据特征词分词,然后按下面的公式计算该文本d i 属于C j 的几率:

∑∏∏====

||11),(^^1),(^

^^);|()|();|()|();|(C r n k d W N r k r n k d W N j k j i j i k i k C W P C P C W P C P d C P θθθθθ (2-22) 式中 总训练文档数训练文档数

j j C C P =)|(^θ,为相似含义;

|C|——类的总数;

N(W k ,d i )——W k 在d i 中的词频;

n ——特征总数。

第三步,比较新文本属于所有类的几率,将文本分到几率最大的那个类别中。

2.2.4 支持向量机分类器

支持向量机(SVM)近年来受到了广泛的关注,它在多种分类问题表现出了优异的推广性能,其基本思想是基于统计学习理论的结构风险最小化。如果给出两类线性可分样本,在给出线性分类面的时候,人们直观的趋向于将分类面取在离两类的样本点都距离较远的地方,因为感觉上这种做法比较保险。Vapnik 从数学理论上给出了这种做法的理论依据,并推导出了这种方法风险性能的衡量,以及一整套求解的步骤。目前这一套理论还有较多值得继续发展和推敲的地方。

在线性可分的情况下,可以假设线性分类面的形式为:

(2-23) 将判别函数归一化,使得两类所有样本都满足

(2-24) 即

(2-25) 其中,,是样本的类别标记;是相应的样本。也就是使得离分

类面最近的样本成立,这样样本的分类间隔就等于。设计的目标就是要使得这个间隔值最小。据此可以定义Lagrange 函数:

(2-26)

式中 为Lagrange 乘数,对和b 求偏微分并令其为0,原问题转换成为如下对偶问题:在约束条件

(2-27)

下对求解下列函数的最大值:

(2-28) 如果

为最优解,那么 (2-29)

对于线性不可分的情况,可以引入松弛因子,在求最优解的限制条件中加入对松弛因子的惩罚函数。完整的支持向量机还包括通过核函数的非线性变换将输入空间变换到一个高维空间,然后在高维空间中求取线性分类面。常见的核函数包括多项式核函数、径向基函数,Sigmoid 函数等。值得指出的是,最终判别函数只包括与支持向量的内积的求和,所以识别时计算复杂性只取决于支持向量的个数。

由于具有较好的泛化性能,支持向量机被用于多个模式识别领域。在文本分类方面亦有多种研究试验结果。在多个实验结果中,SVM 均取得了较原有多种分类方法更高的分类精度。

支持向量机的基本思想是使用简单的线性分类器划分样本空间,对于在当前特征空间中线性不可分得情形,则使用一个核函数把样本映射到一个高维空间中,使得样本在这个高维空间中线性可分。

- 19 -

图2-3 线性不可分情形到高维特征空间的映射

实验证明,支持向量机在多类文本分类中是比较有效和常用的方法,它将分类和降维二者结合起来,将多类文本分类作为若干2元文本分类的过程序列来处理。假设经过降维后保留的特征项为T 1,T 2,……T n ,用这些特征项构成向量空间,其维数就是特征项的总数n 。支持向量机试图在n-维空间中找到一个这样的超平面,它可以线性区分训练集中的样本向量,并保证最小错误。

2.3 本章小节

本章介绍了文本分类的任务,文本的表示,如何抽取特征项,以及文本分类的评价方法。当前文本分类中主要应用的模型是文本的向量空间模型

(Vector Space Model ,VSM )

,所以,我们对几种常用的分类器,如最小距离分类器,k 最近邻分类器等进行了介绍。下一章我们将介绍如何将文本分类技术用于网页这一特殊文本。

第3章问题理解

3.1网页分类器的任务

同文本分类十分相似,网页分类系统的任务,就是在给定的分类体系下,根据网页内容自动确定它所应该归属的类别。从数学的角度来看,网页分类就是根据一定规则将未知类别的网页映射到已有的类别的过程,我们的任务就是根据每个类别中的训练样本,总结提取映射规则。当遇到新的网页时,根据我们总结出来的规则来确定其所属类别。

根据网页自身的特点(网页的内部包括很多样式标签(tag),图形链接和超链接等,它们对分类效果有较大的影响),在对其进行训练和分类之前,需要进行一系列的预处理,最终将网页分类问题化简为文本分类问题。上文已经提到,目前常用的文本分类器有最小距离分类器,K-最近邻分类器,Na?ve Bayes分类器和支持向量机分类器等。最小距离分类器基于向量空间模型和最小距离的方法,其优点是简单,快速,它对于那些类间距离大、类内距离小的类别分布比较有效,而对于不能满足这种条件的类别分布效果就比较差。K-最近邻分类器,顾名思义,是考察与待分类文本最相似的k篇文本,根据这k 篇文本的类别来判断待分类文本的类别的分类器,相似值的判断可以使用欧拉距离,或者余弦相似度等。最相似的k篇文本按其和待分类文本的相似度高低对类别值予以加权平均,从而预测待分类文本的类别,K-最近邻分类器的分类效果与k值的选取有很大关系,而且实时性不够良好。Na?ve Bayes分类器利用类别的先验概率和词的分布对于类别的条件概率来计算未知文本属于某一类别的概率,在实际应用中可以得到比较好的效果。支持向量机(SVM)的基本思想是基于统计学习理论的结构风险最小化,由于支持向量机具有较好的泛化性能,它被用于多个模式识别领域,在文本分类方面亦有多种研究试验结果。在多个实验结果中,支持向量机均取得了较原有多种分类方法更高的分类精度。本文所描述的分类器正是基于支持向量机实现的。

我们使用https://www.360docs.net/doc/c14431351.html,.tw/~cjlin/libsvm/所提供的libsvm-2.36程序包,对系统进行最终的训练和测试。网页分类与文本分类略有不同,在进行分类工作之前,需要对网页进行预处理,建立网页的向量

- 20 -

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本分类入门(五)训练Part 2

将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。 再重复一次,所谓样本,也叫训练数据,是由人工进行分类处理过的文档集合,计算机认为这些数据的分类是绝对正确的,可以信赖的(但某些方法也有针对训练数据可能有错误而应对的措施)。接下来的一步便是由计算机来观察这些训练数据的特点,来猜测一个可能的分类规则(这个分类规则也可以叫做分类器,在机器学习的理论著作中也叫做一个“假设”,因为毕竟是对真实分类规则的一个猜测),一旦这个分类满足一些条件,我们就认为这个分类规则大致正确并且足够好了,便成为训练阶段的最终产品——分类器!再遇到新的,计算机没有见过的文档时,便使用这个分类器来判断新文档的类别。 举一个现实中的例子,人们评价一辆车是否是“好车”的时候,可以看作一个分类问题。我们也可以把一辆车的所有特征提取出来转化为向量形式。在这个问题中词典向量可以为: D=(价格,最高时速,外观得分,性价比,稀有程度) 则一辆保时捷的向量表示就可以写成 vp=(200万,320,9.5,3,9) 而一辆丰田花冠则可以写成 vt=(15万,220,6.0,8,3) 找不同的人来评价哪辆车算好车,很可能会得出不同的结论。务实的人认为性价比才是评判的指标,他会认为丰田花冠是好车而保时捷不是;喜欢奢华的有钱人可能以稀有程度来评判,得出相反的结论;喜欢综合考量的人很可能把各项指标都加权考虑之后才下结论。

可见,对同一个分类问题,用同样的表示形式(同样的文档模型),但因为关注数据不同方面的特性而可能得到不同的结论。这种对文档数据不同方面侧重的不同导致了原理和实现方式都不尽相同的多种方法,每种方法也都对文本分类这个问题本身作了一些有利于自身的假设和简化,这些假设又接下来影响着依据这些方法而得到的分类器最终的表现,可谓环环相连,丝丝入扣,冥冥之中自有天意呀(这都什么词儿……)。 比较常见,家喻户晓,常年被评为国家免检产品(?!)的分类算法有一大堆,什么决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等等等等(这张单子还可以继续列下去)。在这里只挑几个最具代表性的算法侃一侃。Rocchio算法 Rocchio算法应该算是人们思考文本分类问题时最先能想到,也最符合直觉的解决方法。基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有“体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相像(八股点说,判断他们之间的距离)就可以确定新文档属不属于这个类。稍微改进一点的Rocchio算法不尽考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法做了两个很致命的假设,使得它的性能出奇的差。一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖

端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本数据

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

《分类》文本:商品分类

《分类》商品分类 分类依据 商品分类依据是分类的基础。商品的用途、原材料、生产方法、化学成分、使用状态等是这些商品最本质的属性和特征,是商品分类中最常用的分类依据。 用途 一切商品都是为了满足社会上的一定用途而生产的,因此商品的用途是体现商品使用价值的标志,也是探讨商品质量的重要依据,因此被广泛应用于商品的研究、开发和流通。它不仅适合对商品大类的划分,也适用于商品种类、品种的进一步详细划分。 优点:按商品用途分类,便于比较相同用途的各种商品的质量水平和产销情况、性能特点、效用,能促使生产者提高质量、增加品种,并且能方便消费者对比选购,有利于生产、销售和消费的有机衔接。但对贮运部门和有多用途的商品不适用。 原材料 商品的原材料是决定商品质量和性能的重要因素,原材料的种类和质量不同,因而成分、性质、结构不同,使商品具有截然不同的特征。选择以原材料为标志的分类方法是商品的重要分类方法之一。此种分类方法适用那些原材料来源较多、且对商品性能起决定作用的商品。 以原料为标志分类的优点很多,它分类清楚,还能从本质上反映出各类商品的性能、特点,为确定销售、运输、储存条件提供了依据,有利于保证商品流通中的质量。但对那些用多种原材料组成的商品如汽车、电视机、洗衣机、电冰箱等不宜用原材料作为分类标志。 生产方法 很多商品即便采用相同的原材料,由于生产方法不同,也会使商品具有不同的质量特征,从而形成不同的品种。 按生产方法分类,特别适用于原料相同,但可选用多种工艺生产的商品,优点是因为生产方法、工艺不同,突出了商品的个性,有利于销售和工艺的革新。但对于那些虽生产方法有差别但商品性能、特征没实质性区别的商品不宜采用。如平板玻璃可用浮法或垂直引上法。 化学成分 由于商品中所含化学成分和种类和数量对商品质量、性能、用途等有着决定性的或密切的影响,故按化学成分的分类方法便于研究和了解商品的质量、特性、用途、效用和储存条件,是研究商品使用价值的重要分类方法。 有些商品,它们的主要成分虽然相同,但由于含有某种特殊成分,而使商品的质量、性

文本分类入门(八)中英文文本分类的异同

从文本分类系统的处理流程来看,无论待分类的文本是中文还是英文,在训练阶段之前都要经过一个预处理的步骤,去除无用的信息,减少后续步骤的复杂度和计算负担。 对中文文本来说,首先要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词汇(因为词汇将作为训练阶段“特征”的最基本单位),例如原文是“中华人民共和国今天成立了”的文本就要被切分成“中华/人民/共和国/今天/成立/了”这样的形式。而对英文来说,没有这个步骤(更严格的说,并不是没有这个步骤,而是英文只需要通过空格和标点便很容易将一个一个独立的词从原文中区分出来)。中文分词的效果对文本分类系统的表现影响很大,因为在后面的流程中,全都使用预处理之后的文本信息,不再参考原始文本,因此分词的效果不好,等同于引入了错误的训练数据。分词本身也是一个值得大书特书的问题,目前比较常用的方法有词典法,隐马尔科夫模型和新兴的CRF方法。 预处理中在分词之后的“去停止词”一步对两者来说是相同的,都是要把语言中一些表意能力很差的辅助性文字从原始文本中去除,对中文文本来说,类似“我们”,“在”,“了”,“的”这样的词汇都会被去除,英文中的“ an”,“in”,“the”等也一样。这一步骤会参照一个被称为“停止词表”的数据(里面记录了应该被去除的词,有可能是以文件形式存储在硬盘上,也有可能是以数据结构形式放在内存中)来进行。 对中文文本来说,到此就已初审合格,可以参加训练了(笑)。而英文文本还有进一步简化和压缩的空间。我们都知道,英文中同一个词有所谓词形的变化(相对的,词义本身却并没有变),例如名词有单复数的变化,动词有时态的变化,形容词有比较级的变化等等,还包括这些变化形式的某种组合。而正因为词义本身没有变化,仅仅词形不同的词就不应该作为独立的词来存储和和参与分类计算。去除这些词形不同,但词义相同的词,仅保留一个副本的步骤就称为“词根还原”,例如在一篇英文文档中,经过词根还原后,“computer”,“compute”,“computing”,“computational”这些词全都被处理成“compute”(大小写转换也在这一步完成,当然,还要记下这些词的数目作为compute的词频信息)。 经过预处理步骤之后,原始文档转换成了非常节省资源,也便于计算的形式,后面的训练阶段大同小异(仅仅抽取出的特征不同而已,毕竟,一个是中文词汇的集合,一个是英文词汇的集合嘛)。 下一章节侃侃分类问题本身的分类。

中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书 毕业设计(论文) 题目中文文本分类算法的设计及其实现 电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文) 毕业设计(论文)任务书 电信学院计算机系84 班学生丰成平 毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学 课题的背景、意义及培养目标 随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。 设计(论文)的原始数据与资料 1、文本语料库(分为训练集与测试集语料库)。 2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。 课题的主要任务 1.学习文本特征向量的构建方法及常用的降维方法。 2.学习各种分类器的基本原理及其训练与测试方法。 3.设计并编程实现文本分类器。

毕业设计(论文)任务书 4、对试验结果进行分析,得出各种结论。 5、撰写毕业论文。 6、翻译一篇关于文本分类的英文文献。 课题的基本要求(工程设计类题应有技术经济分析要求) 1、程序可演示。 2、对源代码进行注释。 3、给出完整的设计文档及测试文档。 完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等) 1、提交毕业论文 2、提交设计和实现的系统软件源程序及有关数据 3、提交外文资料翻译的中文和原文资料 主要参考文献: 自然语言处理与信息检索共享平台:https://www.360docs.net/doc/c14431351.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.360docs.net/doc/c14431351.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.360docs.net/doc/c14431351.html,/p-030716713857.html TF-IDF的线性图解:https://www.360docs.net/doc/c14431351.html,/blog-170225-6014.html 东南大学向量降维文献:https://www.360docs.net/doc/c14431351.html,/p-690306037446.html 指导教师相明 接受设计(论文)任务日期2013-02-21~2013-06-20 学生签名:

软件文档的作用和分类

软件文档的作用和分类 软件文档(document)也称文件,通常指的是一些记录的数据和数据媒体,它具有固定不变的形式,可被人和计算机阅读。它和计算机程序共同构成了能完成特定功能的计算机软件(有人把源程序也当作文档的一部分)。我们知道,硬件产品和产品资料在整个生产过程中都是有形可见的,软件生产则有很大不同,文档本身就是软件产品。没有文档的软件,不成其为软件,更谈不到软件产品。软件文档的编制(documentation)在软件开发工作中占有突出的地位和相当的工作量。高效率、高质量地开发、分发、管理和维护文档对于转让、变更、修正、扩充和使用文档,对于充分发挥软件产品的效益有着重要意义。然而,在实际工作中,文档在编制和使用中存在着许多问题,有待于解决。软件开发人员中较普遍地存在着对编制文档不感兴趣的现象。从用户方面看,他们又常常抱怨:文档售价太高、文档不够完整、文档编写得不好、文档已经陈旧或是文档太多,难于使用等等。究竟应该怎样要求它,文档应该写哪些,说明什么问题,起什么作用?这里将给出简要的介绍。 图文档桥梁作用 文档在软件开发人员、软件管理人员、维护人员、用户以及计算机之间的多种桥梁作用可从图中看出。软件开发人员在各个阶段中以文档作为前阶段工作成果的体现和后阶段工作的依据,这个作用是显而易见的。软件开发过程中软件开发人员需制定一些工作计划或工作报告,这些计划和报告都要提供给管理人员,并得到必要的支持。管理人员则可通过这些文档了解软件开发项目安排、进度、资源使用和成果等。软件开发人员需为用户了解软件的使用、操作和维护提供详细的资料,我们称此为用户文档。 以上三种文档构成了软件文档的主要部分。我们把这三种文档所包括的内容列在图6中。其中列举了十三个文档,这里对它们作一些简要说明: ·可行性研究报告:说明该软件开发项目的实现在技术上、经济上和社会因素上的可行性,评述为了合理地达到开发目标可供选择的各种可能实施的方案,说明并论证所选定实施方案的理由。 ·项目开发计划:为软件项目实施方案制定出具体计划,应该包括各部分工作的负责人员、开发的进度、开发经费的预算、所需的硬件及软件资源等。项目开发计划应提供给管理部门,并作为开发阶段评审的参考。 ·软件需求说明书:也称软件规格说明书,其中对所开发软件的功能、性能、用户界面及运行环境等作出详细的说明。它是用户与开发人员双方对软件需求取得共同理解基础上达成的协议,也是实施开发工作的基础。 ·数据要求说明书:该说明书应给出数据逻辑描述和数据采集的各项要求,为生成和维护系统数据文卷作好准备。 ·概要设计说明书:该说明书是概要设计阶段的工作成果,它应说明功能分配、模块划

中文文本分类语料

中文文本分类语料 文本自动分类就是用电脑对文本按照一定的分类体系或标准进行自动分类标记。 文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。现如今,统计学习方法已经成为了文本分类领域绝对的主流。 统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。 1.中科院自动化所的中英文新闻语料库https://www.360docs.net/doc/c14431351.html,/data/13484 中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。 2.搜狗的中文新闻语料库https://www.360docs.net/doc/c14431351.html,/labs/dl/c.html 包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。 3.李荣陆老师的中文语料库 https://www.360docs.net/doc/c14431351.html,/data/11968 压缩后有240M大小 4.谭松波老师的中文文本分类语料https://www.360docs.net/doc/c14431351.html,/data/11970 不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。 5.网易分类文本数据https://www.360docs.net/doc/c14431351.html,/data/11965 包含运动、汽车等六大类的4000条文本数据。 6.中文文本分类语料https://www.360docs.net/doc/c14431351.html,/data/11963 包含Arts、Literature等类别的语料文本。 7.更全的搜狗文本分类语料 https://www.360docs.net/doc/c14431351.html,/labs/dl/c.html 搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载 8.2002年中文网页分类训练集https://www.360docs.net/doc/c14431351.html,/data/15021 2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

贝叶斯算法(文本分类算法)java源码

package com.vista; import java.io.IOException; import jeasy.analysis.MMAnalyzer; /** * 中文分词器 */ public class ChineseSpliter { /** * 对给定的文本进行中文分词 * @param text 给定的文本 * @param splitToken 用于分割的标记,如"|" * @return 分词完毕的文本 */ public static String split(String text,String splitToken) { String result = null; MMAnalyzer analyzer = new MMAnalyzer(); try { result = analyzer.segment(text, splitToken); } catch (IOException e) { e.printStackTrace(); } return result; } } 停用词处理 去掉文档中无意思的词语也是必须的一项工作,这里简单的定义了一些常见的停用词,并根据这些常用停用词在分词时进行判断。 package com.vista;

/** * 停用词处理器 * @author phinecos * */ public class StopWordsHandler { private static String stopWordsList[] ={"的", "我们","要","自己","之","将","“","”",",","(",")","后","应","到","某","后","个","是","位","新","一","两","在","中","或","有","更","好",""};//常用停用词public static boolean IsStopWord(String word) { for(int i=0;i

文本功能和分类

2.4Text CIassification One of the most important theories in the book Groundworkfor a General Theory of Translation coauthored by Reiss and V ermeer is Reiss?theory of text types.According to Reiss,text typology helps the translator specify the appropriate hierarchy of equivalence levels needed for a particular translation Skopos.Based on the dominant communicative functions,texts are categorized into informative texts,expressive texts and operative texts. The main function of informative texts is to inform the readers about objects and Phenomena in the real world.The choices of linguistic and stylistic forms are subordinate tO this function.In a translation where both the source text and the target text are informative,the translator should attempt to represent the original text correctly and completely.The translator should be guided by the dominant norms of the target language and culture in terms of stylistic choices.In a more recent description of her typology,geiss points out that the informative texts also include……purely phatic communication,where the actual information value is zero and the message is the communication process itself?(Reiss,qtd.in Nord,2001:38). Expressive texts can produce an aesthetic feeling on the reader and this effect has to be taken into account in translation.In such texts,the informative aspect is complemented or even overruled by the aesthetic aspects.If the target text is aimed to fall into the same category as the source text,the translator of an expressive text should manage to produce an analogous stylistic effect as the original. In operative texts,“both content and form are subordinate to the extralinguistic effect that the text is designed to achieve”(Nord,2001:38).Ifthetarget text is meant to belong to the same category,the translator of an operative text should attempt to bring the same reaction in the target audience regardless of changing the content and/or stylistic features of the original. 2.2Text Functions Related to the text type is the text function.Nord suggests four types of text functions:referential function;expressive function;appellative function and phatic function.The referential function iS similar to the function of the informative text.The referential function is mainly expressed by the denotative value of the lexical items in the text.IIl orderto make the referential function clear,the translator should coordinate the message with the model of the particular world involved which is determined by Cultural perspectives and traditions.As have mentioned above,according to Reiss’S text typology,the expressive function is restricted to the aesthetic aspects of literary or poetic texts.Differently,the expressive function in Nord’S model refers to the sender’S attitude toward the objects and phenomena of the world.One point should be given more attention is that the expressive function is sender-oriented.The sender’S opinions and attitudes are based on the value system of his own culture.hl intercultural interaction,if the source culture and the target culture are different,then problem will arise.For example,“hl India if a man compares the eyes of his wife to those of a cow, he expressed admiration for their beauty.In Germany,though,a woman would not be very pleased if her husband did the same”(Nord,2001:42).Appellative function means the Use of language to make the receiver feel to do something.Here the appellative corresponds with operative in Reiss’S typology.Different from the expressive function, Appellative function is receiver-oriented.“While the source text normally appeals to a source-culture reader’S susceptibility and experience,the appellative function of a translation is

人工智能在自动文本分类系统中的应用研究

人工智能在自动文本分类系统中的应用研究摘要:人工智能与信息社会人工智能研究的就是怎样利用机器模仿人脑从事推理规 划、设计、思考、学习等思维活动。文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。该文阐述了自动文本分类分类在利用人工智能技术设计时的必要性 和重要性,通过对当前具有代表性的分类算法原理进行分析、比较, 总结出每种算法的性 能特征, 既便于使用者了解掌握各种分类算法、更好地选择合适的算法, 又便于研究者对 算法进行研究改进, 提出性能更好的分类算法。 关键词:人工智能;分类; 文本分类; 分类方法 1 引言 数据的丰富带来了对强有力的数据分析工具的需求, 大量的数据被描述为“数据丰富, 但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中, 没有强有力的 工具, 理解它们已经远远超出了人的能力。 人工智能的一个重要支柱是数据挖掘技术。数据挖掘一开始只是一种从大规模数据库或数据仓库中提取隐藏的预测性信息的科学方法。它让人们有能力最终认识数据的真正价值,即数据中潜在的可用信息和知识。数据挖掘是数据库知识发现的核心步骤,它研究的主要目标是发展有关的方法论、理论工具,以支持从大量数据中提取有用的和让人们感兴趣的知识、模式和规则。其主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、知识分类算法、半结构化和非结构化数据中的知识发 现以及网上数据挖掘等 而分类作为数据挖掘的一种模式, 可以用于提取描述重要数据的模型, 通常是预测分 类标号( 或离散值) 。例如, 可以建立一个分类模型, 对银行贷款的安全或风险进行分 类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。 文本自动分类技术是自然语言处理的一个重要的应用领域, 是替代传统的繁杂人工分 类方法的有效手段和必然趋势,特别是随着互联网技术的发展, 网络成为人们进行信息交互和处理的最有效的平台, 各种数字化的信息每天以极高的速度增长, 面对如此巨大的信息, 人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择通过利用先进的计算机技术、人工智能技术, 不仅可以实现方便快捷的分类效果, 节省大量的人力物力, 并 且可以进一步进行更深层次的信息挖掘处理, 提高信息的利用效率。 文本分类处理的研究是计算机、信息处理领域的重要内容, 特别是随着网络技术的快 速发展, 这种应用也变得更加迫切。 2 基本概念 2.1 人工智能

文本分类概述备课讲稿

第一章绪论 1.1 研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998 年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80 年代每年全世界发表的科学论文大约500 万篇,平均每天发表包含新知识的论文为1.3万-1.4 万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750 亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60 年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40 小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48 年。而2005 年的资料显示[2],进入20 世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10 年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10 年左右翻一番,尖端科技文献的增长则更快,约2-3 年翻一番。 同时,伴随着Internet 的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000 亿,而Google 宣称其已索引250 亿网页。在我国,中国互联网络信息中心从2001 年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056 个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也

相关文档
最新文档