文本分类综述1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本分类综述
1. 引言
1.1 文本分类的定义
文本分类用电脑对文本集按照一定的分类体系或标准进行自动分类标记,与文本分类相近的概念是文本聚类。文本聚类是指,由机器将相似的文档归在一起。与文本分类的区别在于,文本分类是监督学习,类别是事先规定好的,文本聚类是无监督学习,由计算机把类似文本归在一起,事先并不划定好类别。
基于统计的文本分类算法进行文本分类就是由计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。
文本分类的基本步骤是:文本表示->特征降维->分类器训练>文本分类
1.2 文本分类的基本思路
文本分类基本方法可以归结为根据待分类数据的某些特征来进行匹配,选择最优的匹配结果,从而实现分类。
计算机并不认识文档,因此首先就要设法如何转化一篇文档为计算机所接受,转化方法要与文本有对应关系。对于计算机文本分类而言,这是最重要的步骤。
其次要制定出一定的评判标准,根据文档表示结果对文本进行分类
1.3 文本分类目前的研究热点
2. 文本表示
利用计算机来解决问题,首先就是要找到一种使计算机能够理解方法来表述问题,对文本分类问题来说,就是要建立一个文档表示模型。
一般来说,利用文档中的语义信息来表示文档比较困难,因此直接采用词频来表示文档,不过也出现了许多利用语义的文档表示方法。
2.1 向量空间模型(VSM)
VSM模型是目前所用的较多的文本表示模型,这种模型把文本看作是一个特征项的集合。特征项可以是词,也可以是人为所构造的合理的特征。
2.2 词袋模型
词袋模型是VSM 模型在文本分类问题中的一个最简单的应用。对于一篇文档,最直观的方法就是使用词和短语作为表示文本的特征。对于英文文章来说,各个单词之间己经用空格分开,可以直接获取特征词,不过由于英语中存在词形的变化,如:名词的单复数、动词的时态变化、词的前缀和后缀变化等,所以会需要一个抽取词干的过程。对于中文来说,因为词和词之间没有停顿,所以需要借助于词典来统计特征词。对于文本分类来说,常用的方法为TF 即词频法。
具体操作为:
对文本,北京理工大学计算机专业创建于1958年,是中国最早设立的计算机专业的大学之一。对于该文档,词袋为{北京、理工、大学、计算机、专业、创建、1958、中国、最早、设立}相应的向量为{1,1,2,2,2,1,1,1,1},这种统计特征词词频当作文档特征的方法也称为TF 法,为了防止这种方法统计出的特征使得文本长度影响到分类结果,要把它做归一化处理,最容易想到的归一化做法是除以文本长度。
另外还有另一个指标IDF 指标,衡量词的重要性,一个词在一篇文本中出现的频率越高,同时在总的训练文本中出现的频率越低,那么这个词的IDF 值越高。
操作:
总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,公式表示为
,idf 衡量了一个词的重要程度,因此tf ×idf 可以更好的来表示文本。
2.3 其他模型
3. 特征降维
文本所形成的不加处理的特征向量维数很高,以词袋模型为例,一方面,很多文章只有几千词,而一个分词词典所包含的词有数万个,如果不加处理,把所有词都表示出来,是极大的浪费,另一方面,若依照分词词典建立向量,事实上是无法使用的,因此需要对文档特征进行降维处理。把不用的特征去掉,保留区分度高的词语。特侦降维可以有两种思路,特征选择和特征提取,其中,特征选择是指在原有特征的基础上,选择一部分特征来表示文本,特征性质不变,例如||log()|:|
i j D idf j t d =∈
对于词袋模型,只是从原先的词袋中选择一部分区分度高的词语,选择结果仍然是词。特征抽取是指一种特征通过一定的方法变换,得到的特征与原来的特征完全不同。
3.1 特征选择
对于特征选择来说,主要是把原先区分度低的词去掉。
2.2节所述的idf 方法也可以作为一种特征选择的方法。除此之外,也有使用方差来筛选特征词的程序。
3.1.1 信息增益
在文本分类系统中,关于类别的信息量可以用如下式子来衡量,
其中()i P C 是指类别Ci 出现的概率
信息增益选择特征这种方法是指,在一个文本分类系统中,对于一个特征t ,当考虑t 时,文本分类系统的信息量记为H1,当不考虑时记为H2,那么H=H1-H2就称为t 的信息增益,当差值越大,那么说明这个特征越重要。
计算信息增益的公式为
公式说明:公式目的要计算出系统中特征t 存在与否对系统的信息量的影响,所以要取得有无特征t 这两种状态的差值即可,系统在存在t 时,有两种可能,t 存在和不存在。既式子的最后部分。
具体做法:
P (C1)即是C1所包含的文本数/文本总数,P (C1|t )即C1类中包含t 的文本数/包含t 的文本总数;最后一项即是C1类中不包含t 的文本数/不包含t 的文本总数。
3.1.2 开方检验
3.1.3 互信息法
互信息用(,)i MI t C 来表示,含义为特征t 与类别Ci 的相关程度,值越大,
222111()
()(|)()log ()()(|)log (|)()(|)log (|)
n n n i i i i i i i i i IG t H C H C t P C P C P t P C t P C t P t P C t P C t ---====-=-++∑∑∑21()()log ()
n
i i i H C P C P C ==⨯∑
表示相关程度越大。也是特征选择的目标。互信息的量化方法为下式。
由此,为了统一衡量特征t 的互信息,其全局互信息可以定义为
1()()(,)n
i i i MI t P C MI t C ==⨯∑ 说明和操作:
分母为类Ci 中出现特征t 的文本数除以总文本数,分子中,P(t)是出现特征t 的文本数除以总的文本数。P (Ci )是属于类Ci 的文本数除以总的文本数。
3.2 特征提取
4. 文本分类算法
4.1 向量中心算法
这种算法把一个类别里的样本文档各项取个平均值(例如把所有 “体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,即一个类别的中心,这个中心就是这个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和中心的距离,从而可以新文档属不属于这个类。
4.2 K 近邻算法
一个文本采用TF 法来表示,形成一个文本的特征向量,从而一个文本可以用特征空间的一个点来表示,在训练阶段存入一批代表文本的样本点,对于一个待分类文本,该算法搜索与该文本最接近的k 个已知样本,距离可以使用欧氏距离来算,从而根据这最接近的k 个文本所属的判断出该未知样本的分类所属。
4.3 朴素贝叶斯算法
朴素贝叶斯算法则是从贝叶斯公式演变而来的。假设文本特征表示为(a1,a2,…,an )
前提假设为属性值之间相互 条件独立,即做出如下假设
max 12argmax (|,)j n V P V a a a = ,,
12argmax (|,)j n P V a a a ,,表示在有特征(a1,a2…an )条件下该文本属于Vj 的概率。Vj 属于类别集合,Vmax 是得到的最可能的分类所属
利用贝叶斯公式改写12(|,)j n P V a a a ,,得
(,)(,)log ()()
i i i P t C MI t C P t P C =12(,,...,|)(|)n i i P a a
a v P a v =∏