Web文本分类的关键技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web文本分类的关键技术研究
关键词:文本分类降维技术文本表示分类算法
文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程,将大量的文本归到一个或多个类别中。

从数学角度来看,文本分类是一个映射的过程,将未标明类别的文本映射到己有的类别中来,数学表示如下: f:a->b 其中a为待分类的文本集合,b 为分类体系下的类别集合。

一、网页的解析
按照w3c组织所制定的标准,每一个html页的结构都可以对应地描述成dom树的形式。

dom定义了html文档的逻辑结构,提供了一种对网页中的数据及内容进行管理和操作的途径。

dom将整个文档的内容分别抽象为不同的对象,用结点的形式予以表示,如标签结点、文档类型结点、文本结点、注释结点、属性结点等。

再用类似于父子的关系将各结点按照不同层次有顺序地组织起来,形成树型结构。

二、降维技术
1、信息增益:
信息增益在机器学习中经常被用做特征词评判的标准,它是一个基于熵的评估方法,定义为某特征项在文档中出现前后的信息熵之差。

根据训练数据计算出各特征词的信息增益。

删除信息增益很小的词,其余的按信息增益从大到小排列。

如果以信息增益最大者为要根结点,建立一个决策树就可以进行决策树的分类挖掘。

如公式
(2)所示.
其中i=1,2…m。

p(ci)表示ci类文本在语料中出现的概率,p (ci | w)表示文本包含特征项w时属于ci 类的条件概率,p(w)表示语料中不包含特征项w的文本的概率,p(ci | w)表示文本不包含特征项w时属于ci 类的条件概率,m为类别数。

显然某个特征项的信息增益越大,贡献越大,对分类越重要。

选取信息增益大的词做为构造文本的特征向量。

2、互信息:(mi)
应用在相关词统计建模中,在统计学中用于表示两个变量间的关系,其计算如下公式(3)所示:
其中各变量的含义同上。

显然当特征项w独立于ci 时它同该类的相关度为0 ,p(w)越小而同时p(w | ci )越大时特征项w
提供类别ci 的信息量越大,则这个特征项越能代表这一类,反之,p(w)越大的同时p(w | ci )越小,则可能得到负的互信息值,这种情况下,该特征项对分类的意义同样很大。

3.交叉熵(expected cross entropy)
与信息增益类似也是一种基于概率的方法,但只计算出现在文本中的特征项,其计算如公式(4)所示:
三、文本表示
向量空间模型(vector space model,简记为vsm)是一种较著名的用于文档表示的统计模型,该模型以特征项做为文档表示的基本单位,特征项可以由字词或短语组成。

每一个文档可以看成是由
特征项组成的n维特征向量空间的一个向量:d=(t1,w1;t2,w2;t3,w3……;tn,wn),其中wi为第i个向量ti在文档中的权重,一般选词做特征项比选字做为特征项要好一些。

一般使用tf-idf
公式计算特征项权重,其中tf(term frequency)表示词频,idf (inverse document frequency)表示逆文档频率,反映文档集合中出现该特征项的文档数目的频率,tf-idf权重公式如公式(1)所示:
四、分类算法
(一)k-means算法
k-means算法是应用最广泛的聚类算法之一,是一种已知聚类类别的聚类算法。

指定类别数k,对样本集合进行聚类,聚类的结果由k个聚类中心来表达。

相似度的计算根据一个簇中样本的平均值(被看作簇的中心)来进行。

首先,随机选择k个对象,每个对象初始的代表了一个簇的平均值或中心。

对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。

然后重新计算每个簇的平均值。

这个过程不断重复,直到准则函数收敛。

通常,采用平方误差准则,其定义如公式(6):这里的e是数据库中所有对象的平方误差的总和,p是空间中的点,表示给定的数据对象,mi是簇ci的平均值(p和mi都是多维的)。

这个准则试图使生成的结果簇尽可能的紧凑和独立。

下面是k-means过程的概述。

输入:聚类的数目k和包含n个对象的数据库。

输出:k个聚类簇,使平方误差准则最小。

1)任意选择k个对象作为初始的聚类簇
2)中心;
3)重复
4)根据聚类簇
5)中对象的平均值,
6)将每个对象(重新)赋给最相似的聚类簇;
7)更新聚类簇
8)的平均值,
9)即计算每个簇
10)中对象的平均值;
11)直到不
12)再发生变化。

这个算法尝试找出使平方误差函数至最小的k个划分。

当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。

对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度是o (nkt),其中,n是所有样本的数目,k是聚类簇的数目,t是迭代的次数。

通常的kp (x | cj)p (cj),1≤j≤m,j≠i。

也就是,24、x被指派到其p (ci | x)p (ci)最大的类ci。

朴素贝叶斯算法的本质是用词和类别的联合概率估计给定文档
属于各个类别的概率。

它假设,一个词在给定类别的条件概率独立于该类的其它词的条件概率。

这样,就以降低分类精度的代价换来
了较高的执行效率。

相关文档
最新文档