基于机器学习的Web文本分类技术及算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2009202210 基金项目:江苏省科技攻关项目(B E2006357) 作者简介:金春霞(1973-),女,汉族,陕西兴平人,淮阴工学院讲师,硕士,主要从事计算机应用、信息处理、数据挖掘方向研究,E 2
mail :jcxbzn @.3联系人:周海岩(1957-),男,汉族,河南虞城人,淮阴工学院教授,主要从事信息安全、数据挖掘、人工智能、智能决策等方向研究,E 2mail :zhy_5703@.
第30卷第3期 长春工业大学学报(自然科学版) Vol 130No.32009年06月 Journal of Changchun University of Techonology (Natural Science Edition ) J un 12009
基于机器学习的Web 文本分类技术及算法
金春霞, 周海岩3
(淮阴工学院计算机工程系,江苏淮安 223003)
摘 要:提出了一种基于机器学习的Web 文本自动分类的信息检索解决方案。

采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。

该算法不仅实现中文文本的自动分类,有效地提高Web 信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。

关键词:网络蜘蛛;特征选择;文本分类;特征加权;朴素贝叶斯中图分类号:TP391.1 文献标识码:A 文章编号:167421374(2009)0320347205
Study on Web text categorization and algorithm
based on machine learning
J IN Chun 2xia , ZHOU Hai 2yan 3
(Depart ment of Computer Engineering ,Huaiyin Instit ute of Technology ,Huai ’an 223003,China )
Abstract :A solution for web text categorization information ret rieval based on machine learning is p ut forward.We adopt level const raint to realize text 2crawled f unction ,and apply t he feat ure selections f rom t he combination of document f requency and term frequency to f ulfill t he feat ure extraction.The feat ures are weighted to imp rove t he performance of text categorization.The algorit hm can realize automatic Chinese text categorization ,imp rove t he precisio n of web information ret rieval and greatly decrease t he amount of work for browsing and filtering.It can also be used for t he automatic categorizatio n of E 2government and E 2co mmerce information.
Key words :network spider ;feat ure selectio n ;text categorization ;feat ure weight ;Naive Bayes.
0 引 言
随着因特网的快速发展,网上信息浩如烟海,
互联网上的中文网页信息数以亿计,如何利用计算机技术快速有效地获取有价值的信息已是中文
信息检索领域急需解决的关键问题。

而搜索引擎是实现网络信息检索的有效工具,因此,提高搜索引擎的智能化程度和搜索效率,降低人工二次搜索的工作量,就成为当前智能检索的研究热点。

中文文本分类技术为此类问题提供了一个切实可
行的解决途径,即通过构造文本自动分类器,依据文本的内容对待定文本进行分类,以此实现Web 信息的检索[122]。

1 Web文本的自动抓取
网络蜘蛛是当前搜索引擎从互联网上抓取Web网页普遍使用的工具。

网络蜘蛛遍历Web 空间,抓取Web文本,对抓取的Web文本进行解析,然后从中提取用于分类的文本内容[3]。

在网络信息搜索过程中为了提高搜索速度,网络蜘蛛不可能抓取所有的网页,如有些不太重要的Web文本,可通过设置访问的层数,对于超过一定层数的Web文本不再抓取。

有统计表明,层数较浅的Web文本多为重要信息,而层数较深的Web文本多为次要信息,这种做法能覆盖信息的主体。

因此文中采用层数约束法,为了使网络蜘蛛能有效地抓取重要的Web文本,还可通过记录网络蜘蛛的历史访问记录,对已访问过的网络地址不再访问,防止陷入链接死循环。

在网络蜘蛛抓取网页的同时,使用多线程并发地对抓取的Web文本内容进行处理,也能大大提高Web文本分类的速度。

2 Web文本的预处理
2.1 文本内容过滤
从Web文本中提取用于分类的文本内容。

由于Web文本的内容主要由H TML标记、文本、图像、客户端脚本等组成,在构建网络蜘蛛时图像信息已被过滤掉,因此,经由网络蜘蛛抓取的信息仅包括H TML标记、文本和脚本。

若网络蜘蛛获取的文本信息如下:
<script language=′javascript′><!--
 Function doprint(){
 Window.print();
 }
</script>
<script src=″/adv/news_ad.asp?news_id= 19667&subjected=2″></script>
<P>
各高校艺术特长生、高水平运动员、自主招生、保送生等招生信息将在11日进入集中发布期,本报提醒广大考生和家长特别注意各类特殊招生信息,以免错过机会。

<P>
其中文本信息中的脚本标记<script>…</ script>及<p>…</p>等H TML标记对于基于Web文本内容的分类来讲并无价值,而有价值的信息仅限<p>…</p>之间的文本内容。

2.2 中文分词
主要问题是中文分词的准确性和词条切分的速度。

词条是信息表达的最小单位,中文不同于西文,中文句子的词条之间没有分隔符,而且分词时还要考虑汉语的词法、句法以及语义,因此中文分词比英文分词困难得多。

而专家系统分词法可看作是知识推理过程。

实现分词时,首先利用所依赖的汉语词法知识、句法知识以及部分语义知识来构建知识库,并按常识性知识与启发性知识分别进行组织,常识性知识采用“语义网络”表示,对启发性分词知识采用“产生式规则”表示。

其分词的过程实际上是构造词语树的过程。

这种统一的智能分词方法,使得切分精度很高,可以达到语法级。

3 特征词条提取算法
根据文本内容的特征,利用机器学习和统计学习理论对文本进行分类,以获得文本集合的特征子集。

因自然语言文本集中往往包含大量的词汇,如果把这些词都作为特征,将使得文本向量空间的特征维数高达几万至几十万,为了能有效地削减特征空间维度,解决的办法是选择那些最有代表意义的词作为特征词条,即从文本中选取对文本具有分类识别特征的词条进行分类。

由于文本频度法注重的是词条在文本中存在的广度,即如果文本集中含有某词条的文本数量所占的份额越大,则意味着此词条对于该类文本越具有普适性,但该算法忽略了词条在文本中出现的频度。

而具有代表性的词条往往在同一篇文章中反复出现,这种文本分类就非常不合理。

因此文中在文本频度法的基础上,结合文本频度和词条频度两种算法的特点[4],提出文本频度与词条频度加权的特征选择算法,其基本思想如下:
(1)先根据文本频度法计算词条w的文本频度值D F(w);
(2)再计算词条w在c j类文本中所出现的总频度T F(w);
(3)对D F(w)和T F(w)进行加权,得到综合频度值C F(w)=α×D F(w)+β×T F(w),其中α+β=1;
(4)设定阈值t hreshold,保留综合频度值大于t hreshold的词条作为文本分类的特征词条。

843长春工业大学学报(自然科学版) 第30卷
通过实现运行,调整α,β和t hreshold 的值,以获得较高的分类准确度。

4 文本自动分类算法
文本分类的任务就是在给定的分类体系下,
根据文本的内容自动确定文本关联的类别。

从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。

朴素贝叶斯方法提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。

4.1 N aive 贝叶斯文本分类[5] 假设集合C 为文本类别的集合,判断一个文本d 是否属于某个类别c j ,通过计算P (c j |d )的概率来完成,即给定文本d ,计算它属于文本类c j 的概率是多少。

朴素贝叶斯方法的判别规则是将d 指定到使P (c j |d )达到最大概率的类别中,即求解arg max P (c j |d )。

采用朴素贝叶斯进行分类时,实例集中的每个样本都表示成n 维特征向量<x 1,x 2,…,x m >,每个一维的向量x 代表文本d 的一个属性值。

学习器根据提供的一系列的训练样本以及新实例,按要求预测新实例所属类别。

贝叶斯方法的新实例分类目标是在给定描述实例的属性值<x 1,x 2,…,x m >下,得到最可能的目标类别c MAP 。

c MAP =arg max c j ∈C P (c j |
d )=
arg max c j ∈C
P (d |c j )×P (c j )(1)
而Naive 贝叶斯分类器是基于一个简单的假
设。

在给定实例的目标值属性值之间相互独立的假设下,x 1,x 2,…,x m 的联合概率就等于单独属性的概率之积:
P (d |c j )=
∏m
i =1
P (x
i
|c j )(2)
代入式(1)中,可计算出C NB ,其中C NB 表示Naive 贝叶斯分类器输出的目标值。

C NB =arg max c j ∈C
P (c j )
∏m
i =1
P (x
i
|c j )(3)
为了提高估计值的可靠性以及考虑实现细节
的不同,文中采用拉普拉斯估计和多元模型(即仅考虑特征项在文本中是否出现记为1,否则记为0),公式如下:
P (c j )=
∑|D|
i =1
P (c
j
|d i )
|D |
j =1,2,…,|C |(4)
其中D 是训练文本集,P (c j |d i )∈{0,1},表示训练文本d i 是否是属于类c j 的文本,1表示属于,0表示不属于。

P (d |c j )=
∏m
t =1
(B
xt
P (x t |c j )+(1-B xt )(1-P (x t |c j )))
(5)
P (x t |c j )=
1+n jt 1+N j
(6)
式中:x t 第t 个特征,即文本向量的第t 分量;
m 特征总数;
B xt 特征x t 是否在文本d 中出现(出现
记为1,否则记为0);
n jt c j 中包含特征x t 的文本数;N j
c j 中所有文本数。

对于测试文本集中的无标注文本,利用已经训练好的分类器,就可以求出文本d 属于类别c j 的后验概率P (c j |d ),用x t 表示文本d 中的第t 个特征词条,公式如下:
P (c j |d )∞P (c j )
∏m
t =1
P (x
t
|c j )(7)
4.2 基于特征加权的朴素贝叶斯改进算法
文本分类不仅要考虑特征词条在文本集中是否出现,还要考虑特征词的重要性因素,更有助于体现特征选择权重对分类的影响。

因此文中采用特征加权技术,通过修改特征权值在分类器中的作用,提高朴素贝叶斯分类器的分类性能。

因此,采用特征评估函数构造新的特征权重函数:
W t =CF (x t )=α×D F (x t )+β×T F (x t )
(8)
式中:D F (x t )
文本d 的第t 个特征的词频;T F (x t )
在训练文本中出现的总频度。

权重调整后,特征在分类器中的作用也随权重的调整而发生改变。

在原朴素贝叶斯分类器中,计算文本d 属于类c j 的后验概率P (c j |d )如式(7)。

根据调整后的特征权重,修改特征在分类器中的作用,P (c j |d )可由下式计算:
P (c j |d )=log [P (c j )]+
 ∑m
t =1
W t ×log [P (x t |c j )]
(9)
式中:W t 特征词条x t 的新的权重函数。

特征词条x t 的权重越高,在朴素贝叶斯分类
9
43第3期 金春霞,等:基于机器学习的Web 文本分类技术及算法
器中起的作用就越大;W t越小,特征词条x t在朴素贝叶斯分类器中起的作用就越小。

5 实验结果数据分析
为了测试研制的Web文本自动分类系统的性能,这里选择了100个样本文本,对系统中待定参数选取了4种不同的值,并选取了4种类型的Web:教育、时事新闻、IT技术、军事。

采用文本频度与词条频度综合方法对上述4类40篇样本文本经中文分词后得到的词条集进行特征词条选取,并对4类词条子集删除各自重复词条后的词条数,见表1。

表1 样本文本切分的结果
类别文本数总字数切分后的词条数删除重复词条后的词条数词条平均重复率C110974331375395.82
C21013290485611404.26
C31012230531715733.38
C4101168352141207 4.32合计4046946185244459 4.15
对上述切分的词条交由特征加权的Naive贝
叶斯分类器进行分类,并对测试结果予以分析。

从最后分类的文本当中选取部分进行分析,其分
析结果见表2。

表2 文本分类结果
序号标题自动分类人工分类
1艺术特长生招生教育教育
2考研报名现场须知教育教育
3应届毕业生就业指导教育教育
4保持经济平稳防止大
起大落
新闻新闻
5美国大选所用资金已
达24亿美元新闻新闻
6电脑游戏技术娱乐IT技术7软件开发IT技术IT技术
8我国新型导弹将亮相
珠海航展
军事新闻
9环球军事军事军事
10女博士赴美当农民新闻新闻
通过测试文本自动分类的准确率可达到0.8,接近于人工分类的结果。

根据测试结果可以得出以下结论:
(1)分类的类别数应足够多,应能覆盖人工分类的类别。

(2)各类的样本文本数应较多,从中提取一批覆盖面宽、代表性强的特征词条。

(3)特征词库的规模越大,分类正确率就越高,但是将会导致自动分类时空开销越大,因此阈值的选取十分重要。

在实验中发现,随着样本特征词条的增加,文本分类的准确度就会随着提高,但当特征词条超过300的时候,文本分类的准确度也会随之降低。

因特征词条选取太多会造成分类过度,太少会降低识别度,因此特征词条的选取应该适中。

(4)经特征加权的朴素贝叶斯分类器的分类性能有很大提高,同时为了进一步降低误识率,可对文中给出的分类算法再加以改进:对文本类别概率P(c j|d)设一个阈值λ,若对所有的类别都有P(c j|d)<λ,则对文本d拒识;否则,取max{P(c1|d),P(c2|d),…,P(c n|d)}的文本类别为文本d的类别。

6 结 语
根据对中文文本信息检索的需求特点和当前普遍使用的搜索引擎的缺陷,文中提出了一种基于机器学习的中文文本自动分类的实现方案。

提出了几个创新点:
(1)在网络蜘蛛的实现中,采用层数约束法,使得网络蜘蛛能有效地抓取重要的Web文本; (2)使用文本频度法与词条频度法相结合的方法进行特征选取,它能更有效地纯化分类的特征词条;
(3)采用特征加权技术较好地提高了分类器的分类性能。

这些技术的应用将有效地提高Web信息检索的精度,大大降低人工二次浏览筛选的工作量。

该系统不仅可完成中文文本的自动
053长春工业大学学报(自然科学版) 第30卷
分类的能力,也可以用于电子政务和电子商务,实现网络上中文信息的自动分类处理。

参考文献:
[1] 张冬慧,孙 波,徐照财,等.文本自动分类关键技
术研究[J].微计算机信息,2008,24(223):19721991 [2] 许建潮,王颖楠,胥桂仙.Web文本信息抽取与挖掘
方法[J].长春工业大学学报:自然科学版,2002,23
(S0):492531
[3] 冯 月.基于专业搜索引擎网络蜘蛛搜索策略研究
[D]:[硕士学位论文].成都:电子科技大学,20071
[4] 欧 灵.基于文本分类的本体匹配及其应用研究
[D]:[博士学位论文].重庆:重庆大学,20071[5] 徐 甜,肖新峰.Web文本表示及其分类研究[J].
微计算机信息,2007,7(3):28422851
[6] 郑凤萍.一种新的中文文本分类算法[J].现代情报,
2007(3):14321441
[7] 王香港.中文文本自动分类算法研究[D]:[硕士学
位论文].上海:上海交通大学,20081
[8] 徐风亚,罗振声.文本自动分类中特征权重算法的
改进研究[J].计算机工程与应用,2005,41(1):1812 1841
[9] 万狄飞,樊兴华,王国胤.基于朴素贝叶斯和遗传算
法的两类文本分类方法[J].计算机科学,2008,36
(4):16021621
153
第3期 金春霞,等:基于机器学习的Web文本分类技术及算法。

相关文档
最新文档