一种通用HTML网页主题信息提取方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

要花费很长时间来操作滚动条,跳过大量无关的图片和文字,这是很难令人接受的.经研究【6]表明, 通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性.因
此,W曲主题信息提取已经成为当前信息提取领域的研究热点之一.
2相关研究
目前,在网页信息提取领域的研究主要有两大类方法:A:该方法探测同一站点网页中的一般模
访问,修改,添加和删除DOM树的结点和内容.
图1
HTML源码与DOM树对照图
3.2内容块
从视觉上,HTML网页可以划分为不同区域,每个区域称为内容块(block).如图2所示,带有虚线的矩形框表示一个网页,其它的矩形框是内容块.
68
第二十届全国计算机信息管理学术研讨会
图2用内容块的树结构来表示一个网页的内容当HTML网页被解析为DOM树后,内容块是由特定的标签规划出的.常用的标签有:<table>, <tr>,<td>,<p>,<div>等.如果一个内容块包含了太多的文本内容,网页依据嵌套在大内容块中的各个标签可以把网页划分为更小的块.在本文中,我们规定,凡是包含有中文字符内容的标签都统称为容器类标签.由于网页主题信息提取是以内容块为单位进行保留和删除的,因此,把DOM树中容器类标签所代表的结点称为分块结点.
式,这种方法是基于一个或多个网站中的页面集进行页面的模板检测.B:该方法集中在对DOM树的挖掘上.这种方法是基于单一页面的处理,根据所处理页面的DOM结构,可视信息等应用一些启发性规则把页面内的噪音去除,抽取出主题内容. 在A类情形中:文献[2】针对同一网站内的页面集构造样式树STYLE TREE,样式树包含两种类型的节点:样式节点和元素节点.方法依据元素节点的实际内容特征数及其子样式节点的个数两个因素组成的组合重要性来判定元素节点是否为噪音信息,如果元素节点及它的后代的组合重要性都低于一个特定的域值t,则称这个元素节点为噪音.方法用页面集构造出的STYLE TREE作为模板, 然后针对新页面进行模板检测,以排除页面内的噪音.但此方法必须局限在基于同一个模板的网页集,而Web上的网页模板不计其数,因此该方法显得不够通用. 文献【7】采用机器学习的方法来提取信息.方法分为两个阶段:训练阶段和提取阶段.训练阶段以同一模板的网页集作为输入,通过对网页集的学习,不断发现,生成新的模板,从而建立模板库. 提取阶段依照匹配模板中的提取规则来提取信息.此方法采用自动抽取的方式,智能化程度较高, 这在一定程度上方便了用户的使用,但给定一个新网页若找不到匹配的模板,此方法就不能处理. 而且,随着模板数量的增加,模板库的维护工作也变得日益复杂. 在B类情形中:文献【3】采用一系列的过虑方法从网页中删除无关部分,这一系列过虑方法由两组过滤器来实现.第一组过滤器把无关的标签和属性过虑掉.第二组过滤器包含:广告过滤器,链接列表过滤器,空表过滤器和删除链接保留器.这种方法把网页中的非主题内容删除掉并维持了源网页的结构,但在删除链接时较少考虑上下文的语义,极易删除上E文中的链接列表,使提取结果不完整.而且,此方法是针对页面中的TABLE进行的,对于不含TABLE标签的网页,此方法就很难处理. 文献[8】采取的方法是先根据网页中的HTML标记把网页表示成一棵DOM树,然后找到HTML 文档树中包含的所有的table结点,利用树中每个table结点包含的中文字符数从中选择包含正文信
第二}'届伞国计算机信息管理学术研讨会
一种通用HTML网页主题信息提取方法
北京信息科技大学中文信息处理研究中心许丈都云程李渝勤施水才 (北京信息科技大学中文信息处理研究中心,北京,100101)
【摘要】Web页面所表达的"主题"信息通常隐藏在大量无关结构和文字中,准确完整地提取网页主题信息是影响Web应用服务质量的关键技术之一.目前的提取方法多依赖于网页模板信息,而 Web上的网页模板不计其数,因此这些方法缺乏通用性.且随着模板数量的增加,模板库的维护工作也变得日益复杂.本文基于DOM规范,把HTML网页表示成树结构,然后提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的内容,并删除无关内容,最后输出只含主题信息的HTML文档.方法不依赖于模板信息,是一种通用的主题信息提取方法.实验结果证明了方法的准确性和有
5节是对本文的总结和对未来工作的展望.
3算法描述
3.1
DOM(文档对象模型)
DOM(Document Object Model)【4】是W3C制定的标准接口规范.DOM提供了访问页面中各个
元素属性与方法的接口.每一个网页都会对应一个DOM树,图1是一个DOM树及HTML源码的对照图.通过对DOM树的遍历,可以对页面中每一个元素进行处理.树的每个结点是一个对象. DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地
v耐母the
accuracy and validity of
the approach
presented in
[Keywords]DOM;information
1引言
随着Internet应用的日益普及,网络上的信息量在飞速增加.Web已经成为当今最庞大的信息
库.但是,从Web文档中提取有用信息比较困难,这是因为Web页面上通常含有很多用户并不关心
content are
represents
HTML document independent
which only contains the topic
information.This
universal method,
which is
of template information.And experimentM results this paper. extraction;partition;correlmivity
69
第二十届全国计算机信息管理学术研讨会
文档.
4信息抽取算法
本系统的HTML解析器采用的是CyberNeko HTML Parser[5]解析器.过滤器从DOM树中搜寻所有无关结点的标签,凡是搜寻到则全部删除这些结点,若没有找剑则返回.本系统所涉及的无关结点的HTML标签包括:图片<img>,脚本<script>,表单<form>,显示风格<style>等.本系统的分
University,Beijing 100101)
[Abstract]The"topic''information in
unnecessary images and key technique
to a
web page is always hidden among unimportant features such
this paper,
a
the task ofmaintaining template base
011
is increasingly complex wim
templatesHale Waihona Puke Baiduincreasing.In
new extraction methodology based
DOM
is proposed by transforming HTML
息的结点.这种方法适合于一个网页中所有的正文信息都放在一个table中的情况.但实际上,网页
中的正文信息并不都是放在table中.而且此方法在处理正文信息作为一个大的table中的一个子单元出现时,准确度不高,容易抽取出的非主题内容.此外,这种方法还不适合抽取小信息量的主题信息.
67
第一二}'届伞围汁算机信息管理学术研讨会
效性.
【关键词1 DOM,信息提取,分块,相关度
A General Approach
to Extracting Topical
Information in
HTML Pages
Xu
Wen,Du Yuncheng,Li
Yuqin,Shl Shuical
(Chinese Information Processing Research Center,Beijing Information Science&Technology
as
extraneous
links.So extracting the topical
content
accurately and integrallty is
a
improve the service qualities of web applications.Presently,there exist many extraction
块结点指的是凡是包含有中文内容的所有容器标签.之所以这样划分是为了保证对每一个内容块都
进行主题相关性判定,以增强判定的准确性.当遇到分块结点时调用语义分析器,向该结点添加语义属性.本文算法所采用的语义信息是块中非链接中文字符总数和链接总数,分别用words和links
属性表示.其中,非链接文字指不在链接上的文字,一个块的1F链接文字总数可以代表它的内容. 本系统所涉及的分块结点的HTML标签包括:<table>,<缸.>,<td>,<p>,<div>等.剪枝器对树中结点的主题相关性进行判定,当满足剪枝条件时,就删除该结点.
3.3信息抽取系统框架
图3信息抽取系统框架解析器将HTML文档转化为DOM树.过滤器从DOM树中删除无关结点,无关结点如图片
<img>,J挪本<script>,表单<fo彻>等.语义分析器向DOM树中结点添加语义属性值.
剪枝器通
过判定各结点的主题相关性从树中删除无关内容和没有内容的块,最后输出只含有主题信息的HTML
分块结点的主题相关性表示该结点与HTML文档主题的关联程度.剪切器正是通过对结点的主题相关度判定来进行剪枝的.主题相关性判定包含两部分:局部相关性判定(由局部相关度表示) 和上下文相关性判定.局部相关度由块中非链接中文字符总数和链接总数决定,其计算公式可以表
达为:
words
local(block
f)=
documents
into DOM trees.According to the method,the deleted.The result of the approach approach is
a
topical contents are extracted and topic-unrelated the
(block
f)
锄砖(block,)
Ⅳ
links(block
f)=∑links(block
j=1
c.)
words(block 其中,
f)=∑words(block
/=1
c#) 用其
blockr表示block;的第J个子树,links(blocki)是blocki的links属性值,
本文的算法属丁:B类情形.参考上述文献中提出的启发式规则,并结合对HTML网页性质的统
计和观察,本文提出了一种新的网页主题信息提取算法.该算法不需要依赖网页模板等附加信息,
对单一页面进行处理,实验结果证明了提取到的主题信息具有较高的准确性和完整性.
本文下面是这样组织的:第3节讲述网页主题信息提取算法;第4节描述实验结果与分析;第
methods which depend upon templates of web pages.Unfortunately,the number of templates of web pages
are
countless.As
a
result,those methods
are
lack
ofgenerality.And
的信息,如广告链接和图像等,它们分布于网页四周,甚至附着在主题信息旁边,文档主题很不明
确,使用户不能迅速定位所需信息.通常我们在浏览Web上的网页时会发现两部分内容:一部分内
66
第二十届全国计算机信息管理学术研讨会
容体现的是网页的主题信息,比如一张新闻网页中的新闻部分,我们称之为"主题"内容;另一部分则是与主题内容无关的导航条,广告信息,版权信息以及调查问卷等内容,我们称之为"噪音" 内容. 准确完整地提取网页中的主题信息是提高Web应用服务质量的一项关键技术.这是冈为,Web 应用程序可以以网页的主题内容为处理对象,提取出主题内容后可以显著简化网页内标签结构的复杂性并减小网页的大小,从而节省后续处理过程的时间和空间开销.网页主题内容提取已成为Web信息系统预处理环节中一个必不可少的工作[1】.此外,对于使用便携式设备上网的用户来说,他们需