一种通用HTML网页主题信息提取方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
要花费很长时间来操作滚动条,跳过大量无关的图片和文字,这是很难令人接受的.经研究【6]表明, 通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性.因
此,W曲主题信息提取已经成为当前信息提取领域的研究热点之一.
2相关研究
目前,在网页信息提取领域的研究主要有两大类方法:A:该方法探测同一站点网页中的一般模
访问,修改,添加和删除DOM树的结点和内容.
图1
HTML源码与DOM树对照图
3.2内容块
从视觉上,HTML网页可以划分为不同区域,每个区域称为内容块(block).如图2所示,带有 虚线的矩形框表示一个网页,其它的矩形框是内容块.
68
第二十届全国计算机信息管理学术研讨会
图2用内容块的树结构来表示一个网页的内容 当HTML网页被解析为DOM树后,内容块是由特定的标签规划出的.常用的标签有:<table>, <tr>,<td>,<p>,<div>等.如果一个内容块包含了太多的文本内容,网页依据嵌套在大内容块中的 各个标签可以把网页划分为更小的块.在本文中,我们规定,凡是包含有中文字符内容的标签都统 称为容器类标签.由于网页主题信息提取是以内容块为单位进行保留和删除的,因此,把DOM树中 容器类标签所代表的结点称为分块结点.
式,这种方法是基于一个或多个网站中的页面集进行页面的模板检测.B:该方法集中在对DOM树 的挖掘上.这种方法是基于单一页面的处理,根据所处理页面的DOM结构,可视信息等应用一些启 发性规则把页面内的噪音去除,抽取出主题内容. 在A类情形中:文献[2】针对同一网站内的页面集构造样式树STYLE TREE,样式树包含两种类 型的节点:样式节点和元素节点.方法依据元素节点的实际内容特征数及其子样式节点的个数两个 因素组成的组合重要性来判定元素节点是否为噪音信息,如果元素节点及它的后代的组合重要性都 低于一个特定的域值t,则称这个元素节点为噪音.方法用页面集构造出的STYLE TREE作为模板, 然后针对新页面进行模板检测,以排除页面内的噪音.但此方法必须局限在基于同一个模板的网页 集,而Web上的网页模板不计其数,因此该方法显得不够通用. 文献【7】采用机器学习的方法来提取信息.方法分为两个阶段:训练阶段和提取阶段.训练阶段 以同一模板的网页集作为输入,通过对网页集的学习,不断发现,生成新的模板,从而建立模板库. 提取阶段依照匹配模板中的提取规则来提取信息.此方法采用自动抽取的方式,智能化程度较高, 这在一定程度上方便了用户的使用,但给定一个新网页若找不到匹配的模板,此方法就不能处理. 而且,随着模板数量的增加,模板库的维护工作也变得日益复杂. 在B类情形中:文献【3】采用一系列的过虑方法从网页中删除无关部分,这一系列过虑方法由两 组过滤器来实现.第一组过滤器把无关的标签和属性过虑掉.第二组过滤器包含:广告过滤器,链 接列表过滤器,空表过滤器和删除链接保留器.这种方法把网页中的非主题内容删除掉并维持了源 网页的结构,但在删除链接时较少考虑上下文的语义,极易删除上E文中的链接列表,使提取结果不 完整.而且,此方法是针对页面中的TABLE进行的,对于不含TABLE标签的网页,此方法就很难 处理. 文献[8】采取的方法是先根据网页中的HTML标记把网页表示成一棵DOM树,然后找到HTML 文档树中包含的所有的table结点,利用树中每个table结点包含的中文字符数从中选择包含正文信
第二}'届伞国计算机信息管理学术研讨会
一种通用HTML网页主题信息提取方法
北京信息科技大学中文信息处理研究中心许丈都云程李渝勤施水才 (北京信息科技大学中文信息处理研究中心,北京,100101)
【摘要】Web页面所表达的"主题"信息通常隐藏在大量无关结构和文字中,准确完整地提取网 页主题信息是影响Web应用服务质量的关键技术之一.目前的提取方法多依赖于网页模板信息,而 Web上的网页模板不计其数,因此这些方法缺乏通用性.且随着模板数量的增加,模板库的维护工 作也变得日益复杂.本文基于DOM规范,把HTML网页表示成树结构,然后提出一种新的结点主题相 关性判定方法,依据此方法判定出要抽取的内容,并删除无关内容,最后输出只含主题信息的HTML文 档.方法不依赖于模板信息,是一种通用的主题信息提取方法.实验结果证明了方法的准确性和有
5节是对本文的总结和对未来工作的展望.
3算法描述
3.1
DOM(文档对象模型)
DOM(Document Object Model)【4】是W3C制定的标准接口规范.DOM提供了访问页面中各个
元素属性与方法的接口.每一个网页都会对应一个DOM树,图1是一个DOM树及HTML源码的 对照图.通过对DOM树的遍历,可以对页面中每一个元素进行处理.树的每个结点是一个对象. DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地
v耐母the
accuracy and validity of
the approach
presented in
[Keywords]DOM;information
1引言
随着Internet应用的日益普及,网络上的信息量在飞速增加.Web已经成为当今最庞大的信息
库.但是,从Web文档中提取有用信息比较困难,这是因为Web页面上通常含有很多用户并不关心
content are
represents
HTML document independent
which only contains the topic
information.This
universal method,
which is
of template information.And experimentM results this paper. extraction;partition;correlmivity
69
第二十届全国计算机信息管理学术研讨会
文档.
4信息抽取算法
本系统的HTML解析器采用的是CyberNeko HTML Parser[5]解析器.过滤器从DOM树中搜寻 所有无关结点的标签,凡是搜寻到则全部删除这些结点,若没有找剑则返回.本系统所涉及的无关 结点的HTML标签包括:图片<img>,脚本<script>,表单<form>,显示风格<style>等.本系统的分
University,Beijing 100101)
[Abstract]The"topic''information in
unnecessary images and key technique
to a
web page is always hidden among unimportant features such
this paper,
a
the task ofmaintaining template base
011
is increasingly complex wim
templatesHale Waihona Puke Baiduincreasing.In
new extraction methodology based
DOM
is proposed by transforming HTML
息的结点.这种方法适合于一个网页中所有的正文信息都放在一个table中的情况.但实际上,网页
中的正文信息并不都是放在table中.而且此方法在处理正文信息作为一个大的table中的一个子单 元出现时,准确度不高,容易抽取出的非主题内容.此外,这种方法还不适合抽取小信息量的主题 信息.
67
第一二}'届伞围汁算机信息管理学术研讨会
效性.
【关键词1 DOM,信息提取,分块,相关度
A General Approach
to Extracting Topical
Information in
HTML Pages
Xu
Wen,Du Yuncheng,Li
Yuqin,Shl Shuical
(Chinese Information Processing Research Center,Beijing Information Science&Technology
as
extraneous
links.So extracting the topical
content
accurately and integrallty is
a
improve the service qualities of web applications.Presently,there exist many extraction
块结点指的是凡是包含有中文内容的所有容器标签.之所以这样划分是为了保证对每一个内容块都
进行主题相关性判定,以增强判定的准确性.当遇到分块结点时调用语义分析器,向该结点添加语 义属性.本文算法所采用的语义信息是块中非链接中文字符总数和链接总数,分别用words和links
属性表示.其中,非链接文字指不在链接上的文字,一个块的1F链接文字总数可以代表它的内容. 本系统所涉及的分块结点的HTML标签包括:<table>,<缸.>,<td>,<p>,<div>等.剪枝器对树中 结点的主题相关性进行判定,当满足剪枝条件时,就删除该结点.
3.3信息抽取系统框架
图3信息抽取系统框架 解析器将HTML文档转化为DOM树.过滤器从DOM树中删除无关结点,无关结点如图片
<img>,J挪本<script>,表单<fo彻>等.语义分析器向DOM树中结点添加语义属性值.
剪枝器通
过判定各结点的主题相关性从树中删除无关内容和没有内容的块,最后输出只含有主题信息的HTML
分块结点的主题相关性表示该结点与HTML文档主题的关联程度.剪切器正是通过对结点的主 题相关度判定来进行剪枝的.主题相关性判定包含两部分:局部相关性判定(由局部相关度表示) 和上下文相关性判定.局部相关度由块中非链接中文字符总数和链接总数决定,其计算公式可以表
达为:
words
local(block
f)=
documents
into DOM trees.According to the method,the deleted.The result of the approach approach is
a
topical contents are extracted and topic-unrelated the
(block
f)
锄砖(block,)
Ⅳ
links(block
f)=∑links(block
j=1
c.)
words(block 其中,
f)=∑words(block
/=1
c#) 用其
blockr表示block;的第J个子树,links(blocki)是blocki的links属性值,
本文的算法属丁:B类情形.参考上述文献中提出的启发式规则,并结合对HTML网页性质的统
计和观察,本文提出了一种新的网页主题信息提取算法.该算法不需要依赖网页模板等附加信息,
对单一页面进行处理,实验结果证明了提取到的主题信息具有较高的准确性和完整性.
本文下面是这样组织的:第3节讲述网页主题信息提取算法;第4节描述实验结果与分析;第
methods which depend upon templates of web pages.Unfortunately,the number of templates of web pages
are
countless.As
a
result,those methods
are
lack
ofgenerality.And
的信息,如广告链接和图像等,它们分布于网页四周,甚至附着在主题信息旁边,文档主题很不明
确,使用户不能迅速定位所需信息.通常我们在浏览Web上的网页时会发现两部分内容:一部分内
66
第二十届全国计算机信息管理学术研讨会
容体现的是网页的主题信息,比如一张新闻网页中的新闻部分,我们称之为"主题"内容;另一部 分则是与主题内容无关的导航条,广告信息,版权信息以及调查问卷等内容,我们称之为"噪音" 内容. 准确完整地提取网页中的主题信息是提高Web应用服务质量的一项关键技术.这是冈为,Web 应用程序可以以网页的主题内容为处理对象,提取出主题内容后可以显著简化网页内标签结构的复 杂性并减小网页的大小,从而节省后续处理过程的时间和空间开销.网页主题内容提取已成为Web信 息系统预处理环节中一个必不可少的工作[1】.此外,对于使用便携式设备上网的用户来说,他们需