基于网页分块的正文信息提取方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期:2008-07-27;修回日期:2008-09-15。

基金项目:重庆市自然科学基金资助项目(2007BB2454)。

作者简介:黄玲(1983-),女,江西赣州人,硕士研究生,主要研究方向:智能信息处理;　陈龙(1970-),男,重庆人,副教授,博士,主要研究方向:智能信息处理、信息安全。

文章编号:1001-9081(2008)S2-0326-03
基于网页分块的正文信息提取方法
黄　玲,陈　龙
(重庆邮电大学计算机科学与技术研究所,重庆400065)
(shanlu316@ )
摘　要:网页主题信息通常湮没在大量的无关文字和HT ML 标记中,给应用程序迅速获取主题信息增加的难度。

提出了一种基于网页分块的正文信息抽取方法。

该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HT ML 标记和无关文字。

实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。

关键词:W eb 信息抽取;主题内容块;网页正文信息中图分类号:TP391 文献标志码:A
W eb i n forma ti on extracti on ba sed on v isua l block segm en ta ti on
HUANG L ing,CHEN Long
(Institute of Co m puter Science and Technology,Chongqing U niversity of Posts and Teleco mm unication,Chongqing 400065,China )
Abstract:W eb pages al w ays contain large nu mbers of irrelevant words and HT ML tags excep t f or inf or mative inf or mati on .This enhances the difficulties of extracting inf or mative inf or mati on fr om W eb pages quickly .A method of extract inf or mative inf or mati on based on user πs interest is p r oposed .
The experi m ental results p r ove that this method is good
universality and can obtain infor mative message accurately,s o our app r oach is easy t o realize .
Key words:W eb infor mati on extracti on;inf or mative content bl ock;main text of W eb page
0　引言
I nternet 及其应用技术的迅猛发展,产生了海量的W eb
数据[1]。

,如广告、用于装饰网页的图片以及导航链接等。

单纯靠人工来从海量的数据中获取有用的信息是不现实的,必须依靠应用程序来实现。

然而,网页的初始设计目的是为了方便用户浏览,而不是便于应用程序自动处理。

为了增强W eb 数据的可用性,出现了W eb 信息抽取技术,它通过包装现有W eb 信息源,将网页上的信息以更为结构化的方式抽取出来,为应用程序利用W eb 中的数据提供了可能[2]。

目前有多种网页信息提取技术。

文献[3]在发现网页正文内容块时是以内容块中链接文本的特征和多少来判断的,这种算法很难将一些非链接的冗余信息如版权信息滤除。

R I P B 算法
[4]
将网页分割成若干视觉上的内容块,并将结构相
似的内容块聚类,最后通过内容块中图片和文字所占的比重来确定哪个内容块为网页正文内容块。

该算法在冗余信息中文字占得比较多时效果不好。

文献[5]通过HT M 算法来计算文档树的相似度并删除噪声结点。

该算法需要经过复杂的计算,而且对于同一模板生成的网页信息抽取效果不好。

为此,本文引入分块的思想,提出了一种实现简单、通用性较强的网页正文信息提取方法。

该方法首先提取包含网页正文信息的内容块,然后利用正则表达式和简单的判别规则删除并滤除HT ML 标记。

该方法不需要借助于其他一些系统如分词系统,也不需要进行复杂的计算,且不依赖于特定的
HT ML 标记,因此实现简单且具有一定通用性。

1　正文信息抽取方法
文本网页可分为两种类型:主题型网页、目录型网页。

主题型网页通常通过成段的文字描述一个或多个主题。

虽然主题型网页也会出现图片和超链接,但这些图片和超链接并不是网页的主体[6]。

目录型网页通常提供一组相关或者不相关的链接。

本文所研究的正文信息提取是指主题型网页中成段文字的提取。

在主题型网页中,正文信息是成堆出现的,从视觉上看是处在一个内容块中,称为网页正文内容块。

网页正文内容块的重要特征是包含网页正文标题,而在动态网页中,网页正文标题通常在网页标题中也会出现。

所以我们可按两个步骤进行正文信息提取:网页正文内容块提取和网页正文内容块中的网页正文提取。

1.1　网页正文内容块提取
从HT ML 文件在浏览器中展现的效果来看,页面是由若干内容块构成的,这些内容块是由HT ML 容器标签分割而成的。

进行页面布局的标签有<table >、<div >[4]。

本文所说的内容块是指页面布局标签所划分的内容块。

从网页分块角度看,目前多数网站的网页正文标题和网页正文的布局可分为三种情况。

第一种情况是网页正文和网
页分别存放在一个内容块中的不同下级内容块中,如图1(a )所示;第二种情况网页正文标题和网页正文同在一个内容块中,如图1(b )所示,第三种情况是网页正文在网页正文标题
第28卷
2008年12月
计算机应用
Computer App licati ons
Vol .28Dec .2008
所在内容块的下级内容块中,如图1(c )所示。

为了保证网页正文不被漏选,且所选的内容块尽可能小,文本提取网页正文标题所在内容块的上级内容块作为需要提取的网页正文内容块。

图1　网页正文标题和网页正文的布局示意图
1.1.1　提取网页正文标题
网页标题格式因网站的不同而各异,有些网页标题就是网页正文标题,有些网页标题是由网页正文标题、连接符号和网站其他信息如板块信息构成的,如图1所示的网页标题是由主题文本标题、板块信息和网站信息构成,其间用符号“_”连接起来。

主题文本标题的提取是通过规则集来实现的,本文将规则结构定义为如下形式:
{R,P,U }
其中:R 是连接词集合,连接词把网页标题分成若干段字符串;第P 个字符串是主题文本标题;U 是网页所在网站的地址。

初始状态规则集只有一条默认规则,其中R ={′-′,′_′,′′},P =1,U ="3",当规则集中没有对应网站的规则时,则使用默认规则,逐个比配R 中的连接词,找到当前网页标题使用的连接词。

如果网页标题被成功抽取,就在规则集中增加该网页使用的规则以方便对同一网站其他网页的抽取。

如成功抽取某网页的网页标题后,在规则集中增加规则{{′_′},
1,"htt p://news .qq .com "},表示网页所在网站是“htt p://ne ws .qq .com ”,网页标题各部分由符号“_”连接来,且网页标
题的第一部分即网页正文标题。

1.1.2　提取网页正文内容块
由前面的分析可得出根据网页正文标题来定位网页正文内容块的方法。

通常情况下,在网页源代码的<body >…
</body >之间有且仅有一个匹配网页正文标题且非链接文
本的文本字符串。

如存在不只一个网页正文标题字符串时,默认定位为第一个匹配结果所在位置。

在一个规范化网页[8]的HT ML 文件中,HT ML 标签是成对出现的。

每个
HT ML 标签的起始标记
(<table >、<div >等)必然有一个HT ML 标签的结束标记(</table >、</div >等)与之匹配。

HT ML 标签允许嵌套,
嵌套标签的匹配与数学算式中括号的匹配类似。

从网页源代码上看,内容块是包含在一对页面布局标签之间的所有内容。

网页正文内容块是从网页正文标题开始从内往外数第二对页面布局标签。

因此查找网页正文内容块的过程即从网页正文标题位置开始分别向前和向后寻找第二对匹配的分页标签。

具体步骤如下:
1)标记变量初始值为0,从“网页正文标题”所在位置开
始向前搜索,当搜索到<div >或者<table >时,标记变量加
1,搜索到</div >或者</table >时标记变量减1,当标记变
量的值为2时停止搜索,当前位置即为网页正文内容块的开始位置。

2)重置标记变量值为0,从“网页正文标题”所在位置开
始向后搜索,以同样的方式改变标记变量的值,当标记变量的值为-2时停止搜索,当前位置即为网页正文内容块的结束
位置。

3)从网页正文内容块开始位置到网页正文内容块结束
位置的所有内容即网页正文内容块的所有内容。

1.2　网页正文提取
网页正文内容块通常仍然包含一些冗余的网页内容,尤其是在网页布局为如图1(a )和图1(b )所示的情况时,包含冗余信息的可能性最大。

以table 、tr 或div 标签对网页正文内容块进行分块,并根据标签之前的嵌套关系以标签树的形式表现出来。

根据
HT ML 文件的特点,有些非终端节点可能包含一些不在其子
节点之中的文本。

为了便于分析,将这些文本放在当前结点的单独的子结点中。

对冗余网页内容的删除过程即对标签树进行剪枝的过程。

标签树的剪枝步骤如下:
第1步　使用式(1)自底向上考查节点中链接文本
(linked words )与非链接文本(unlinked words )的比值α,当α
大于一定阈值时判断为冗余结点并删除(实验中取阈值为
0.5)。

α=linked words
unlinkedwords
(1)
第2步　自底向上考查叶子节点,如果没有完整的标点符号序列[7],则删除该节点;
第3步　考查第二层节点,如果某节点及其子树包含的文本数远小于其他结点,则判断为冗余结点并删除。

此处引入式(2)进行判断。

ω=
L i L L =
1n
∑n
j =1
L
j
(2)
其中:L i 为第i 个节点子树中所有节点的文本数之和(i =1,
2,…,n ),L 为第二层节点的平均文本数。

当ω<T 时判断为冗
余节点。

本文设定T =0.7。

经过剪枝处理之后,网页正文内容块中仍然存在大量
HT ML 标记,这些HT ML 标记对应用程序快速提取网页主题
并无用处。

本文使用正则表达式删除HT ML 标记,具体步骤如表1所示。

表1　删除冗余HT ML 标记的具体步骤
操作
正则表达式
删除“”及其之间的内容

删除“<Scri p t ”和“</Scri p t >”及其之间的内容<scri p t (.3?)</scri p t >删除“<a href ”和“</a >”及其之间的内容<a href (.3?)</a >删除“<style >”和“</style >”及其之间的内容<style (.3?)</style >删除所有的HT ML 标记
</?[^>]+>
72312月黄玲等:基于网页分块的正文信息提取方法
2　实验与分析
文献[6]在进行页面分块时需要首先根据标签的数量来判断网页使用何种页面布局标签,然后针对单一的页面布局标签对网页进行分块。

然而,通过大量分析可知,仅仅根据标签数量多少来判断页面使用何种布局标签是不准确的。

与文献[6]分块算法不同的是,本文在分块时同时考虑了两种table 和div 页面布局标签,而不需要实现判断网页使用何种标签。

文献[3]在判断冗余内容块时,由于只考虑冗余文本是链接文本的情况而可能会误将一些非链接的冗余文本如版权信息当成网页正文保存下来。

如图1所示,使用文献[3]算法会将内容块1、2的内容都提取出来,而内容块2的内容是版权信息,并非正文信息。

R I P B 算法[4]通过内容块中图片和文字所占的比重来确定哪个内容块为主题内容块,在提取图2所示网页时会将内容块1、2、5都作为网页正文内容块提取出来。

与文献[3]算法相比,本文不仅考虑了冗余文本是非链接文本的情况,还考虑了冗余文本是非链接文本的情况,解决了文献[3]中存在的问题,在提取图1所示网页时不会将内容块1中的内容提取出来。

同时,本文考虑到在主题型网页中,图片并不是网页的主题,因此将图片作为冗余内容删除了,而没有像R I P B [4]算法那样根据图片在内容块中的比重来判断是否冗余内容块。

一些内容块在删除图片后仍然存在零散的文字,本文通过分析文字的结构与文字占整个网页内容的比重来判断并删除冗余内容块。

可见,本文能够如R I P B [4]算法那样判断并删除图片较多的冗余内容块,又解决了
R I P B [4]
算法无法删除包含文本而图片较少的冗余内容块的问题。

与文献[8]算法相比,本文在删除大多数链接文本的同时保留了正文信息中的链接信息,而没有像文献[8]算法那样把所有链接一并作为冗余信息删除。

图2　正文信息提取效果示例
目前多数文本提取算法在实验时都是选取同一网站的或
者少数几个网站的若干网页进行测试,然而这种测试方法对于类似本文的以网页结
构为基础的提取并不适合。

因为通常情况下,同一网站的主题型网页具有相同或类似的页面结构,正文信息的提取效果也是相同或者类似。

为了更好的检测算法的效果,我们随机抽取了搜狐、中华网、千龙网等100多个不同网站的200多个主题型网页进行实验。

本文使用完整率和准确率[3]来评估正文信息提取的效果。

其中完整率为提取之后保留了正文信息的网页数与被测试网页总数的比值,准确率为提取之后不包含冗余内容的网页数与被测试网页总数的比值。

实验结果如表2所示。

表2　正文信息提取完整率和准确率网站数量
网页总数
完整率/%准确率/%
150
238
96.7
98
从表2可以看出,完整率要比准确率低。

这是因为没有正确提取的网页多数是因为没有准确定位网页正文标题而造成的,而一些没有准确定位网页正文标题的网页,在错把冗余内容块当成网页正文内容块提取之后通常会在后面的处理中被删除,即最后什么也没有提取出来。

造成网页正文标题不能准确定位的原因有两个。

首先是有些文件的网页标题不满足本文提出的通用形式,如“千龙网———北京———市政协委员调研残疾儿童康复教育工作”,这种情况可以通过手工添加主题文本标题提取规则来避免错误;其次是在网页正文中存在多个匹配主题文本标题的字符串,而第一个匹配结果只是导航信息,这种情况可以通过对匹配结果进行进一步分析来避免错误。

3　结语
本文结合现有的W eb 信息提取算法,利用动态网页生成标题的特点,提出了一个实现简单、通用性较强的基于网页分块的正文信息抽取方法。

本方法利用正则表达式简单强大的功能,不需要复杂的计算,不需要分析整个文档,比传统W eb 信息提取算法在实现上简单得多。

同时,本方法在进行分块时可以同时考虑两种页面布局标签,而不依赖于某个网页布局标签,具有较强的通用性。

实验证明,该方法在主题型网页中能够准确地抽取正文信息。

参考文献:
[1]　高军,王腾蛟,杨冬青,等.基于Ont ol ogy 的W eb 内容二阶段半
自动提取方法[J ].计算机学报:2004,27(3):310-318.
[2]　任仲晨,薛永生.基于页面标签的W eb 结构化数据抽取[J ].计
算机科学:2007,34(10):133-136.
[3]　F U Y AN ,Y ANG DONG 2Q I N G,T ANG SH I 2W E I .U sing XPath t o
discover inf or mative content bl ocks ofW eb pages[C ]//3rd I nterna 2ti onal Conference on Se mantics:Knowledge and Grid .Xi πan:I EEE Press,2007:450-453.
[4]　K ANG J,CHO I J.Detecting inf or mative W eb page bl ocks f or effi 2
cient inf or mati on extracti on using visual bl ock seg mentati on [C ]//2007I nternati onal Sy mposium on I nf or mati on Technol ogy Conver 2gence .Jeonju,Korea:I EEE Press,2007:306-310.
[5]　KI M Y,P ARK J,KI M T,et al .W eb inf or mati on extracti on by HT 2
ML tree edit distance matching[C ]//2007I nternati onal Conference on Convergence I nf or mati on Technol ogy .Gyeongju,Korea:I EEE
Press,2007:2455-2460.
[6]　黄文蓓,杨静,顾君忠.基于分块的网页正文提取算法研究[J ].
计算机应用,2007(6):24-26,30.
[7]　蒲强,李鑫,刘启和,等.一种W eb 主题文本通用提取方法[J ].
计算机应用,2007,27(6):1394-1396.
[8]　K AYED M ,CHANG C H.Fi V aTech:Page 2level W eb data extrac 2
ti on fr om te mp late pages[C ]//Seventh I EEE I nternati onal Confer 2ence on Data M ining .Omaha,US A:I EEE Press,2007:15-20.[9]　L I DONG,HUAN L I N 2PENG .The ont ol ogy relati on extracti on for
se mantic W eb annotati on [C ]//Eighth I EEE I nternati onal Sy mposi 2um on Cluster Computing and the Grid .Lyon,France:I EEE Press,2008:534-541.
823 计算机应用
2008年。