基于主题型页面的正文信息抽取技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于主题型页面的正文信息抽取技术研究
摘要:Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。
本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。
实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。
关键词:主题型页面;网页标题;正文抽取
在电子商务和电子政务迅猛发展的今天,Web已经成为当今最大的信息资源库,如何从这一资源库的海量数据中筛选出用户关心的信息就成为一个富有挑战性的课题。
我们在浏览网页时,通常会发现两类内容:一类内容表达的是页面的主要内容,比如一张博客页面中的博文部分,这类内容属于“主题”内容;另一类则是与主题无关的内容,比如广告、产品推介以及导航链接等,这一类我们则称之这“噪音”内容。
尽管这些噪音内容对浏览互联网的用户起到某些功能性作用,它却严重妨碍了用户对网页主题信息的提取。
如何才能提高Web 数据的可用性,快速抽取页面文本信息是解决这一问题的可选方案。
目前,网页信息抽取有多种方式,信息抽取的核心就是从Web页面所包含的无结构或半结构信息中提取用户感兴趣的数据,并将其转化为更为结构化、语义更为清晰的格式。
FU YAN[1]以内容块中链接文本的特征和多少来判断网页正方,这一算法对于非链接效果不好。
语义文本单元STU[2](Semantic Textual Unit)模型采用分块思想,缩短定位时间,却没有抽出主题信息且改变了源网页的结构和内容。
RIPB(recognizing Informative Page Blocks)算法[3]最后通过内容块图片和文字所占的比重来确定网页正文,在冗余信息中包含较多文字时效果不好。
KIMY[4]通过HTM(HTML Tree Matching Algorithm)算法来计算文档树的相似度并删除噪声结点,该算法对于采用同一模板产生的页面效果不够理想。
为此,本文提出了一种实现简单、通用性较强的基于主题型网页的正文信息抽取算法。
该算法首先判定是否为主题型页面,然后提取网页正文信息,最后通过正则表达式和简单算法删除并滤除HTML标记。
1、主题型页面判定
主题型网页就是指内容能充分表达主旨的页面,即:网页通过文字描述一件或多件事物,有一明确主题,比如新闻网页就是典型的主题页面,和非主题型页面相比,它一般具有三个特征:文字(非锚记文本)较多、统一资源定位符URL较长和链接较少。
鉴别一个网页是否为主题型页面,可以通过对网页进行二元分类来实现。
二元分类包含
三个阶段:第一阶段,根据主题型网页的重要特征进行分类,这一阶段不需要复杂算法,只需设置好特征阈值;第二阶段,对在第一阶段中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类。
第三阶段:经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页。
具体流程参见图1:
图1 二元分类三个阶段
在第一阶段之前,可以利用HTML分析工具(HtmlParser)去除页面脚本代码、锚记文本和噪音文本。
在具体判定时,要依据页面的中文句号和逗号的数目、URL层数、URL目录型以及是否包含某些特殊关键字来设定具体阈值。
抽样测试表明,在主题型页面中,句号和逗号数目绝大多数超过20个,且URL层数为多于两个。
2、主题页面正文信息抽取
众所周知,HTML页面的编写具有很强的灵活性与随意性,每个设计者均可按自己的思路设计,这就导致页面呈现出异构性,给信息的抽取带来了困难,但就主题型网页而言,网页正文标题和网页正文的布局无外乎两种情况:在同一域块和不在同一域块。
主题型网页通
常利用大量的文本来介绍,而且这部分文本中绝大部分都是PlainText,即:最终在浏览器中所表现出来的文本,并且这些文本不是跳往其他页面的链接。
2.1提取页面正文标题
通过对新华网、腾讯、凤凰等大型门户网站的分析,可以看出多数网页均包含标题、文摘、超链接等可供用户检索的信息,并且这类网站结构稳定,结构相似,页面标题基本上集中出现在两个位置,一处是页面标题域块,另一处则是正文区域。
对于主题型页面,若要提取页面标题,则可通过删除head区域无关内容来实现。
Head 区域主要用于存放三种内容:网页标题、能被浏览器识别但不显示的文本属性、搜索引擎关键词,因此,在这一域块中,如果在<title>、<hn>、<div>、<ul>、<p>、<b>或<strong>里没有出现href、src或link,则可把这些标签中的内容作为网页标题保留,其余的全部删除。
若要提取正文标题,则可通过计算近似度来实现。
本文从上述门户网站下载了近2万张各类网页进行对比分析,得到标题近似度波动范围大致分布在0.5到1之间,即:0.5 <(正文标题长度/网页标题长度)< 1。
另外,通过聚类分析,得出标题出现在标签<DW id=AxticleTit></DW>的几率大约60%,出现在标签<HI id=ArticleTit></HI>几率大约30%,出现在如下四类标签<ul>、<p>、<b>、<strong>中的几率大约为10%。
如果在上述标签中没有出现<a>、href或link标签,并且标题近似度也落在0.5与1之间,那么基本上就可断定网页正文标题的具体位置。
2.2 提取页面正文内容
在一个规范化的Web页面中,HTML标签总是成对出现的,每个起始标记必然有一个结束标记与之对应。
HTML 标签允许嵌套,其匹配规则与数学算式中括号类似。
通过分析网页源代码,可以得出网页正文内容一般是从正文标题开始从内往外数第二对页面布局标签之间,因此查找网页正文内容的过程就转变为查找主题信息的起始位置。
查找这一位置的最有效的方法是找到这样一个节点n,其满足下面条件:假设给定源代码中,正文对应的叶子节点集合为M,对于M中的任何一个节点leaf都是n的子节点。
而对于n的任何一个子节点nc,M中都存在不是nc的子节点的节点。
在具体查找时,可用集合M描述页面中包含的所有不为<a>标记的叶子节点,U为空集,对于M中的任意节点leaf ,首先判断叶子节点leaf是否是明文,若不是则从叶子节点集合M中删除此节点,接着判断平均长度,最后判断U.size的值,本文设定特征阈值为3。
具体算法可用图2来描述:
图2 正文信息发现流程
在获取主要的正文结点位置后,网页正文中仍会包含script、frame等干扰信息,这些干扰信息对正文内容的提取有一定的迟滞作用。
本文使用正则表达式删除此类干扰标记,具体操作如表1所示:
操作正则表达式
删除注释符及其内容<!---(*?)--->
删除script标签及其内容<script(*?)</script>
删除超连接<a href(*?)</a>
删除style及相应属性设置<style(*?)</style>
删除全部HTML标签< /?[^>]+ >
表1 删除冗余HTML标签
3、实验评价
为验证该方法的可行性,从新华网、腾讯、凤凰、新浪、网易5大热门网站中各抽取100篇网页,共500篇网页进行试验,网页内容涉及新闻、财经、军事等多个领域,从页面标题、正文内容、提取的完整率和准确率等方面进行评价。
为验证其性能,从中抽取200
篇进行人工抽取,并进行比对,其中,准确率为正确提取正文信息网页个数与网页总数的百分比,完整率为完整提取正文信息的网页个数与正确提取正文信息网页个数的百分比,实验结果如表2所示。
表2 正文抽取实验数据
通过对实验结果的分析发现,对于布局正规的网页,抽取效果十分理想,对于采用表格布局且行列分布规律的网页,也可实现信息的有效抽取。
实验数据表明,对于非个性化的页面,本文提出的正文抽取完整率和准确率都达到90%以上。
在维持网页结构和内容的情况下,本文提出的抽取方法能准确抽取出页面的正文内容,且抽取方法简单、通用性强,具有很高的可扩展性。
本方法中所使用的正则表达式功能强大,无需复杂计算和分析整个文档,比传统算法在实现上简单。
实验证明 ,该方法在主题型网页中能够准确地抽取正文信息。
参考文献:
[1] FU YAN , YANG DONG2Q ING, TANG SH I2W E I. U sing XPath to discover informative content blocks ofW eb pages[C ] / / 3 rd International Conference on Semantics: Knowledge and Grid. Xiπan: IEEE Press, 2007: 450 - 453
[2] O Buyukkokten,H Garcia-Molina,A Paepcke.Seeing the whole in parts:Text summarization for Web browsing on handheld devices[C]//Proc of the 10th Int’l Conf on World Wide Web.New York:ACM Press,2001:652-662
[3] KANG J,CHO I J.Detecting informative Web page blocks for efficient
information extraction using visual block segmentation[C]//2007 International Symposium on Information Technology Conver-gence.Jeon ju,Korea:IEEE Press,2007:306-310.
[4]KIM Y,PAPK J,KIM T,et al.Web information extraction by HTMLtree edit distance matching[C]//2007 Intermational Conference on Convergence Information Technolohy.Gyeongju,Korea:IEEE Press,2007:2455-2460.
[5] 侯明燕,杨天奇. 基于网页分割的Web信息提取算法[J]. 微型机与应用. 2011(05)
[6] 于满泉,陈铁睿,许洪波. 基于分块的网页信息解析器的研究与设计[J]. 计算机应用. 2005(04)。