基于视觉特征的网页信息提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 视觉块定位算法(VBPA)与网页信息提取
在对网页使用 VIPS 算法进行视觉分块后,通过提出视觉块定位算法:VBPA(Visual Block Positioning Algorithm)来对网页信息区域块进行定位和提取工作。 4.1 视觉块 B 的特征值
来自百度文库
对于第 2 节中得到的 VBT 中的每个视觉块 B, 记录它在网页中的位置信息、 大小信息、 文字特征信息以及图片信息等。设定网页的左上角顶点为坐标原点,网页的右下角顶点坐 标为(Width,Height),其中 Width 和 Height 为经过 VIPS 算法得到的每个视觉块的宽度和 高度,每个页面块的中心点坐标为(CenterX,CenterY)。通过 VIPS 算法可以得到每个视觉 块 B 到当前页面上边界的距离 B _ top ,到左边界的距离 B _ lef , B 的横向中轴线的位置 L _ land B _ top 0.5Height ,纵向中轴线位置 L _ protrait B _ left 0.5Width 。根据记录的这些信息,对每 一个视觉块 B 做出如下定义。 定义 1:B 的横向中轴线与 B 的父节点块的横向中轴线之间的距离 L _ land L _ fland , 其中 L _ fland 为 B 的父节点块的横向中轴线的位置。 定义 2:B 的纵向中轴线与 B 的父节点块的中轴线之间的距离 L _ protrait L _ fprotrait , 其中 L _ fprotrait 为 B 的父节点块的纵向中轴线的位置。 定义 3:语义块 B 的面积 S _ B 与 Web 页面的面积 S _ page 之比为
16
Web 已经成为这世界上最大的信息来源,在 Web 上检索信息已成为了一项重要的任务。 网页具有丰富的内容表现与互动的特性,这些特性决定了网页从视觉表现形式上传达 着信息[1]。视觉识别的重要特征是在网页上特殊信息,视觉特征在发现和提取网页信息时 十分重要。本文从人们浏览网页的角度出发,利用网页在显示时所表现出的视觉信息及布 局特征,采用 VIPS 算法[2]对网页进行视觉分块处理,在视觉块的基础上根据视觉特征分析 有效地定位到价值信息块,再进一步提取出 Web 页面的价值信息。
Web information extraction based on visual characteris tics
WU Qian, YANG Xiao, ZHANG Zhao-xin
School of Computer Science and Technology Harbin Institute of Technology (Weihai), Weihai 264209 E-mail: yxyx3258@163.com Abstract: In the age of rapid development of Internet technology, Web is becoming the world's largest database of information, how to effectively manage the use of Web information is currently a hot issue. This paper discusses the issue of Web information extraction. Traditional web information extraction is mainly based on DOM tree and HTML tag analysis. Based on VIPS, the paper is proposed visual block positioning algorithm for Web page information extraction through induction Web page visual features and visual pieces feature information. The theme-based web-site and BBS web-site input as VIPS, analysis the output of VIPS and the visual block tree and define visual characteristics such as text density and link text density. The paper put forward a visual block positioning algorithm VBPA. It will be the theme of location information to a node VBT, and then to extract theme information. Experimental results show that the visual features of the visual block positioning algorithm are superior to the traditional web information extraction algorithm and can be a higher quality of information extraction. Keywords: VIPS;Visual pieces positioning;VBPA;Subject extraction;BBS information extraction
S_B
4.2
VBPA 在主题型网页主题内容定位提取
主题型网页指的是 Web 中如新闻、博客、个人空间等类型的具有明确主题信息区域的 网页, 需要正确定位和提取网页主题内容 (标题和正文等) 所在的视觉块。 本文中提取 Web [2] 页面主题信息,采用基于视觉分块的方法及 VIPS 算法 。具有以下三个步骤: (1)一个主
2 相关工作
提取网页信息的方法主要是基于分析网页的 HTML 源文件,解析成语法树。一些研究 者试图利用数据库技术为网页制作一个包装器(Wapper),若一个网页可以分为语义相关 的几部分,包装器就可以很容易地匹配数据并提取数据[2]。 现有的 web 信息抽取技术按其 包装器工作原理不同可分为以下几类[3]:(1)基于自然语言处理方式的信息抽取;(2)基于归 纳学习的信息抽取;(3)基于自定义查询语言的信息抽取,典型代表有 A.saguhuet 等人研制 的信息抽取器制造工具 W4F[4]。也有研究者分析了网页的布局结构,并尝试在语义层次划 分的页面,提取网页内容信息。近年来网页信息自动抽取研究取得很多成果[5],但是大多 数方法主要依靠分析 HTML 的语法结构, 虽然取得了不错的效果, 但也存在很大的局限性, 其中最大的局限性就是拓展性较低。文献[6]提出了基于视觉特征的网页信息标题抽取方 法,达到了较高的正确率。但是,其抽取数据量较少,无法满足提取网页主题信息的要求。 目前,涉及网页视觉特征的研究成果也有很多[7],这些研究试图将网页信息提取与网 页物理结构分离开来,取得了一定的成果,但总体上仍处在发展阶段。文献 [2] 提出了一 种自动自上而下独立标签树的方法来检测网站的内容结构,在模拟用户如何理解网页布局 结构的基础上,方法独立于 HTML 文件,即使 HTML 的结构和布局结构不同,也有较高 正确率,适合于对 Web 页面进行精确分块,但无法自动定位主题信息区域。文献[3] 针对 BBS 网页自动抽取用户发言信息, 提出基于 BBS 主题网页内用户发言信息的视觉特征的有 效抽取信息技术,但是算法整体过于复杂,效率不符合提取的实时性需求。文献[8]提出了 利用 TABLE 标记和视觉特征对页面进行视觉块划分,并识别视觉块属性的算法 TVPS,该 算法中对分块方法只从 TABLE 标记进行考虑,但是实际中网页正文信息不完全在 TABLE 标记中。如果只考虑网页的 TABLE 标记,可能会造成正文信息的缺失。 本文通过观察和统计网页中不同类型主题区域与价值信息区域的在视觉上的特征表 现,同时对这些特征进行共性发掘与统计分析,提出了基于视觉特征的网页价值信息区域 视觉块定位算法:VBPA(Visual Block Positioning Algorithm),在此基础上可以准确的完成 对所需网页信息的提取工作,取得了较好的效果。
3 网页视觉分块算法
首先,使用 VIPS 算法对网页进行视觉分块,VIPS(Vision-based Page Segmentation)算 法 是由微软亚洲研究院提出的, 该算法是基于网页视觉内容结构信息, 结合 DOM 树而得 到的。简单的说就是把网页分割成一块一块的,比如整个页面的页眉是一块,中间是一块, 页脚是一块,在每一个块中又根据内容和特征分成更多、更细的小块,整个过程是一个自 顶向下的迭代过程。算法的最后还要把太小的块根据语义规则进行语义块重构,最终建立
[2]
17
一个基于 Web 网页的视觉分块树 VBT。本文使用 VIPS 算法参考文献[2],首先将一个 Web 页面作为 VIPS 算法的输入,通过算法解析 Web 页面得到一个抽象的结构,视觉分块树 (Visuanl Block Tree,VBT)[3]。与 DOM 树不同,VBT 具有以下特征: 特征一:VBT 中节点与视觉分块是等价的; 特征二:VBT 中的每一个节点对应一个矩形的视觉区域(如文本、图片、链接等) ; 特征三: VBT 上具有父子关系的节点, 在网页中对应的矩形区域在几何上是包含关系。 但文献[2]仅仅提供了一种基于视觉特征的网页分块算法,得到网页的视觉分块集合, 但是没有给出如何根据视觉特征进行网页信息提取的方法,本文的工作基于其 VIPS 算法 的基础上,提出利用已得视觉块的视觉特征进行网页信息提取的算法。
基于视觉特征的网页信息提取*
吴倩,杨逍,张兆心
哈尔滨工业大学(威海)计算机科学与技术学院,威海,264209 E-mail: yxyx3258@163.com 摘 要:在互联网技术高速发展的时代,Web 成为全球最大的信息数据库,如何有效管理、利用 Web 信 息是当前的热点问题, 本文主要探讨了 Web 网页信息提取问题。 传统的网页信息提取主要基于 DOM 树及 HTML 标签分析, 文中在基于网页视觉特征分块算法 VIPS 基础上, 通过归纳 Web 网页视觉特征及视觉块 特征信息,提出了基于视觉块的定位算法的 Web 页面信息提取方法。分别将主题型网页和 BBS 型网页作 为 VIPS 算法的输入,分析 VIPS 算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等 视觉特征量,提出了视觉块定位算法 VBPA,定位主题信息块到 VBT 中的某一个节点,进而提取主题信 息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息 提取质量。 关键词:VIPS;视觉块定位;VBPA;主题内容提取;BBS 信息提取。
S_B 。 S _ page
定义 4:B 的纯文本密度 _ text 是视觉块B中纯文本的长度与视觉块B的面积之比为
_ text
L _ textlength S_B
,其中 L _ textlength 是视觉块B中纯文本的长度。
定义 5:B 的链接文本的密度 _ link 为视觉块B中链接文本的长度与视觉块B的面积之 比为 _ link L _ linklength ,其中, L _ linklength 是视觉块B中链接文本的长度。
1 引言
随着计算机的普及和互联网的迅猛发展,Internet 上的信息资源正以惊人的速度增长, *
作者简介:吴倩(1988-),女,安徽淮南人,本科生;杨逍(1990-),男,河南周口人,本科生;张兆心 (1979-),男,黑龙江哈尔滨人,博士,副教授,主要研究方向为网络安全。 基金项目: 网络危机响应系统关键技术研究(2007242A47)、 哈尔滨工业大学校级科技立项(20090704011)。