基于主题型页面的正文信息抽取技术研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于主题型页面的正文信息抽取技术研究

摘要:Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。

关键词:主题型页面;网页标题;正文抽取

在电子商务和电子政务迅猛发展的今天,Web已经成为当今最大的信息资源库,如何从这一资源库的海量数据中筛选出用户关心的信息就成为一个富有挑战性的课题。我们在浏览网页时,通常会发现两类内容:一类内容表达的是页面的主要内容,比如一张博客页面中的博文部分,这类内容属于“主题”内容;另一类则是与主题无关的内容,比如广告、产品推介以及导航链接等,这一类我们则称之这“噪音”内容。尽管这些噪音内容对浏览互联网的用户起到某些功能性作用,它却严重妨碍了用户对网页主题信息的提取。如何才能提高Web 数据的可用性,快速抽取页面文本信息是解决这一问题的可选方案。

目前,网页信息抽取有多种方式,信息抽取的核心就是从Web页面所包含的无结构或半结构信息中提取用户感兴趣的数据,并将其转化为更为结构化、语义更为清晰的格式。FU YAN[1]以内容块中链接文本的特征和多少来判断网页正方,这一算法对于非链接效果不好。语义文本单元STU[2](Semantic Textual Unit)模型采用分块思想,缩短定位时间,却没有抽出主题信息且改变了源网页的结构和内容。RIPB(recognizing Informative Page Blocks)算法[3]最后通过内容块图片和文字所占的比重来确定网页正文,在冗余信息中包含较多文字时效果不好。KIMY[4]通过HTM(HTML Tree Matching Algorithm)算法来计算文档树的相似度并删除噪声结点,该算法对于采用同一模板产生的页面效果不够理想。

为此,本文提出了一种实现简单、通用性较强的基于主题型网页的正文信息抽取算法。该算法首先判定是否为主题型页面,然后提取网页正文信息,最后通过正则表达式和简单算法删除并滤除HTML标记。

1、主题型页面判定

主题型网页就是指内容能充分表达主旨的页面,即:网页通过文字描述一件或多件事物,有一明确主题,比如新闻网页就是典型的主题页面,和非主题型页面相比,它一般具有三个特征:文字(非锚记文本)较多、统一资源定位符URL较长和链接较少。

鉴别一个网页是否为主题型页面,可以通过对网页进行二元分类来实现。二元分类包含

三个阶段:第一阶段,根据主题型网页的重要特征进行分类,这一阶段不需要复杂算法,只需设置好特征阈值;第二阶段,对在第一阶段中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类。第三阶段:经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页。具体流程参见图1:

图1 二元分类三个阶段

在第一阶段之前,可以利用HTML分析工具(HtmlParser)去除页面脚本代码、锚记文本和噪音文本。在具体判定时,要依据页面的中文句号和逗号的数目、URL层数、URL目录型以及是否包含某些特殊关键字来设定具体阈值。抽样测试表明,在主题型页面中,句号和逗号数目绝大多数超过20个,且URL层数为多于两个。

2、主题页面正文信息抽取

众所周知,HTML页面的编写具有很强的灵活性与随意性,每个设计者均可按自己的思路设计,这就导致页面呈现出异构性,给信息的抽取带来了困难,但就主题型网页而言,网页正文标题和网页正文的布局无外乎两种情况:在同一域块和不在同一域块。主题型网页通

常利用大量的文本来介绍,而且这部分文本中绝大部分都是PlainText,即:最终在浏览器中所表现出来的文本,并且这些文本不是跳往其他页面的链接。

2.1提取页面正文标题

通过对新华网、腾讯、凤凰等大型门户网站的分析,可以看出多数网页均包含标题、文摘、超链接等可供用户检索的信息,并且这类网站结构稳定,结构相似,页面标题基本上集中出现在两个位置,一处是页面标题域块,另一处则是正文区域。

对于主题型页面,若要提取页面标题,则可通过删除head区域无关内容来实现。Head 区域主要用于存放三种内容:网页标题、能被浏览器识别但不显示的文本属性、搜索引擎关键词,因此,在这一域块中,如果在、<hn>、<div>、<ul>、<p>、<b>或<strong>里没有出现href、src或link,则可把这些标签中的内容作为网页标题保留,其余的全部删除。若要提取正文标题,则可通过计算近似度来实现。本文从上述门户网站下载了近2万张各类网页进行对比分析,得到标题近似度波动范围大致分布在0.5到1之间,即:0.5 <(正文标题长度/网页标题长度)< 1。另外,通过聚类分析,得出标题出现在标签<DW id=AxticleTit></DW>的几率大约60%,出现在标签<HI id=ArticleTit></HI>几率大约30%,出现在如下四类标签<ul>、<p>、<b>、<strong>中的几率大约为10%。如果在上述标签中没有出现<a>、href或link标签,并且标题近似度也落在0.5与1之间,那么基本上就可断定网页正文标题的具体位置。</p><p>2.2 提取页面正文内容</p><p>在一个规范化的Web页面中,HTML标签总是成对出现的,每个起始标记必然有一个结束标记与之对应。HTML 标签允许嵌套,其匹配规则与数学算式中括号类似。通过分析网页源代码,可以得出网页正文内容一般是从正文标题开始从内往外数第二对页面布局标签之间,因此查找网页正文内容的过程就转变为查找主题信息的起始位置。</p><p>查找这一位置的最有效的方法是找到这样一个节点n,其满足下面条件:假设给定源代码中,正文对应的叶子节点集合为M,对于M中的任何一个节点leaf都是n的子节点。而对于n的任何一个子节点nc,M中都存在不是nc的子节点的节点。在具体查找时,可用集合M描述页面中包含的所有不为<a>标记的叶子节点,U为空集,对于M中的任意节点leaf ,首先判断叶子节点leaf是否是明文,若不是则从叶子节点集合M中删除此节点,接着判断平均长度,最后判断U.size的值,本文设定特征阈值为3。具体算法可用图2来描述:</p> </div> </div> </div> </div> </div> <div id="rightcol" class="viewcol"> <div class="coltitle">相关文档</div> <ul class="lista"> <li><a href="/doc/007813586.html" target="_blank">《中小学综合实践活动课程指导纲要》之设计制作活动(信息技术)推荐主题及其说明</a></li> <li><a href="/doc/0211334085.html" target="_blank">信息技术学科校本主题教研活动案例</a></li> <li><a href="/doc/0312140290.html" target="_blank">科技节信息技术活动方案</a></li> <li><a href="/doc/141153033.html" target="_blank">中小学综合实践活动设计制作活动(信息技术)推荐主题及其说明</a></li> <li><a href="/doc/118936758.html" target="_blank">信息技术系举办端午节特色主题活动</a></li> <li><a href="/doc/1c9212804.html" target="_blank">信息技术教研活动主题策划参考</a></li> <li><a href="/doc/2c6335135.html" target="_blank">信息技术主题活动 中国传统节日</a></li> <li><a href="/doc/2012483746.html" target="_blank">信息技术教研活动主题策划参考</a></li> <li><a href="/doc/2d18723051.html" target="_blank">小学三年级《信息技术》 28《主题活动3 收集和共享信息》教学设计</a></li> <li><a href="/doc/3c1817464.html" target="_blank">信息技术课主题单元活动的设计</a></li> </ul> <div class="coltitle">最新文档</div> <ul class="lista"> <li><a href="/doc/071000073.html" target="_blank">饭店包间名字大全</a></li> <li><a href="/doc/0d10001030.html" target="_blank">word无法创建工作文件,请检查临时环境变量</a></li> <li><a href="/doc/0d10001458.html" target="_blank">自行车健身比赛开幕式讲话词</a></li> <li><a href="/doc/0510001469.html" target="_blank">2018乡村医生个人工作总结</a></li> <li><a href="/doc/0e10002558.html" target="_blank">MySQL测试题 SQL</a></li> <li><a href="/doc/0310002568.html" target="_blank">合勤NXC5200</a></li> <li><a href="/doc/0210004833.html" target="_blank">铁路集中箱空箱调度优化建模案例(案例2)</a></li> <li><a href="/doc/021000530.html" target="_blank">微分几何教学大纲-复旦大学数学科学学院</a></li> <li><a href="/doc/031000596.html" target="_blank">人教版九年级数学上册导学案:24.1.1_圆【精品】</a></li> <li><a href="/doc/0c10006773.html" target="_blank">(整容后办护照用)医院整容证明</a></li> <li><a href="/doc/0e10006860.html" target="_blank">危险废物管理台账</a></li> <li><a href="/doc/0310008420.html" target="_blank">2017年终大会会场物料设计方案</a></li> </ul> </div> </div> <script> var sdocid = "8b7721e6ef630b1c59eef8c75fbfc77da3699736"; var docId = '8b7721e6ef630b1c59eef8c75fbfc77da3699736'; var totalPage = 6; const ext = 'doc'; const pageNum = '6'; </script> <script src="https://assets.360docs.net/pc/js/render.js"></script> <div class="clearfloat"></div> <div id="footer"> <div class="ft_info"> <a href="https://beian.miit.gov.cn">闽ICP备16038512号-3</a> <a href="/tousu.html" target="_blank">侵权投诉</a>  ©2013-2023 360文档中心,www.360docs.net | <a target="_blank" href="/sitemap.html">站点地图</a><br /> 本站资源均为网友上传分享,本站仅负责收集和整理,有任何问题请在对应网页下方投诉通道反馈 </div> <script type="text/javascript">foot()</script> </div> </body> </html>