利用正则表达式解析新闻网页的算法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

２新闻网页的特征以及结构分析新闻网页是具有很强开发价值的一类网页，它具页新闻。由于这些网页在各大网站所起的作用相似，而且有时效性强、信息量大、结构稳定、更新快、需求广所以这类网页的结构相当稳定，而且不会泛、实用价值高等特点。考虑到这些特点，对新闻网功能相近，
们是各大门户网站或新闻网站用来提供用户检索新闻之用的新闻页面，这类新闻页面包含符合检索条件的若干条新闻记录，这些条新闻记录有标题、文摘、出处以及超链，可以用来指引用户查阅新闻全文。这类新闻网页其实就是各大网站给自己站内的所有新闻网页编的 “ 索引” ，能起到很好的说明和指示的作用。因此，只要能处理好这类有关某一主题的新闻网页，实际上就等于处理了绝大部分的与这一主题相关的网
适用于大批量地统一处页的处理如果按照传统的网页解析方法，不仅效率受到某一个具体网站的约束，理。比如新浪网和搜狐网，百度网等新闻网页就基本低，效果也不会理想。而有一类新闻网页更为特殊也更具有代表性，它一样。下面是新浪网站一个新闻网页的实际例子：
＜ｔｌ．．ｈａ＞．．／ａ＞ｂｄ＞．＜ｅｄ．．＜ｅｄ＜ｏｙｈｍ＞．．．．．ｈ
一天坑科考活动始末＜ｆｔ＜＞ｆｔｒ＃３３＞ｉ０１５１１：＜ｉ／ｎ＜ｒ．，我们架一些绳梯，然后／ｎ／＜ｏｃｌ＝３３３＜２０／／９２／＜ｆｔｂ．ｏ＞ａｎｏｏ３＞０７２＞ｏ＞＞．
再利用绳索，用垂直降落技术，这种技术叫ＳＴＲ，单绳垂直降落技术。… 然后再结合我们现在比较先进的ＳＴ技术，Ｒ
工具ＳＴ／ｎ＜＞ｆｔｒ＃３３＞ｉ０１４１１：＜＞／ｎ＜ｒ．Ｒ＜ｏｔａ＜ｏｃｌ＝３３３＜２０／／５６／＜ｏｔｂ二ｆ＞ｎｏｏ３＞０３５ｉｆ＞＞最大问题，这次中外联合科考队将使
用目前世界上最先进的攀岩工具ＳＴ＜＞＞ＲＲ．＜ｂＳＴ包括上升＜＞＞下降手柄等一系列工具组成，攀岩者通过它借ｂ／ｂ＜ｂ／
两个＜－ｑｂｄｂｇ！－ｏｕ分类＝－ｕｅ科技二大众科技一＞／＞．．／ｄ＞二／ｍ＞＜１．．＜ｏｙ．＜ｔｌｕ．．ｂｈ
可以看出，这类网页的结构很清晰，而我们所需可见，这类网页具有非常明显的结构特征，对此要的也就是那些一个个新闻信息单元里面的内容。为结构展开如下：此，我们完全不需要按照传统的解析网页的方法来一
－款超级跑车对比测试＜ｆｔ／＜ｏｔｏｒ＃３３＞ｉ２０／／１０２／＜ｆｔ＜ｒ… －２／ｎ＜ａｆｃｌ＝３３３＞０２１１１：＜＞／ｎｂ大堆 “ ｏ＞＞ｎｏ３＜２２ｉｏ＞＞肌肉”发达的美
国两座超级跑车中，道奇蛙蛇＜＞＞ｏｇ＜＞＞ｉｒｂ＜＞Ｒ＜＞＞０＜＜Ｄｄｅｂ＜Ｖｐ＜＞ＳＴｂ＜ｂ１和雪佛兰克尔维特＜＞＞ｈｖ－ｂ／ｂ／ｂｅ／ｂ／＜＜Ｃｅｒｂ／ｂｏ
助自身的．
＜－ｑｂｅｕ分类＝科技：ｄｂｇ！－ｏ－ｕ大众科技一＞
＜＞厄１
＜ｌａ１＞ａｒ＝ｔ：ｕ．．ｍｃｎｓ０２１１３９．ｔ＂ｅ＿ｌｋｏｃｓｆ＞－５＜ｈｆｈｐ／ｔｓａｏ．／ｗ／０－－／５０ｈｌｔｇ＝ｂｎ＞ｆｔｓｌ峰会ｕｌｓ１ｃｓｅ＂ｔ／ｏｉｃｎｅ２２１１ｓｍａｔａ＜ｎｌ＝５ａｎｒａ
０５０－７收稿日期：２０－１１
程冲（８－１１，南京农业大学信息学院情报学专业硕士研究生；黄水清（６－，９）１４）北京大学图书馆学情报学系硕士研究生毕业，９南京作者简介：
农业来自百度文库学信息学院副院长、教授。
农业图书情报学刊：网络与信息资源建设
第１７卷
果，得分为 “ 、 “ 好” 一般” “ 、差”的文本块网页分别为３％，％，％。也就是说，高达１％的清洗１５０１９９结果是完全不能接受的［［２ｌ０本文将提出一种专用于新闻网页的正则表达式解析网页的算法。这种算法避开了网页清洗技术的缺陷，简便易行，效率很高，准确性也很高。
Ａｒ２０ｐ．５０
利用正则表达式解析新闻网页的算法研究
程冲，黄水清
（南京农业大学信息科技学院，南京２０９）１０５摘要：分析了新闻网页的结构特征，提出了一种利用正则表达式来解析新闻网页的算法，避开了网页清洗算法不易实现的缺点，并对该算法的速度和准确性进行了测评，给出了测评结果。关键词：新闻网页；正则表达式
＜ｌ＝５ａ＝ｔ：ｅｓ．ｍｃｏ２７．ｔ＂ｅｂｋ＜ｎｃｓｆ＞１＜ｈｆｈｐ／ｃ．ａｏ．／６８４ｈｌｔｇ＝ｎ＞ｆｔ＝ｌ背景资料：ｕｃｓ１＞ｒ＂ｔ／ｈｉｃｎ／ｌｓａｅｔｎｓｍａｔｌｒａｏｌｓ５ａ先进的攀岩
中图分类号：Ｇ５２０文献标识码：Ａ文章编号：１０－２８０５０－０５００２１４（０）００－４２３
ＳｄｏＡｇｒｈｏＡａｚＮｗＷｅａｅｂＥｐｉｔｅｕｒｒｓｎｆｌｅｓＰｇｓｘｌｔｇＲｇｌＥｐｓｏｔｙｌｉｍｎｙｅｕｎｏｔｂｙｏｉｈｎｅａｘｅｉＣＥＧｏｇＨＡＧｉｉＨＮＣｎ，ＮＳｕｇｇｈＵｈ－ｎ
ＡｓａｔＴｉｐｐｒｕｓｔｃａｃｒｔｓｈｎｗｗｂｅ，ｐｐｕｄａｒｈｏｅｐｉｇｕｒｂｒ：ａｅｄｃｓｓｈｒｔｉｉｏｔｅｓｐｇｓａｄｏｎｓｇｉｍｘｌｔｒｌｅ－ｔｃｈｓｉｅｈｓｅａｅｓｃｆｅｅａｎｒｏａｏｔｆｏｉｅａｘｌｎｇ
第１卷第４７期２０年４０５月
农业图书情报学刊
Ｖｏ．７Ｎｏ４ｌ，．１
ＪｕａｏＬｒｄｏａｏＳｉｃｉＡｉｌｒｏｒｌｉａａＩｒｔｎｅｅｎｃｔｅｎｆｒｎｎｍｉｃｎｓｇｕｕｂｙｆｒ
（ｏｅｅｎｒａｏＴｃｎｌｙａｉｇｃｌｒＵｉｓ，ｊｇ０５Ｃｉ）ＮｎｎＡｒｕｕｌｖｒｔＮｎｎ２０９，ａＣｌｇｏＩｏｔｎｈｏｇ，ｊｇｉｔａｎｅｉａｉ１ｌｆｍｉｅｏｆｙｈｎ
Ｋｙｒｓｎｗｗｂｅｒｕｒｒｓｎｅｗｄ：ｓｐｇ；ｌｅｐｅｉｏｅｅａｅａｘｓｏｇ
等非关键信息块；从链接块中区分相关链接块、导航１问题的提出２００２年，中国大约有５００万网页和５万个链接块、广告链接块等不同内容。经过上述处理后，０ｂ页面在结构和语义上都被划分为细粒度的信息Ｗｅ站点【，ｂ１而且网页数量还在以惊人的速度递增。Ｗｅ］这些海量网页中蕴含着巨大的信息资源，如果能及时块，从而使后续的信息加工处理工作得以顺利进行而又准确地处理这些网页就相当于拥有了开启Ｉｅ［１ｎｒ３ｔ－ｎｔｅ资源库的钥匙。网页处理已经成为网络信息资源国内学者周源远等人开发了一个实验系统Ｐｇ－ａｅ处理过程中一个极为重要的部分。Ｅｔｃ来完成Ｗｅ页面的相关清洗工作［。但是由ｘａｒｔｂ［２］网页处理首先需要分解出网页中的有用信息单元于网页中包含的信息的形式多样化，有文本、图片、和无效（或作用不大）单元，往往采用网页清洗技动画、音频、视频等多种信息形式，以及网页中存在严重的冗余与无序的现象，并且信息内容本身也是不术。使得网页清洗算法繁杂、不易实现，其清所谓网页清洗，就是从Ｗｅｂ页面中划分出精确断更新的，的信息单位，并根据Ｗｅｂ页面信息加工的后续应用洗结果也不能完全使人满意。周源远等人对随机选取的７４Ｗｅ４个ｂ页面（页的需求，将页面中不需要的部分去除，将需要的部分面大小总和为７Ｋ）进行了网页清洗测试。随９４Ｂ７提取出来［２１００个页面进行人网页清洗主要分三步：首先是去除页面中的注后，又从清洗的结果中随机选取了１０指页面提取正确）、一释、脚本、样式表等无关信息。然后再将页面划分为工评分，分为三个等级：好（指有少量一般性错误，但从整体上来看，可以接若干块，包括文本块、链接块、图像块等。最后按照般（、差（指有严重错误或误差较多，难以接受）。结语义对各块作进一步区分，如从文本块中区分出广告受）
ｌ＜＞＞ｏｖｔ＜＞＞０无疑是最具代表二ｂ＜ｂｅｂ＜ｂＣｒｅｂ＜ｂＺ６ｔ／ｅ／＜＞＞实际上／
＜－ｑｂｅｕ分类＝ｄｂｇ！－ｏ－ｕ汽车一＞
＜ｕ＞／ｌ
＜ｌａ１＞ａｒ＝ｔ：ｅｓ．ｍｃｏ７５．ｔ＂ｅ＿ｌｋｏｃ＝５＝１＜ｈｆｈｐ／ｃ．ａｏ．／６３６ｈｌｔｇ＝ｂｎ＞ｆｔｓｌ探险神秘地下世界ｕｃｓ５ｌｓｅ＂ｔ／ｈｉｃｎ／ｔｎｓｍａｔａ＜ｎｌｆ＞ｒｓａ
ｐｓｏｔａａｚｎｗｗｂｅｗｉａｏｓｄａｖｎｇｔｔｈｒｔｒｌｅａｏｉｍａａｚｇｓｒｓｎｎｌｅｓｐｇｓｈｈｉｔｉｄａｔｅｉｓｏｉｔｌｒｈｏｎｌｉｎｗｅｉｏｙｅｅａ，ｃｖｄｈｓｅａｈｔａａｉｄｅｚｈｇｔｆｙｎｅａｅｗｂｅ．ｈｓｅｅｉａｔｔｓｅｄｔａｃｒｙｈａｏｔ，ｔｎｅｔｏｔｍ．ｅｐｇｓｔａｔ，ｔｅｈｐｅａｄｃｕｃｏｔｓｒｍａｄｇｓｕｏｅａＡｔｍｉｔｅｄｅｍｈｓｅｎｈｓｅａｆｌｉｉｇｈｎｈｉｈｃｅｖｅ
步步地细化网页，要把＜ｌ＝１．／＞而只＜ｃｓ１＞．ｕ这ｕｌｓ５．ａ＜１
些信息单元直接匹配出来即可，而且这些信息单元里面同样也是结构化的，下面就是某一个＜１ｕ
ｃｓ１５－＜ｕｌｓ１＞二／＞片断：ａ＝１
＜１ｃｓ１＜ｒ－ｈｐ／ｈｉ．ｍｓ１＞ａｈｆ＂ｔ／ｃ．ａｏ．ｕｌ－５ａｅ－ｔ：ｅｓｃｔｎｃ／６８４ｈｌａｅ＿ｌｋ＜ｎｃｓｆ＞背景ｎ／７．ｔ＂ｒｔｂｎ＞ｔｓｌｏ２ｓｍｔｇ＝ａｆｌ＝５ｏａ资料：先进的攀岩工具ＳＴ／ｎ＜＞ｆｔＲ＜ｏｔ／＜ｏｃｌｆ＞ａｎｏ－