利用正则表达式解析新闻网页的算法研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 新闻网页的特征以及结构分析 新闻网页是具有很强开发价值的一类网页,它具 页新闻。 由于这些网页在各大网站所起的作用相似,而且 有时效性强、信息量大、结构稳定、更新快、需求广 所以这类网页的结构相当稳定,而且不会 泛、实用价值高等特点。考虑到这些特点,对新闻网 功能相近,
们是各大门户网站或新闻网站用来提供用户检索新闻 之用的新闻页面,这类新闻页面包含符合检索条件的 若干条新闻记录,这些条新闻记录有标题、文摘、出 处以及超链 ,可以用来指引用户查阅新闻全文。这类 新闻网页其实就是各大网站给自己站内的所有新闻网 页编的 “ 索引” ,能起到很好的说明和指示的作用。 因此,只要能处理好这类有关某一主题的新闻网页, 实际上就等于处理了绝大部分的与这一主题相关的网
适用于大批量地统一处 页的处理如果按照传统的网页解析方法 ,不仅效率 受到某一个具体网站的约束, 理。比如新浪网和搜狐网,百度网等新闻网页就基本 低 ,效果也不会理想。 而有一类新闻网页更为特殊也更具有代表性 ,它 一样。下面是新浪网站一个新闻网页的实际例子 :
< t l. . ha>.. / a> bd> .< ed ..< ed < oy hm>. . . .. h
一天坑科考活动始末 <f t< > f t r # 33> i 0 1 51 1: <i / n <r.,我们架一些绳梯 ,然后 / n / <o cl = 3 33< 20/ / 9 2/ <f t b . o> a n o o 3 > 0 7 2 > o> > .
再利用绳索,用垂直降落技术 ,这种技术叫 S T R ,单绳垂直降落技术。… 然后再结合我们现在比较先进的 S T技术, R
工具 S T /n < > f t r# 33> i 01 41 1: <>/n <r. R < ot a <o cl=3 33< 20/ / 5 6/ <ot b 二 f> no o 3 > 0 3 5 i f > > 最大问题,这次中外联合科考队将使
用目 前世界上最先进的攀岩工具 S T <> > R R . <b S T包括上升 < > >下降手柄等一系列工具组成 ,攀岩者通过它借 b / b <b /
两个<-qb dbg !- o u 分类= -u e 科技二 大众科技一> />../ d>二 /m> < 1..< oy. < tl u .. b h
可以看出,这类网页的结构很清晰,而我们所需 可见 ,这类网页具有非常明显的结构特征 ,对此 要的也就是那些一个个新闻信息单元里面的内容。为 结构展开如下: 此,我们完全不需要按照传统的解析网页的方法来一
- 款超级跑车对比测试 <f t / <oto r # 33> i20/ /1 0 2/ <f t<r… - 2 / n <a f cl = 3 33 > 021 1 1: < > /n b 大堆 “ o > > n o 3 < 2 2 i o> > 肌肉”发达的美
国两座超级跑车中, 道奇蛙蛇<> > og<> > i rb < >R <> >0 < < D deb < Vp <> S T b <b1 和雪佛兰克尔维特<> > hv - b / b / b e / b / < < C er b / b o
助 自身的.
<-qb eu 分类 =科技: dbg !- o -u 大众科技 一>
< > 厄1
<l a 1 >a r= t:u . .mcn s021 13 9.t " e _l k o cs f > - 5< h f hp/ tsao ./ w/ 0- - / 50h ltg=b n>f t s l 峰会 u ls 1 cs e "t/ oi c n e 2 2 1 1 sm a t a < n l = 5 a n r a
0 50 -7 收稿 日期 :2 0 - 11
程冲( 8- 1 1 ,南京农业大学信息学院情报学专业硕士研究生;黄水清 ( 6-, 9 ) 1 4) 北京大学图书馆学情报学系硕士研究生毕业, 9 南京 作者简介 :
农业来自百度文库学信息学院副院长 、教授。
农业图书情报学刊 : 网络与信息资源建设
第1 7卷
果,得分为 “ 、 “ 好” 一般” “ 、 差”的文本块网页分 别为 3%, %, %。也就是说 ,高达 1%的清洗 1 5 0 1 9 9 结果是完全不能接受的[ [ 2 l 0 本文将提出一种专用于新闻网页的正则表达式解 析网页的算法。这种算法避开了网页清洗技术的缺 陷,简便易行,效率很高,准确性也很高。
A r 20 p. 5 0
利用正则表达式解析新闻网页的算法研究
程 冲,黄水清
( 南京农业大学 信息科技学院,南京 209 ) 105 摘 要:分析 了新闻网页的结构特征 ,提 出了一种利用正则表达式来解析新闻网页的算法,避开了网页清洗算法不 易实现的缺点,并对该算法的速度和准确性进行 了测评 ,给出了测评结果。 关键词:新闻网页;正则表达式
<l = 5 a = t:e s .mco 27.t " e b k< ncs f > 1 < h f hp/c. ao ./684h ltg= n>f t =l 背景资料: ucs 1 > r "t/ hi c n / ls a e t n sm a t l r a o ls 5 a 先进的攀岩
中图分类号 :G 5 20 文献标识码 :A 文章编号 :10 - 28 05 0- 05 0 02 14 ( 0 ) 00- 4 2 3
S d o Agrh oA a zN w We aeb Ep i t eur r sn f l e s Pgs xltg Rgl Ep so t y l im n y e u n ot b y oi h n e a x e i C E G ogH A G ii H N C n, N Sug g h U h -n
A satTippr us t ca crts h nw w b e, p pud a rh o ep i g u r b r : aed cs s hr tii ot e s pgsad ons g im xlt r l e- tc h s i e h s e a esc f e e a n r o a ot f oi e a x l n g
第 1卷 第 4 7 期 20 年 4 05 月
农业图书情报学刊
Vo.7 No4 l , . 1
Ju a o L r d o ao Si c i A i lr or l ia a I r tn e e n c t e n f r n n m i c n s g uu by f r
(oee n r ao Tcnl y a i gclr U i s , j g 05C i ) N nn A ruu l vrt N nn 209, a C lg oI o tn ho g, j g i t a n e i a i 1 l f m i e o f y h n
K y rsnw w b er u r r s n e w d: s pg; l epe i o e e a e a x so g
等非关键信息块; 从链接块中区分相关链接块、导航 1 问题的提出 20 02年 ,中国大约有 5 00万 网页和 5万个 链接块、广告链接块等不同内容。经过上述处理后 , 0 b页面在结构和语义上都被划分为细粒度的信息 We 站点【 , b 1 而且网页数量还在以惊人的速度递增。 We ] 这些海量网页中蕴含着巨大的信息资源,如果能及时 块 ,从而使后续的信息加工处理工作得以顺利进行 而又准确地处理这些网页就相当于拥有了开启 I e [1 nr 3 t- nt e资源库的钥匙。网页处理已经成为网络信息资源 国内学者周源远等人开发了一个实验系统 Pg- ae 处理过程中一个极为重要的部分。 Etc来完成We 页面的相关清洗工作[ 。但是由 xa rt b [ 2 ] 网页处理首先需要分解出网页中的有用信息单元 于网页中包含的信息的形式多样化,有文本、图片、 和无效 ( 或作用不大)单元 ,往往采用网页清洗技 动画、音频、视频等多种信息形式,以及网页中存在 严重的冗余与无序的现象,并且信息内容本身也是不 术。 使得网页清洗算法繁杂、不易实现,其清 所谓网页清洗 ,就是从 We b页面中划分出精确 断更新的, 的信息单位,并根据 We b页面信息加工的后续应用 洗结果也不能完全使人满意。 周源远等人对随机选取的 74 We 4 个 b页面 ( 页 的需求 , 将页面中不需要的部分去除,将需要的部分 面大小总和为 7 K )进行 了网页清洗测试 。随 94 B 7 提取出来[ 2 1 0 0 个页面进行人 网页清洗主要分三步 :首先是去除页面中的注 后 ,又从清洗的结果中随机选取了 10 指页面提取正确 ) 、一 释、脚本 、样式表等无关信息。然后再将页面划分为 工评分 ,分为三个等级 :好 ( 指有少量一般性错误,但从整体上来看,可以接 若干块,包括文本块、链接块、图像块等。最后按照 般 ( 、差 ( 指有严重错误或误差较多, 难以接受) 。结 语义对各块作进一步区分,如从文本块中区分出广告 受)
l<> > ovt< > > 0 无疑是最具代表二 b <b e b <bC r eb <bZ 6 t / e / < > >实际上 /
<-qb eu 分类 = dbg !- o -u 汽车 一>
< u> /l
<l a 1 >a r= t:e s .mc o 75.t " e _lk o c = 5 =1 < h f hp/c. ao ./636h ltg=b n>f t s l 探险神秘地下世界 u cs 5 ls e " t/ hi c n / t n sm a t a < n l f > r s a
p so taa z nw w b e w i ao s d avn g t t hr tr le a oim aa z g s r s n nl e s pgs h h i t idat e i s o i t l rh o nl i nw e i o y e e a , c v d h s e a h t a a i d e z h g t f y n e a e w b e. h s e ei a t t sed t acr y h a ot , t n et ot m . e pgs t a t , t e h pe ad cu c ot s r m ad g s u o e a A t m i t e d e m h s e n h s e a f l i i g h n h i h c e v e
步步地细化网页, 要把<l =1 . /> 而只 < cs 1 >. u 这 u ls 5 . a <1
些信息单元直接匹配出来即可,而且这些信息单元里 面 同样 也 是 结 构 化 的 ,下 面 就 是 某 一 个 <1 u
c s 15 -<u l s 1>二 / >片断: a= 1
<1 c s 1 < r-hp/ h i . m s 1 >a h f" t/ c. a o . u l - 5 a e- t :e s c t n c/684h la e _l k < nc s f >背景 n / 7.t "r t b n> t s l o 2 sm tg = a f l=5 o a 资料 :先进 的攀岩工具 S T/n < >f t R < ot / <o cl f>a n o -
相关文档
最新文档