基于Web结构的网站新闻采集系统的设计与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Bt ye口P g D t =WCDo nod t ( e u1 a e aa . w la Daa w b r ; )
Ht Co e ml d = En o i g De a l Ge S i g c d n . f ut t t n . r
页 面结 构具 有一 些特 定规 则 ,如 页面 内容 往往 是 以
第3 3卷第 2期 21 02年 3 月
V 13 No o. . 3 2 Ma. 02 r2 1
井 冈山大学 学报( 自然 科学版) J u a o i g n sa ies y( t a S i c) o r l fJ g agh n Unv r t Na rl ce e n n i u n 5 4
W C. e e f l Cr d n il c eDe a l e e Cr d n as i = e e t Ca h . f u t d n a Cr
tas il ;
信 息 ,因此 影 响抽取 效率 和准确 度 。 1 本文 工作 内容 . 4
虽 然 网页类 型和 结构 不 同 ,但一 个 网站 中 的各
文章编号 :17 .0 52 1)2 0 5 -4 6 48 8(0 20 — 0 采集系统 的设计 与实现
陈建 国
(. 南大 学软件 学院 ,湖南 , 长沙 1湖 4 0 8 ;2 厦 门理工 学院 ,福 建 ,厦 门 102 . 3 12 ) 601
将 这些 U L放 入一 个采 集 队列 ,顺序 读取 U L以 R R
1 WE B信息采集和 新闻采集
11 We . b信息 采集 We b信 息采集 是指 通过 We 页面 之 间的链接 b 关系 ,从 We b上 自动地 获取 页面信 息 ,并且 随着链
获 取 目标 网页 ,调用采 集和 过滤 规则 在信 息页面 中 进 行信 息识 别和提 取 ,最后 将采 集得 到 的新 闻信 息 和 相 关数据 保存 到数据 库或 其他进 一 步加工 。
( )实现 基于 We 3 b结构 的新 闻采 集 系统 。
块 。核 心算法 代 码如 下 ( C#) :
/ <s m ma y / u / r: > / Al o i m f n o ma i n Bl c q ii o / g rt o f r t o kAc u s n / h I o i t / < s m ma > / /u / y r
Ke r s ifr t ng t eig We tu tr ;e lr x rsin ; aami n ; e a ei g ywo d :n o mai ah rn ; b s cu e r g a pe so s d t n g n wsg t r o r u e i h n
() 1 页面采 集算 法 : 通过 U L加 载一 个页 面 , R 然后 获得 页面 的源 代码 [】 m。该算 法将 用于 加载新 闻 列表 页和 新 闻 内容页 。核 心算法 代码 如下 ( C#) :
I <u I s mma y I r> / Al o i m f e f r t n Gah r g / g rt o W b i o ma i t e i / h n o n / < s mma y / /u / r>
基于语义信息抽取技术[:由于 H ML标志缺 9 1 T
乏对 数据 本 身 的描述 ,又 因为数 据 受描述 语法 ,文
化 区域和 应用 领 域等 方面 的 限制 ,缺 乏足 够 的语义
W_ C i t e l n b e WC=n w Wl C i t) e e l n ( b e ;
井 冈山大学学报( 自然科学版)
5 5
习【o 4 】 基 于包 装器 归纳 方式 的信 息 抽取 【:该 系统语 5 J 义和 模 式信 息是 用户 附加 的 ,通过 感 兴趣信 息 的左 右边 界 实现 信息 的定位 ,该方 法仅 仅使 用语 义 项 的 上下 文 来 定位信 息并没 有 使用语 言 的语法 约 束 【。 b J
结果表 明,该模型工作 良好,可以 自动化 、高效率地采集新闻信息 。
关键词 :信息采集 ;W b结构;正则表达式 ;数据挖掘 ;新 闻采集 e
中图分类号 :T 2 矿. P7 2
文献标识码:A
DO : .9 9 .s. 7 — 0 5 0 20 .1 I O3 6 ̄i n1 4 8 8 . 1 . 04 I s 6 2 2
取得一定成果,总结如下: 基于 自然 语 言处 理 L: 要适 用于 含 有 大量 文 3 主 】 本的 We 页面 , w_ 文档视为文本进行处理的, b 将 e b 抽取 的实现没有利用 We b文档独特于普通文本的 层次特性. 获得有效的抽取规则需要大量的样本学
收稿 日期 :2 1- 11 ;修改 日期 :2 1—2 1 0 20 —7 0 2 0— 8 作者 简介 :陈建 1 18 一, 男, 建泉 州人, 师,  ̄(9 5) 福 讲 硕士 , 要从 事软 件开 发及数 据挖 掘研 究(- i xx62 @13cm . 主 Ema :u l15 6 . ) l o
DES GN I AND M P I LEM EN,. oN I TI ' A oF NEW S GATHERI NG YS S TEM BAS ED oN EB S W TRUCTURE
CHEN i n.u Ja - o , g
(.o wae co lf ua iesyC agh, u a 4 0 8, h a2 Xa nU iesy f ehooyXi n Fj n 3 12, hn) 1 R r h o o H nn vri, hn saH nn 102 C i ;. i S S Un t n me nvrt T cn lg, a , ui 60 1C i i o me a a
13 研 究现 状 .
目前 , 内外关 于 We 息采集 技术 的研 究 已 国 b信
接, 使用广度优先遍历算法不断地向所需要的 We b
页 面查 找、扩 展 的过程 【。 】 J 1 新 闻采集 . 2 新 闻采 集是 We b信息 采集在 网络新 闻领域 的应 用 [。 2 其核 心实现 过 程如下 : 】 由采 集入 口 UR L开始 ,
摘
要 :在深入研 究网络信息采集技术 的基础上,提 出一个基于 We b结构 的新闻采集模型。该模型加载 采集 入口
地址后 ,通过信 息采集和过滤算法确定新闻列表 页,结合正则表 达式技术 自动识别新闻 内容页的链接 地址 ,访 问
目标新 闻内容页 , 用采集算法 自 使 动提取新 闻 息数据 。同时 ,它可 以过滤在此页面 中嵌入的广 告等信息 。 信 实践
)
模型;
( )页面 采 集算 法 ,信 息块 采集 算 法 和 信 息 2
块过 滤 算法 研 究 ;
( )信息块采集算法:该算法接收三个参数 : 2 信 息块 代码 、 采集 开始 标志 和采集 结 束标志 : 正 使用
则表 达 式技 术进 行信 息 匹配 ,以确 定要 采集 的信 息
一
(a e t) P g Da ; a W CDi oe ) . s s (; p S sinA a d n(; es .b n o ) o
r t r ml eu nHt Cod ; e
种 结 构化 的方 式 来组织 ,所 以我 们 可 以根 据 we b
结 构进 行 网络新 闻信 息 的提 取和采 集 ,研 究 we b结 构 ,结合 正 则表达 式 ,通过 页面 结构 的模 式 匹配 实 现数 据 提取 和 收集 。本文 的主要任 务 : ( )设计 一个 基于 We 构 的新 闻采集 系 统 1 b结
基于本体的信息采集方法【:利用对数据本身 7 】 的描述信息实现抽取,较少依赖 网页结构。 基 于 查询 的 We 息提 取[: b信 8 使用 We 1 b的相关
技术 解 决 We b的 问题 , 由于 We b抽 取规 则 的形式
/ / < a a n me we u l> a e URL fr / p rm a =” b r” P g o
Ab ta t sr c :On t eb sso e t td i g tetc n l g fwe n omain g tei g a we tu tr —a e a i fd ph s yn e h oo y o b ifr t a rn , b s cu eb sd h u h o h r n wsg tei gmo e r p s d Ila eg te ige tya de s f dt en wsl t a ewi ei o main e ah r d lsp o o e .to dt ah rn nr d r s, n e s g t t r t n i h i h i p hh n f o
g t e i g a d f t rag rtm , d n i n r v e n wsc n e t a e l k a d e sa c r i g t er lss t ah r n l lo i n i e h ie t ya di f mp o e t e o t n g i d s c o d n ot e e h p n r h u b c u st n a d t e r g l re p e so c n l g u o t a l . u t e mo e i l a e t r e a e n ws y a q ii o n h e u a x r s i n t h o o a t m i l F r r r , t o d t a g t g - e i e y a c y h h p c n e tp g , a h rt e n ws i f r t n wi h l o i m u o t a l. e s me t ,i c n fl ra y o t n a e g t e h e n o ma i t t e ag r h a t m i l At h a i o h t a c y t me t a t n i e i f r to h t i s t i h s p g u h a mb d e d e t i g me s g s r c ia e u t h w h t t e n o m i n t a s e n t i a e s c s e e d d a v r sn s a e .P a t l r s l s o t a h a i c s po o e r p s dmo e wo k we l n ah r n ws n o ma i n e c e t n u o t al . d l r s l a dg t e s e i r t f in l a da t ma i l f o i y c y
Ga h r / a a t e < p r m> p b i t n t RS u l s i g Ge c r S
—
—
Ht C d sigw u1 mloe( n e r r t b )
和感兴趣信息的定位方式各不相同,因此均不具有
通用性 。
{
s i gHt Co e : tn r ml d =