垂直搜索引擎关键技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
・ 2 4 0・ 2 0 1 5 年4 月
电子科技
中文科技期刊数据库 【 文摘版 )自然 科学
垂 直搜 索 引擎 关键 技术
杨 晓 夫 重庆 交通 大学信 息科学与工程 学院,重庆 4 0 0 0 7 4
摘 要: 随着互联 网技 术的高速发展 近年来 WE B网页呈指数 级增长,面对人们迫切获取主题信 息的需求,垂直搜索 引擎应 运而生。本文根据 国内外研 究现状着重分析 了垂 直搜 索引擎主题 爬 虫、索引器、检 索器等 关键技术 。
d o me s i t c a n d f o r e i g n r e s e a r c h, t h i s p a p e r ma i n l y a n a l y z e s t h e k e y t e c h n o l o g i e s o f he t v e r t i c a l s e rc a h e n g i n e ,s u c h a S t h e me me c r a wl e r ,
1研究背 景 近年来互联 网行业 高速 发展,全球网站数量急剧增长 。据 英国 《 每 日邮报 》报道2 0 1 4 年9 月份全球互联网 网站数量 已经 超过 1 0 亿 ,且 还在持续 增长 。仅 2 0 1 3 年 ,网站数量就 增长 了 1 / 3 , 从年初 的6 . 3 亿增加到 1 2 月份 的8 . 5 亿个 , 活跃 网站 1 . 8 亿个 。 we b站 点与 we b 网页 的数量 呈现 爆炸 式增长 ,使 得用 户在数 以亿计 的网页信息中获取到相关信息越来越难 。通用搜索 引擎 虽然 可以达到搜索信息的 目的 ,但是在特定领域或相关主题搜 索 中显得越 来越乏力 。主要表现在通用搜索 引擎搜集 了整个互 联 网上的网页信息,导致 了信息更新周期大更新不及 时,并且 海量 的网页信息中大量的信息是用户不关心 的这就造 成了资源 的浪费。除此之外,通用搜索 引擎 由于其商业化 因素 导致很 多 情况下搜索信息杂乱无章造成用户体验 度下降 [ 】 】 。因此研 究面 向领域、相关主题的搜索 引擎技术有着重大 的意义与 巨大的市 场价值 。 2垂直搜索 引擎关键技术 2 . 1主题网络爬虫 主题 网络 爬虫 主要 由抓 取模块 、解析 模块 、过滤 模块 组 成[ 2 ] 。首先给 爬虫初始种子 UR L及关键字 ,种子 UR L是 由搜 索引擎维护人员通过手工挑选 的重要 的与主题相 关度高的网页 U R L集 合 。然 后将 这些 种子 U RL集合 注入 到待 抓取 UR L 队 列 中,抓取模块根据待抓 取 UR L队列 中的 UR L通过一定 的技 术在因特 网上进行 网页抓取 。解析 模块 将抓取模块获得 的网页 进行 HT ML解 析从而获得 网页文 本 内容和页面 中 UR L连接信 息【 3 】 。页面过滤模块也叫 网页相关度 分析模 块,主要功能是实 现抓取 网页文本 内容的主题相关性判定 [ 4 】 。链接过滤模块 的功 能 主要是对 提取 的 UR L进行主题 相关性 预判,它是 整个主题 网络爬虫 的关键模块 】 。 2 . 2索 引器 文 本库是 网络爬 虫抓取的与主题相关的 网页信 息集合 ,也 是 文本解 析器 的数据源 。文本解 析器 即 h t ml 文本解 析器 ,功 能是解析 h t ml 文本 获取网页 关键字 与主体 信息 ,统 一文档 格 式 。文本 中间格 式库对文本解析器解析 的统一文档格 式的文本 内容进 行广告过滤等去噪处理从而得到可 以直接 分析处理的数 据 源。索引器分析可 以直接处理 的数据源生 成索引表 ,并将索
he t i n d e x d e v i c e ,t h e s e rc a h d e v i c e .
Ke y wo r d s: We b p a g e:T h e m e:De v i c e i n d e x :S e rc a h d e v i c e
Wa s h i n g t o n,DC :I EEE Co mp me r S o c i e y ,2 t 0 1 0( 0 3):3 0 4 —
3 0 5 .
( 上接 笫 2 3 5 页) 总之 , 机 电一体化是科技发展 的必 然结果。 发展前景是不可估量 的。 在机械工业 中,机 电一体化几乎渗入 到所有 的机械产 品中,显 参考文献 然 已成为主角 。机 电一体化技 术的飞速 发展 ,加快 了社会工业 [ I 】 朱凤花 . 机 电一体 化控 制系统开放体 系结构设计 [ J 】 . 电子制 生产的改革速度 ,提升 了我国的科 技水 平,使我 国向着发达 国 作 ,2 0 1 4 ,( 1 2 ) ,5 6 . 家 的科技水平迈进 。机 电一体 化将 各种 科学技术相互融合 ,其
he t El e v e n t h I n t e r n a t i o n a l Wo r d Wi d e W_ e b c o n f e r e n c e . 2 0 0 2
[ 7 ] 汪涛,主题爬 虫 的设 计与实现 . 计 算机 应用 [ J ] ,2 0 0 4 ,2 4
a p p l i c a t i o n s t o b i o l o g i c a l De e p We b d a t a i n t e g r a i t o n[ A】 : P r o c o f
t h e I E EE I n t Co n f o n Bi o i n f o ma r t i c s nd a Bi o e n g ne i e r i n g( BI BE).
中图分类号 : 02 2 9
文献标识 码 : A
文章编号 :1 6 7 1 . 5 5 7 8( 2 0 1 5 )0 4 . 0 2 4 0 . 0 1
引表存储 与文本 索引库中 以待检索器进行文本检索 【 6 1 。 2 . 3 检 索 器 检索器是在 索引器基础之上实现文本检索功 能搜 索引擎的 最后 一步功 能模块 。它将 用户输入的语句按照建立文本 索引的
( 0 6):2 7 0 . 2 7 2 .
【 8 】 张晓雷 . 面 向 We b挖掘 的主题 网络爬 虫的研 究与实现 [ D】 . 西安 :西安 电子科技大学 ,2 0 1 2 [ 9 ] L i u T a n t a n . I n s t a n c e d i s c o v e r y a n d s c h e ma ma t c h i n g wi t h
[ 5 ] 黄蔚 ,R L S p i d e r : 一种 自主垂 直搜 索引擎 网络爬 虫 [ J 】 . 计 算机 应用 与软件 ,2 0 1 1 . 2 8 ( 1 2 ) : 1 8 3 . 1 8 7 .
[ 6 ] T a k e r Ha v e l i v a l a T o p i c —S e n s i i t v e P a g e R a n k i n P r o c e e d i n g s o f
关 键 词 :网 页 ; 主 题 ;索 引 器 ; 检 索 器 Ke y t e c h n o l o g y o பைடு நூலகம் v e r t i c a l s e a r c h e n  ̄n e
Y a n gXi a o f u
( Co l l e g e o f i n f o r ma t i o n s c i e n c e a n d e n g i n e e r i ng , Ch o n g q i n g J i a o t o n g Un i v e r s i t y)
方式进行 处理 ,处理后安装索引库 中的关键词进行 匹配 ,最后 把相 关的索引文本通过排序处理将结果返 回给查询 用户 【 7 】 。 用户接 口接收用户提交 的查询语句 ,将查询语句 交给分词 模块进 行中文分词处理得到搜索 关键 字 ] 。检 索模 块将 获得的 关键 字转换为 w o r d I D,通过 wo r d l D可 以在索 引库 中的文档列 表 中遍历查找 d o c l D,如果找到相应 的 d o c I D 将该文档 移交给 排序模 块处 理 。排 序模 块通 过 P a g e R a n k算 法或 HI T S等 算法 对相 关结果进行排序并将结果整理返 回给 用户 接 口以便用户浏 览最终的查询结果 [ 9 】 。
Ab s t r a c t:W i t h t h e r a p i d d e v e l o p me n t o f I n t e r ne t t e c h n o l o g y i n r e c e n t y e a r s , we b p a g e s a r e e x p o n e n t i a l g r o wt h, i n he t f a c e o f
[ 4 ] S L a wr e n c e a n d C L e e Di g i t a l L i b r a r i e s a n d A u o t o n o mo u s
Ci t a t i o n I n d e x i n g . I EE E Co mp u t e r, 1 9 9 9,3 2 (0 6 ):6 7- 7 1 .
参 考 文 献
【 1 】 潘祥 . 成 绵乐城 际铁 路旅 客列 车开行 方案 探讨 [ J 】 . 价 值工
程 ,2 0 1 2( 0 3):1 6 . 1 8 .
[ 2 】 王俊,面 向房产领 域 的垂直搜索 弓 J 擎设 计与实现 [ D 】 . 南昌 大学 ,2 0 1 2 [ 3 】 李 荣荣 . 基于 L u c e n e / H t t p C l i e n t 的垂直 搜 索引 擎研 究 与实 现[ D ] . 成都 : 电子科 技大学,2 0 1 1
p e o p l e ’ S u r g e n t n e e d t o o b t a i n i n f o ma r t i o n o n t h e s u b j e c t ,t he v e r t i c a l s e r a c h e n g i n e c a me i n t o b e i n g . B a s e d o n he t c u r r e n t s i t u a t i o n o f
电子科技
中文科技期刊数据库 【 文摘版 )自然 科学
垂 直搜 索 引擎 关键 技术
杨 晓 夫 重庆 交通 大学信 息科学与工程 学院,重庆 4 0 0 0 7 4
摘 要: 随着互联 网技 术的高速发展 近年来 WE B网页呈指数 级增长,面对人们迫切获取主题信 息的需求,垂直搜索 引擎应 运而生。本文根据 国内外研 究现状着重分析 了垂 直搜 索引擎主题 爬 虫、索引器、检 索器等 关键技术 。
d o me s i t c a n d f o r e i g n r e s e a r c h, t h i s p a p e r ma i n l y a n a l y z e s t h e k e y t e c h n o l o g i e s o f he t v e r t i c a l s e rc a h e n g i n e ,s u c h a S t h e me me c r a wl e r ,
1研究背 景 近年来互联 网行业 高速 发展,全球网站数量急剧增长 。据 英国 《 每 日邮报 》报道2 0 1 4 年9 月份全球互联网 网站数量 已经 超过 1 0 亿 ,且 还在持续 增长 。仅 2 0 1 3 年 ,网站数量就 增长 了 1 / 3 , 从年初 的6 . 3 亿增加到 1 2 月份 的8 . 5 亿个 , 活跃 网站 1 . 8 亿个 。 we b站 点与 we b 网页 的数量 呈现 爆炸 式增长 ,使 得用 户在数 以亿计 的网页信息中获取到相关信息越来越难 。通用搜索 引擎 虽然 可以达到搜索信息的 目的 ,但是在特定领域或相关主题搜 索 中显得越 来越乏力 。主要表现在通用搜索 引擎搜集 了整个互 联 网上的网页信息,导致 了信息更新周期大更新不及 时,并且 海量 的网页信息中大量的信息是用户不关心 的这就造 成了资源 的浪费。除此之外,通用搜索 引擎 由于其商业化 因素 导致很 多 情况下搜索信息杂乱无章造成用户体验 度下降 [ 】 】 。因此研 究面 向领域、相关主题的搜索 引擎技术有着重大 的意义与 巨大的市 场价值 。 2垂直搜索 引擎关键技术 2 . 1主题网络爬虫 主题 网络 爬虫 主要 由抓 取模块 、解析 模块 、过滤 模块 组 成[ 2 ] 。首先给 爬虫初始种子 UR L及关键字 ,种子 UR L是 由搜 索引擎维护人员通过手工挑选 的重要 的与主题相 关度高的网页 U R L集 合 。然 后将 这些 种子 U RL集合 注入 到待 抓取 UR L 队 列 中,抓取模块根据待抓 取 UR L队列 中的 UR L通过一定 的技 术在因特 网上进行 网页抓取 。解析 模块 将抓取模块获得 的网页 进行 HT ML解 析从而获得 网页文 本 内容和页面 中 UR L连接信 息【 3 】 。页面过滤模块也叫 网页相关度 分析模 块,主要功能是实 现抓取 网页文本 内容的主题相关性判定 [ 4 】 。链接过滤模块 的功 能 主要是对 提取 的 UR L进行主题 相关性 预判,它是 整个主题 网络爬虫 的关键模块 】 。 2 . 2索 引器 文 本库是 网络爬 虫抓取的与主题相关的 网页信 息集合 ,也 是 文本解 析器 的数据源 。文本解 析器 即 h t ml 文本解 析器 ,功 能是解析 h t ml 文本 获取网页 关键字 与主体 信息 ,统 一文档 格 式 。文本 中间格 式库对文本解析器解析 的统一文档格 式的文本 内容进 行广告过滤等去噪处理从而得到可 以直接 分析处理的数 据 源。索引器分析可 以直接处理 的数据源生 成索引表 ,并将索
he t i n d e x d e v i c e ,t h e s e rc a h d e v i c e .
Ke y wo r d s: We b p a g e:T h e m e:De v i c e i n d e x :S e rc a h d e v i c e
Wa s h i n g t o n,DC :I EEE Co mp me r S o c i e y ,2 t 0 1 0( 0 3):3 0 4 —
3 0 5 .
( 上接 笫 2 3 5 页) 总之 , 机 电一体化是科技发展 的必 然结果。 发展前景是不可估量 的。 在机械工业 中,机 电一体化几乎渗入 到所有 的机械产 品中,显 参考文献 然 已成为主角 。机 电一体化技 术的飞速 发展 ,加快 了社会工业 [ I 】 朱凤花 . 机 电一体 化控 制系统开放体 系结构设计 [ J 】 . 电子制 生产的改革速度 ,提升 了我国的科 技水 平,使我 国向着发达 国 作 ,2 0 1 4 ,( 1 2 ) ,5 6 . 家 的科技水平迈进 。机 电一体 化将 各种 科学技术相互融合 ,其
he t El e v e n t h I n t e r n a t i o n a l Wo r d Wi d e W_ e b c o n f e r e n c e . 2 0 0 2
[ 7 ] 汪涛,主题爬 虫 的设 计与实现 . 计 算机 应用 [ J ] ,2 0 0 4 ,2 4
a p p l i c a t i o n s t o b i o l o g i c a l De e p We b d a t a i n t e g r a i t o n[ A】 : P r o c o f
t h e I E EE I n t Co n f o n Bi o i n f o ma r t i c s nd a Bi o e n g ne i e r i n g( BI BE).
中图分类号 : 02 2 9
文献标识 码 : A
文章编号 :1 6 7 1 . 5 5 7 8( 2 0 1 5 )0 4 . 0 2 4 0 . 0 1
引表存储 与文本 索引库中 以待检索器进行文本检索 【 6 1 。 2 . 3 检 索 器 检索器是在 索引器基础之上实现文本检索功 能搜 索引擎的 最后 一步功 能模块 。它将 用户输入的语句按照建立文本 索引的
( 0 6):2 7 0 . 2 7 2 .
【 8 】 张晓雷 . 面 向 We b挖掘 的主题 网络爬 虫的研 究与实现 [ D】 . 西安 :西安 电子科技大学 ,2 0 1 2 [ 9 ] L i u T a n t a n . I n s t a n c e d i s c o v e r y a n d s c h e ma ma t c h i n g wi t h
[ 5 ] 黄蔚 ,R L S p i d e r : 一种 自主垂 直搜 索引擎 网络爬 虫 [ J 】 . 计 算机 应用 与软件 ,2 0 1 1 . 2 8 ( 1 2 ) : 1 8 3 . 1 8 7 .
[ 6 ] T a k e r Ha v e l i v a l a T o p i c —S e n s i i t v e P a g e R a n k i n P r o c e e d i n g s o f
关 键 词 :网 页 ; 主 题 ;索 引 器 ; 检 索 器 Ke y t e c h n o l o g y o பைடு நூலகம் v e r t i c a l s e a r c h e n  ̄n e
Y a n gXi a o f u
( Co l l e g e o f i n f o r ma t i o n s c i e n c e a n d e n g i n e e r i ng , Ch o n g q i n g J i a o t o n g Un i v e r s i t y)
方式进行 处理 ,处理后安装索引库 中的关键词进行 匹配 ,最后 把相 关的索引文本通过排序处理将结果返 回给查询 用户 【 7 】 。 用户接 口接收用户提交 的查询语句 ,将查询语句 交给分词 模块进 行中文分词处理得到搜索 关键 字 ] 。检 索模 块将 获得的 关键 字转换为 w o r d I D,通过 wo r d l D可 以在索 引库 中的文档列 表 中遍历查找 d o c l D,如果找到相应 的 d o c I D 将该文档 移交给 排序模 块处 理 。排 序模 块通 过 P a g e R a n k算 法或 HI T S等 算法 对相 关结果进行排序并将结果整理返 回给 用户 接 口以便用户浏 览最终的查询结果 [ 9 】 。
Ab s t r a c t:W i t h t h e r a p i d d e v e l o p me n t o f I n t e r ne t t e c h n o l o g y i n r e c e n t y e a r s , we b p a g e s a r e e x p o n e n t i a l g r o wt h, i n he t f a c e o f
[ 4 ] S L a wr e n c e a n d C L e e Di g i t a l L i b r a r i e s a n d A u o t o n o mo u s
Ci t a t i o n I n d e x i n g . I EE E Co mp u t e r, 1 9 9 9,3 2 (0 6 ):6 7- 7 1 .
参 考 文 献
【 1 】 潘祥 . 成 绵乐城 际铁 路旅 客列 车开行 方案 探讨 [ J 】 . 价 值工
程 ,2 0 1 2( 0 3):1 6 . 1 8 .
[ 2 】 王俊,面 向房产领 域 的垂直搜索 弓 J 擎设 计与实现 [ D 】 . 南昌 大学 ,2 0 1 2 [ 3 】 李 荣荣 . 基于 L u c e n e / H t t p C l i e n t 的垂直 搜 索引 擎研 究 与实 现[ D ] . 成都 : 电子科 技大学,2 0 1 1
p e o p l e ’ S u r g e n t n e e d t o o b t a i n i n f o ma r t i o n o n t h e s u b j e c t ,t he v e r t i c a l s e r a c h e n g i n e c a me i n t o b e i n g . B a s e d o n he t c u r r e n t s i t u a t i o n o f