基于计数型布隆过滤器的文本检索模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4 0卷 第 2期
Vl 0 1 . 4 0
・
计
算
机
工Hale Waihona Puke Baidu
程
2 0 1 4年 2月
Fe b r u a r y 2 01 4
N o. 2
Co mp me r En g i ne e r i ng
体 系结构 与软件 技术 ・
文章 编号:1 0 0 _ 3 4 2 8 ( 2 0 1 4 ) 0 2 — _ 0 0 5 8 — _ 0 4 文献标识码: A
F i l t e r ( C B F ) w h i c h a r e c o m p u t e d b y t h e i n v e r t e d i n d e x ’ s k e y wo r d s t o he t c o r r e s p o n d i n g i n d e x n o d e . E a c h i n d e x n o d e b u i l d s a s e a r c h t r e e a n d m a i n t a i n s i t w h e n t h e t r e e ’ s l e a f n o d e c h a n g e s . T h e s e a r c h t r e e i s b u i l t b y l e a f n o d e s wi t h t h e d a t a n o d e ’ s c h a r a c t e r ( i n c l u d i n g t h e i r c o u n t i n g b l o o m i f l t e r ’ s v a l u e ) , a n d i t s i n t e na r l n o d e s w i t h t h e r e s u l t c o mp u t e d b y t h e v a l u e s o f c o u n t i n g b l o o m i f l t e r . S i m u l a t i o n r e s u l t
r e s p o n s i b l e f o r s t o r i n g d o c u me n t s , a n d ma i n t a i n i n g t h e i n v e r t e d i n d e x o f t h e d o c u me n t s . I t a l s o t r a n s mi t s t h e v a l u e s o f Co u n t i n g B l o o m
索模型 C B F T R M。该模型将物理节点分为数据节点和索引节点,分别采用结构化 P 2 P进行 网络覆盖。每个数据节点负责存储文档 数据并维护与之相应的倒排索引,同时通过倒排索引中的关键词集合计算出计数型布隆过滤器值 ,发送给相应的索 引节点。每个 索引节点建立一棵以部分数据节点的特征信息( 包括过滤器值) 为叶节点、以过滤器值运算结果为内部节点的搜索树, 并在叶节点发
生变 化 时对搜 索树 进行 维护 。仿 真实 验结 果表 明 ,该 模 型文 档定 位快 ,索 引 维护通 信量 小 ,而且 具有 较高 的查 准率 。
关健词 :计数型布隆过滤器 ;搜索树 ;结构化 P 2 P ;文本检索;倒排索引
Te x t Re t r i e v a l Mo d e l Ba s e d 0 n Co u n t i n g Bl o o m Fi l t e r
[ A b s t r a c t ]T h e d i s t r i b u t e d t e x t r e t r i e v a l s y s t e m i s d i ic f u l t t o t a k e b o t h h i g h r e t r i e v a l e ic f i e n c y a n d l o w c o s t o f i n d e x m a i n t e n a n c e i n t o a c c o u n t , s o t h i s p a p e r p r o p o s e s a T e x t R e t r i e v a l Mo d e l b a s e d o n C o u n t i n g B l o o m F i l t e r ( C B F T R M) t o s o l v e t h e p r o b l e ms a b o v e . T h i s mo d e l
di vi d e s t he p h ys i c a l no d e i n t o t he d a t a no d e a n d t h e i n d e x n o de , b o t h of wh i c h a r e o v e r l a i d wi t h s t r uc t ur e d P2 P n e t wor k. Ea c h da t a n od e i s
F E NG J i a - j u n , wA NG Xi a o - l i n , T I A N Qi n g
( C o l l e g e o f C o mp u t e r S c i e n c e a n d T e c h n o l o g y , S h a n d o n g Un i v e r s i t y , J i n a n 2 5 0 1 0 1 , C h i n a )
中圈 分类 号: T P 3 1 1 . 1 3
基于计数型布 隆过滤器的文本检 索模型
冯加军 ,王 晓琳 ,田 青
( d j 东大 学计 算机科 学 与技 术学 院 ,济南 2 5 0 1 0 1 )
摘
要 :分布式文本检索系统难 以兼顾高效率的数据检索和低成本的索引维护。为此 ,提出一种基于计数型布隆过滤器的文本检
Vl 0 1 . 4 0
・
计
算
机
工Hale Waihona Puke Baidu
程
2 0 1 4年 2月
Fe b r u a r y 2 01 4
N o. 2
Co mp me r En g i ne e r i ng
体 系结构 与软件 技术 ・
文章 编号:1 0 0 _ 3 4 2 8 ( 2 0 1 4 ) 0 2 — _ 0 0 5 8 — _ 0 4 文献标识码: A
F i l t e r ( C B F ) w h i c h a r e c o m p u t e d b y t h e i n v e r t e d i n d e x ’ s k e y wo r d s t o he t c o r r e s p o n d i n g i n d e x n o d e . E a c h i n d e x n o d e b u i l d s a s e a r c h t r e e a n d m a i n t a i n s i t w h e n t h e t r e e ’ s l e a f n o d e c h a n g e s . T h e s e a r c h t r e e i s b u i l t b y l e a f n o d e s wi t h t h e d a t a n o d e ’ s c h a r a c t e r ( i n c l u d i n g t h e i r c o u n t i n g b l o o m i f l t e r ’ s v a l u e ) , a n d i t s i n t e na r l n o d e s w i t h t h e r e s u l t c o mp u t e d b y t h e v a l u e s o f c o u n t i n g b l o o m i f l t e r . S i m u l a t i o n r e s u l t
r e s p o n s i b l e f o r s t o r i n g d o c u me n t s , a n d ma i n t a i n i n g t h e i n v e r t e d i n d e x o f t h e d o c u me n t s . I t a l s o t r a n s mi t s t h e v a l u e s o f Co u n t i n g B l o o m
索模型 C B F T R M。该模型将物理节点分为数据节点和索引节点,分别采用结构化 P 2 P进行 网络覆盖。每个数据节点负责存储文档 数据并维护与之相应的倒排索引,同时通过倒排索引中的关键词集合计算出计数型布隆过滤器值 ,发送给相应的索 引节点。每个 索引节点建立一棵以部分数据节点的特征信息( 包括过滤器值) 为叶节点、以过滤器值运算结果为内部节点的搜索树, 并在叶节点发
生变 化 时对搜 索树 进行 维护 。仿 真实 验结 果表 明 ,该 模 型文 档定 位快 ,索 引 维护通 信量 小 ,而且 具有 较高 的查 准率 。
关健词 :计数型布隆过滤器 ;搜索树 ;结构化 P 2 P ;文本检索;倒排索引
Te x t Re t r i e v a l Mo d e l Ba s e d 0 n Co u n t i n g Bl o o m Fi l t e r
[ A b s t r a c t ]T h e d i s t r i b u t e d t e x t r e t r i e v a l s y s t e m i s d i ic f u l t t o t a k e b o t h h i g h r e t r i e v a l e ic f i e n c y a n d l o w c o s t o f i n d e x m a i n t e n a n c e i n t o a c c o u n t , s o t h i s p a p e r p r o p o s e s a T e x t R e t r i e v a l Mo d e l b a s e d o n C o u n t i n g B l o o m F i l t e r ( C B F T R M) t o s o l v e t h e p r o b l e ms a b o v e . T h i s mo d e l
di vi d e s t he p h ys i c a l no d e i n t o t he d a t a no d e a n d t h e i n d e x n o de , b o t h of wh i c h a r e o v e r l a i d wi t h s t r uc t ur e d P2 P n e t wor k. Ea c h da t a n od e i s
F E NG J i a - j u n , wA NG Xi a o - l i n , T I A N Qi n g
( C o l l e g e o f C o mp u t e r S c i e n c e a n d T e c h n o l o g y , S h a n d o n g Un i v e r s i t y , J i n a n 2 5 0 1 0 1 , C h i n a )
中圈 分类 号: T P 3 1 1 . 1 3
基于计数型布 隆过滤器的文本检 索模型
冯加军 ,王 晓琳 ,田 青
( d j 东大 学计 算机科 学 与技 术学 院 ,济南 2 5 0 1 0 1 )
摘
要 :分布式文本检索系统难 以兼顾高效率的数据检索和低成本的索引维护。为此 ,提出一种基于计数型布隆过滤器的文本检