基于内容的中文文本检索方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ma yr ti v l e h i u saeba e n i e ere a c i u s Th spa e t de es a c d id xt c o o n ere a c n q e r s d o t nd x rtiv l e h q e . i p rsu ist e h a e h l g of t n h r n n en y l c n n e ac lt dt esmi rt fLu e er s l a d q e y i co p c o l o i p o et es r c to u e e a d r c luae i l i o c n e u t h a y u r t Ve t rS a eM de n n he t m r v o tl ai n h o
Chi s x t iva e ho Ba e n Co t n ne eTe tRe re l M t d s d o n e t
W AN G i g r G i F ng Jn , AN X n- a
(co l f uo t d nomai n ier g Xi n i ri f eh oo yXi n7 04 , hn ) S ho A tmaia fr t nE gn ei , ’ v syo T cn lg, ’ 10 8 C ia o cn I o n a Un e t a
语 言分 析器,主要 用于 分词 索 引存 储时 的文档 结构 管理 索 引管 理。 供库 的读 写接 口 提
●
模 、稳定 的或 周期性变化 的文本文 档的检索 . 中将 文
引入 L cn 平 台,在其 已有的基 础上进行相关检索 结 u ee 果改进,以便获得更好的检 索效果.
O gaa e1 ee u rPr r 查询分析器,实现查询关键词间的运算 r. c .c . ey a e ph un q s
Ke ywo d : e tr p c r s v co a emo e;u e e id x s l i s d llcn ; e ; i a t n mi ry
随着科 技的飞速 发展,文本 信息量越 来越 多, 如 何在海量的信息 中获取 自己真正想要 的信息成 为一个 巨大挑 战. 基于 内容的检索是根据 媒体对象 的语义和 上下文联 系进行检索.这种检 索技术突破 了传 统的基
Or. he ue e erh ga  ̄c .c . ac 1n s 检 索 管理。 据 查询 条件 得到 结果 根 数据 存储管 理
1 L cn 概述 uee
L cn 是用 Jv 编 写的全 文检索 引擎工具包,它 ue e aa 可以方便地 嵌入 到各种应用 中实现全文索引和检索功
库采 用建立索 引的技术缩短检索 时间. 于 内容 的检 基
索 技术往往 也都是基 于索 引的【 l 非常适用 于大规 】 ,它
O g  ̄ceuee n ls r. h .c . ayi a 1n a s O g ̄lh .c e ou n r. l  ̄ue . cmet c 1n d O gaa eueei e r. c .cn .dx ph 1 n
助 了 L cn ue e的索 引技术与检索机制 , 通过对索 引信息 的改进 以及使用基 于内容 的改进方法,对 L cn u ee结果与查
询语句在 向量空 间中重新计算相似度,实现 了对长段查询语句检 索结果排 序位置 的提高.
关键 词: uee L cn ;向量空间模型; 索引;相似度
它们进行 二次扩展. L cn u ee源码 中共包括 7个子包,每个包完成特 定 的功能,具体 内容如表 1 所示:
表 1 L cn 源码包对应功能表 ue e
L cn uee源码 包名 功 能
检索 结果是按顺序检 索的响应时 间给 出, 么检索的 那
过程 会变 的乏味冗长 . 了解决 这种 问题 , 本文档 为 文
Ab t a t W i erp d ic e s f f r t n r tiv l e h oo y i b c migmo ea dmo ei o t t At r s n, s r c : t t i r a eo o mai , er a c n lg e o n r n r hh a n n i o e t s mp r n . e e t a p
o  ̄n u r ac s lt r u ht ei p o e nd xi f r t na dt ei p o e f gq e s r hr u t h o g h m r v di e n o mai y e e o n h m r v dmeh db s do o tn . t o a e nc n e t
计 算 机 系 统 应 用
ht:w w. S .r. t / w c ・ og n p/ —a c
21 0 2年 第 2 卷 第 9期 l
基于内容的中文文本检索方法①
王 婧,王新房
( 西安理工大学 自动化与信 息工程学 院, 西安 704) 108
摘
wenku.baidu.com
要 :随着信 息量 的急剧 增加,检索 技术显得尤为关键.目前 很多检 索技术都是基于索引的检 索技术.文中借
Or. h .c e t e ga e1 e .o  ̄c un s r
于关键字 的检索 的局 限,直接对对象 的内容进行分析, 抽取特 征和 语义。并建立 索引进行检 索.如果 返回 的
能. u ee有一套 自己的索 引、检索机制与结果排 序 L cn
方法,可 以较 为方便快 捷地进行检索 . 索引与检 索 但
两者是相互独立 的, 这使得 开发人员可 以根据 需要对
Chi s x t iva e ho Ba e n Co t n ne eTe tRe re l M t d s d o n e t
W AN G i g r G i F ng Jn , AN X n- a
(co l f uo t d nomai n ier g Xi n i ri f eh oo yXi n7 04 , hn ) S ho A tmaia fr t nE gn ei , ’ v syo T cn lg, ’ 10 8 C ia o cn I o n a Un e t a
语 言分 析器,主要 用于 分词 索 引存 储时 的文档 结构 管理 索 引管 理。 供库 的读 写接 口 提
●
模 、稳定 的或 周期性变化 的文本文 档的检索 . 中将 文
引入 L cn 平 台,在其 已有的基 础上进行相关检索 结 u ee 果改进,以便获得更好的检 索效果.
O gaa e1 ee u rPr r 查询分析器,实现查询关键词间的运算 r. c .c . ey a e ph un q s
Ke ywo d : e tr p c r s v co a emo e;u e e id x s l i s d llcn ; e ; i a t n mi ry
随着科 技的飞速 发展,文本 信息量越 来越 多, 如 何在海量的信息 中获取 自己真正想要 的信息成 为一个 巨大挑 战. 基于 内容的检索是根据 媒体对象 的语义和 上下文联 系进行检索.这种检 索技术突破 了传 统的基
Or. he ue e erh ga  ̄c .c . ac 1n s 检 索 管理。 据 查询 条件 得到 结果 根 数据 存储管 理
1 L cn 概述 uee
L cn 是用 Jv 编 写的全 文检索 引擎工具包,它 ue e aa 可以方便地 嵌入 到各种应用 中实现全文索引和检索功
库采 用建立索 引的技术缩短检索 时间. 于 内容 的检 基
索 技术往往 也都是基 于索 引的【 l 非常适用 于大规 】 ,它
O g  ̄ceuee n ls r. h .c . ayi a 1n a s O g ̄lh .c e ou n r. l  ̄ue . cmet c 1n d O gaa eueei e r. c .cn .dx ph 1 n
助 了 L cn ue e的索 引技术与检索机制 , 通过对索 引信息 的改进 以及使用基 于内容 的改进方法,对 L cn u ee结果与查
询语句在 向量空 间中重新计算相似度,实现 了对长段查询语句检 索结果排 序位置 的提高.
关键 词: uee L cn ;向量空间模型; 索引;相似度
它们进行 二次扩展. L cn u ee源码 中共包括 7个子包,每个包完成特 定 的功能,具体 内容如表 1 所示:
表 1 L cn 源码包对应功能表 ue e
L cn uee源码 包名 功 能
检索 结果是按顺序检 索的响应时 间给 出, 么检索的 那
过程 会变 的乏味冗长 . 了解决 这种 问题 , 本文档 为 文
Ab t a t W i erp d ic e s f f r t n r tiv l e h oo y i b c migmo ea dmo ei o t t At r s n, s r c : t t i r a eo o mai , er a c n lg e o n r n r hh a n n i o e t s mp r n . e e t a p
o  ̄n u r ac s lt r u ht ei p o e nd xi f r t na dt ei p o e f gq e s r hr u t h o g h m r v di e n o mai y e e o n h m r v dmeh db s do o tn . t o a e nc n e t
计 算 机 系 统 应 用
ht:w w. S .r. t / w c ・ og n p/ —a c
21 0 2年 第 2 卷 第 9期 l
基于内容的中文文本检索方法①
王 婧,王新房
( 西安理工大学 自动化与信 息工程学 院, 西安 704) 108
摘
wenku.baidu.com
要 :随着信 息量 的急剧 增加,检索 技术显得尤为关键.目前 很多检 索技术都是基于索引的检 索技术.文中借
Or. h .c e t e ga e1 e .o  ̄c un s r
于关键字 的检索 的局 限,直接对对象 的内容进行分析, 抽取特 征和 语义。并建立 索引进行检 索.如果 返回 的
能. u ee有一套 自己的索 引、检索机制与结果排 序 L cn
方法,可 以较 为方便快 捷地进行检索 . 索引与检 索 但
两者是相互独立 的, 这使得 开发人员可 以根据 需要对