基于Lucene的PDF文档的全文检索的实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
—— 一 ( 塞挡缉麴1 —
ANAL YZ ER
—
( 查询器)
f ( 访问索引)
s ORAGE T
( 语言分析器)
ACCE SI DE S N X
随着 P F文 档 的应 用 越 来 越 广 泛 , D 怎样 提 取 和 利 用 P F文 D
件 内部 的信 息 资 源就 成 为 另一 研究 的热 点 。由 于 L c n u e e只能 处 理 文 本 和 数 据 , 而 且 L c n 的 内 核 本 身 只 处 理 jv .n . ue e a a1 g a
旦建 立 起 Lc n ue e 文档 和域 , 可 以 就
调 用 Ide Wre n x ir t
( 存储 器 )
Sr g jv . .e d r 象 和本 地 数 字类 型 。 因此 , 用 L c n tn 、 ai R a e 对 i a o 使 uee 索引 数 据 时 , 必须 先 从 数据 中提 取 纯 文本 格 式 信 息 , 便 L c n 以 ue e
S ARCHE E R
lDE E N X R
Байду номын сангаас
( 查询)
OUE ARS , RY P E R
( 索引)
DO UM E T C N
式 信 息 , 以 便
Lc n u e e识 别 该 文 本 并 建 立 对 应 的
Lc n u e e文 档 。 一
( 重询 墨 L
S ARC E HER
on b o co r p ds t an ut ael te ult x s ar o PDF e y ne res on o. d lm t y h f l e t e ch f i — do m e t bu s en ls cu ns。 talo abe PDF do mens o e cu t t r .
《 业 控 制 计 算 机 } 0 2年 第 2 工 21 5卷第 5期
13 O
基于 L c n u e e的 P F D 文档的全文检索的实现
mpe lme t t n o na i f PDF F l e t B s d n L c n o u l x a e o u e e -t
n d o e r v a ar n ee t r ti e l ge umberof e PDF do mens, i ari e i tt ou t e cu t t s t fs . h cl r hr gh h Xpd tol c v t f o s on er PDF do m e t o XT cu ns t T
tx n h n t e T T tx n e ig s a c h o g h i a u ig t e i lme t t n a d t e o i ia P o u n e t d te h × e tid xn 。e r h t r u h t e fe n me d r h mp e na i n h r n l DF d c me t a l n o g
Ab ta t s rc
I h Lu en ul e t e c i PDF cu e t di t t te ul e t ea c i al o t m p sbl.n r c ie, e n te c e f l x s arh n -t do m n s r l o h f l ec y -tx s r h s m s i os i e I p a tc t y h
ti e co t n h t o an e wor hi l td, che e f l t x ea c u c i r ev n e tt a c ntis k y d ghi e t a iv ul e ts r h f n t gh o - on. Ke wors: e PDF, l t x e ch,i i t y d l ne, uc f l e ts ar hghl u- gh
文检 索 的研 究 和 应 用 ,为 数 字 档 案 馆 利 用 全 文 检 索 技 术 提 高 检 索 能力 进 行 了应 用 研究 。
1 Xp f和 L c n d u e e工 作 原 理
Lc n u e e索 引 数 据 时 , 须 先 从 数 据 必 中 提 取 纯 文 本 格
黄 江平 黄 理 灿 徐 玲
( 浙江理工大学信息学院, 浙江 杭州 3 0 1 ) 1 0 8
摘 要
在 L cn u e e的 全文 检 索 中 , 直接 对 P F文档 进 行 全 文 检 索 几 乎 是 不 可 能 的 。在 实 际应 用 中 又 需要 对 大量 的 P D DF文 档 进行检 索, 通过 X d 工具 先对 P F文档 转 换 为 T T文本 , 后 对 T T文 本 建 立 索 引 , 进 行 检 索时 通 过 文 件 名 实现 和 原 pf D X 然 X 在 始 P F文 档 的 一 一 对应 , D 最终 实现 P F文 档 的 全 文 检 索 功 能 , 时 还 能 实现 对 P F文 档 所检 索的 包含 关键 词 的 内容 进 D 同 D 行 高 亮显 示 , 实现 全 文检 索的 功 能 , 过 实 际项 目应 用 , 索效 果 能 够 达 到很 好 的效 果 。 通 检 关 键 词 :ue eP F 全 文检 索 , L cn ,D , 高亮 显 示
数 字 档 案 馆 所 提 供 的信 息 查 找 平 台 和 方 式 多 种 多 样 ,但 是 通过 全文 检 索 的方 式 进 行 相 应 的 文 档 检 索 ,还 需 要 进 行 深 入 研 究 。 文 着 重 讨 论 了通 过 对 图 书 资 料 已扫 描 的 P F文 档 进 行 全 本 D