倒排索引技术在信息检索中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
_
v l e= ( o b e t m / ( a h s r ( e p a u ) au Du l ) ep M t . q t t m V l e) :
i ( p o d c n a n K y ( w ) f hw r .o t ise k d )


即词 频 t t ) f( ,d ,其 中 T m为数据 库 中的第 m篇文
摘 要 :本 文对倒 排 索 引技 术进 行研 究和分 析 ,采 用 改进 的 T I F权 重计 算公 式 ,并 在检 索 系统 引入 了分 布式 多线程 FD 技 术、缓存 cce 术。实验表明,信息检索的准确性和检索速度有 了很大的提 高。 ah 技
关键 词 :倒 排 索 引 ;信 息检 索 ;分布 式 多线程 、


引言
wH sM p : {H s M p h t m = ne a h a () a ha m e p
_ _
h tm .u (eo d i , v le ; m e pp t rc r_ d 信息 检 索是 信息 服务 中 很重 要 的一个 研 究课题 。它是 一个 从 au ) h w r . u ( w , h tm ) )) po dp t k d m ep ; 众多 的信 息 中查 找 出符合 特 定需 要 的文献 ,或 某 一 问题 的答案 、 数据 、事 实经 过或 结 论等 的查 找 过程 。随 着科 学 技 术的 高速 发 三 、基 于 词语 的权 重设计 方 案 展 ,系统 越 来越 复杂 ,需 要 处理 的信 息量 也 高速 的增 加 。传统 的 为 了提高检索的准确性 以及实现合理的排序,权重是值得考 检 索 方法 要 求信 息精 确无 误 ,且 无法 对信 息进 行取 舍 , 因此迫 切 虑 的一 项重 要 指标 。所 谓权 重是 表 示在评 价 过程 中 ,对各 评价 因 需要 一种 新 的能 从大 量数 据信 息 中发 现 、推理 知 识的有 效 方法 。 子 在总 体评 价 中 的作用 进行 区别 对 待 ,是被 评价对 象 的不 同侧 面 本文 正是 由此提 出将 倒排 索 引技 术引 入到 信 息检 索中 ,从 而达 到 的重要 程度 的 定量 分配 。 提 高信 息 检 索 的准确 性与 速度 的 目的 。 本 文对 经 典的 T IF权重 计算 公式 进行 改进 ,采 用 了一种 基 FD 二 、倒排 索 引技 术 于 词频 、文 档频 率 以及 关键 词语 的特 征权 重计 算 方案 ,将 文本 形 索 引是 数据库 的简要 描述 ,是 信 息检 索 的基础 ,所 有 的检 索 式 化为 一定 的 可计 算的特 征 。 请 求 都 由它做 出回答 。建 立索 引 的过程 就 是一 个建 立索 引 数据 库 定 义关 键词 语 为 出现 在题 干 ( ) H 、段首 ( ) 首 ( )的词 P 、句 S 的过 程 。倒排 索 引技 术是 一种 面 向 内容的 新型 全文 索 引方 式 ,它 语 。把 关键 词语 标记 为 k ,关 键词 语 的集 合记 为 K 。 w w 是 以知识 库 中的 关键字 进行 索 引 , 档 I 录 了该词 所在 的 问答 文 D记 对 H 、S中 的关键 词语 分别 赋予 重要 系数 I、 l、 I,对 、P p s 对的 I D号 ,同义 词和 倒排 表 内容项 等 。 正 文 中其它 位 置的词 语赋 予 重要 系数 I。以便 区分 它们 对 文本 内 为 了提 高查询 效 率 ,减少 响应 时 间,提 高 更新 吞 吐量 ,采用 容 的贡 献 的大 小差别 。 两 级 索引 构建 倒排 索 引,第一 级倒 排索 弓 的数据 结 构 。Wr l f o dD为 采 用词 频 、文档 频率 以及 关键 词语 的特 征权 重 公式 : 关 键词 的 哈希 值 ,用来 对 关键 词进 行索 引 。相 关信 息是 一个 独立 s 。。(i ) 。 t’ : T Xb ( ) 1 的哈希 链表 ,它包 括 :含有 该 关键 词 的知识 点 ( 文档 )信息 、知 √ a ( ÷ T xo ( / + ) i n n )l 2 n 口 × Ⅱ gN i ] 识点 ( 文档 )权 重 、文 档类 型等 信 息 。二级 索 引 的数 据 结构 如表 其 中: a—— “ 置 系数 ” ,当该 词语 不属 于关 键词 语集 合 位 l o u etD表 示该 知识 点在 数据 库 中 I 。 ,D cm n l D号 K ,a: E 1 w时 iI= ;当词语属 于 K ,则根 据 设定 I、 I、I的 比例 , w p s 建 立 索 引的部 分代 码如 下 : a赋 予不 同的值 。对于 存在 于 不 同区域 的 同一特 征则 取其 所有 权 i f r (n o iti=O i<0 1nt : i+ ; . egh +) / 建立 索 引 / 值 中的最 大值 。 { c ut e+ ; o n N w + b — “ 据库 系 数 ”,根 据 文本 所 在 的数据 库 的不 同设 定 — 数 S rn w t i g k d= O i . o t i g ( ; []t Srn ) 专业 词解 释库 系数 D 、知 识库系 数 D 、题 库系 数 D 、 问答 库 D 。 i f ( o d a h c n a n K y ( w ) ! lH s . o t i s e kd) 四个 数据 库系 数 。 {ot ne 】 c n u ; i n ——特 征词 语 t在 文本 T 出现 的 次数 。 i m中 d u l e p = ( o b e o be tm D u l ) i i i l a u . e ( w ) n taV leg t k d : nm — 文本 T T— m中所有 词 的总 数 ,重复 的词 按 多次计 算 。 / 计算 权重 ( 有乘 上数 据库 系数 ) / 没
异 ,而主 要 的技术 手 段就 是采 用 哈希 函数 和公 钥密 码算 法等 基本 的 防杀 毒方 式需 要与 互联 网进 行有 效 融合 , 同时还 需要 采用 传统 的安 全设 计工 具 。通 过采 用这 种技 术手 段 来实现 网络通 信 的协议 的手 动文 件监 控 与查 杀 ,对 网络及 邮件 等进 行 实时 监控 ;二 是病 数 据进 行 抗重 放 以及 实体 认证 的完 整性 鉴别 。尤 其 是在 安全 协议 毒查 杀软 件应 具 备完 善 的在 线 升级 服务 ;三 是病 毒 查杀 软件 厂商 的设 计环 节 中,如 果 能够做 到对 一 个完 整 的信令 过程 进行 一 次加 还 应 具备 快速 反应 的病 毒检 测 网 ;四是 病毒 查杀 软件 厂 商还 需能 密 ,这 样 就使 其安 全性 得到 保证 。 提 供及 时和完 整 的反病 毒 咨询 。 ( )运用 用 户识 别技 术 ,加 强系统 安全 性 二 ( 四)完 善入 侵检 测技 术 在 网络 通信 系 统安 全 中, 为 了让 网络 通信 具 有用 户存 取数 据 网络通 信 的入 侵检 测技 术又 称 为 IS D 。其主 要 的作用 就在 于 的 甄别 能 力 , 量 避免 复制 、篡改 或非 法传 送数 据等 不安 全事 故 。 尽 能够迅 速 识别针 对 网络 入侵 行为 , 并及 时发 出报 警信 息 ,或 者 采 因此 ,网络 通信 需要 运用 用户 识 别技 术 ,一般 采 用 的识别 方法 有 取 必要 的安 全措 施 阻止 网络入 侵 。 标 记识 别 、唯 一标 识符 、 口令 等 。 网络通 信 的入侵 检 测技 术设 计思 想就 在于 网络 入侵 检测 系 统 标 记识 别技 术属 于一 种包 括 一随 机精 确码 卡 片 ( 磁 卡等) 如 的 或 者节 点入 侵检 测 系统 。前 者基 于节 点 的工作 日志 或 网管系 统 的 识别 方式 。其 实 标记 识别 技术 是 一个 口令 的物 理 再现 ,其 主要 是 状 态搜 集 、安全 审计 数据 来 发现 入侵 行为 ,而 后者 是在 网络 关 键 用来 代替 系 统打 入一 个 口令 。一 般情 况一 个用 户必 须要 有 一个精 点 设置 数据 采集 构件 ,对 网络 数据 包进 行 过滤 、解 释 、分析 、判 确码 卡片 ,但 是 也可 以拥 有 多个 口令 , 以此来 提 高网络 通信 的 安 断 ,实 时地 发现 入侵 行 为 。异 常入 侵检 测 原理 和误 用入 侵检 测 原 全性 。 理都 可 以用 于通 信 网入侵检 测 , 但一 定是 针对 特 定通信 网协 议 的 。 唯一 标识 符 主要 是应 用于 高度 的 安全 网络 系统 。其 是用 户 的 因此 ,不可 能实现 所 有 的网络 通信 的入 侵 检测 技术 。但 是一 网络 管理 和存 取控 制进 行精 确 而 唯一 的标 识 。这 样用 户 的唯 一标 般 的网络 通信 的入 侵检 测还 是 很有 必要 的 ,可 以对特 定 网络通 信 识符 是 由网络 系统 在用 户建 立 时 自动生 成 的一个 数字 代码 ,并且 环 境 设计 专用 的入 侵检 测系 统 。 此 数 字代 码在 系统 的周 期 内不会 被别 的用 户 二次 使用 。 四 、结束 语 口令 是人 们最 常使 用 的系统 安全 识 别方 法 。一般 性 的 口令字 前 面所 阐述 的是 当前 网络通 信 的安 全风 险 以及 当前 网络通 信 是 由计 算机 系 统 随机产 生 ,其 随机产 生 的 口令字 最不 易被 泄 密 , 的安全 防 范技 术 ,其 目的是 为 了使 网络 通信 用户 对 网络 的的安 全 也 就是 其 具有 很强 的保 密性 。但 是这 些 口令 会增 加用 户记 忆 的难 风 险和 安全 防 范措 施有 一定 的 掌握 , 以此来 提 高人们对 于 网络 通 度。 信 的安 全意 识 , 同时加 强 网络通 信 的安全 防 范措 施 ,共 同促进网 ( )积极 防 范计算 机病 毒 三 络通信安全运行的推广应用, 如今 的计算 机 网络病 毒 发展趋 势 很迅 猛 ,现在 的病 毒 已经 与 参 考文 献 : 以前 的单 一 型传 播方 式变 成 了依 附并 依赖 网络 传播 ,其 方 式主 要 【 蒋 宏 . 代 通 信 网络 安 全现 状及 维 护 措 施 浅 析 Ⅱ. 营 科 I 】 现 】 民 有集 电子 邮件 、文件 等进 行传 播 ,并 且其 中还 融合 了木 马 、黑 客 技 ,0 02 2 1 , 等攻 击手 段 为一 体 的广 义 的 网络病 毒 。 【 姜 滨, . 网络 安全 与 防护 [. 肃科技 , 0, 2 】 于湛 通信 『甘 1 2 62 0 1 在选 择 杀毒 软件 时必 须要 考虑 以 下几 点 :一是病 毒 查杀 软件 [ 杨铭 _ 安全初 探 卟 中 国科 技信 息 , 0 3 】 网络 2 5 0 ( 上接 第 1 ) 4页 a— — “ i 位置 系数 ”。 a—— 一 个 常量 。 l : n+ ) o ( a—— 逆 文本 频率 函数 ,即 n越 大 此值 越 小 。 g N/
Ab t a tT ep p rg v s a c n n l ss n t ei v r d id x tc n l g n d p e ei r v d T I i h ig sr c : h a e a er e rh a d a ay i o e t e e h oo y a da o td t e h n e n h mp o e F DF we g t n f r l n o d r t mp o e t ewenku.baidu.coma c r c f r tiv l e p an d ito u e it b td mu t t r a i g t c oo yc c e o mu a i r e o i r v h c u a y o er a x l ie ; r d c d a d s i ue l — e d n e h l g ,a h e n r ih n
t c o o y n te rtiv ls tm . pei e t lrs  ̄ s o h t h n o m ain e iv la h c u a y o ere a pe d h s e h l g i ere a yse Ex rm n a eul h w t a , e if r to rt e a nd te a c c frtiv ls e a n h t r r be n r al i e g e t mpr v d. y oe Ke ywo dsI e tdi e ;n o m ai n S ac n c n l g Diti tdm u t h e d d r :nv re nd x If r to e r higTe h o o y; srbue lir a e t
L n u j n h n in i gY nu , a gL u a a Z j
(c o l fnomainE gn ei ,e a stt f c n ea dT c n l yXn in 4 3 0 , ia S h o o fr t n i r gH n nI tueo i c n e h o g 。ix g 5 0 3Ch ) I o e n ni Se o a n
计算机光盘软件与应用
信息技术应用研究 C m u e D S fw r n p l c t o s o p t r C o t a e a d A p a in i 2 1 年第 2 01 2期
倒排索引技术在信息检索中的应用
梁云 娟 , 张丽 君
( 南科技 学院信 息工程学院 ,河南新 乡 4 30 河 5 03)

n ——文本集 中含有特征词语 t的文本的数量, i ;
ni
维文档
e】 e s
频 率的倒 数 。 ( 下转 第 1 页 ) 6

l 一 4
计 算机 光 盘软 件 与应用
信息技术应用研究 C m u e D S f w r n p lc t o s o p tr C o t a e a dA p a n i i 2 1 年第 2 01 2期
童。
{h t m : ( a h a ) h w r . e ( w ) p ep H sM p p od gt k d ;

N— —总 共 的文本 数 量 。 .
hp t m . u ( e o d i , v l e) ep p t r cr d a u ;

_
h w r . u ( w , h tm ) } po dp t kd p ep;
中图分类号:T 3 1 P9. 3
文献标识码 :A 文章编号 :10 — 59( 0 1 2 — 04 0 07 99 2 1 ) 2 0 1— 2
Th p ia i n o e t d I d x i n o m a i n Re re a eAp l t f nv r e n e I f r t t iv l c o I n o
相关文档
最新文档