跨语言信息检索技术与研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
展趋势。
关键词 : 信息检 索
相关理论 多语言结合
文献信息集中检索出所需的文献信息的方

提问翻译是将查询中的源语言翻译成

引言
式或技术 无论是从跨语言信息检索的方式 目 标语言,然后再利用由目标语言构成的
还是从跨语言信息检索过程的 检索式去查找相关信息;文档翻译是利用 随着 I n t e me t 的飞速发展 . 信息的数量 或技术角度. 以指数形式剧增。网络 已 逐渐成为人们获 角度. 对C L I R的界定实质是一样的. 都是用 机器翻译软件把待检索的信息翻译成用源 取信息的重要来源。 信息的迅速增长, 激发 户使用自己比较熟悉的语言。 在多语言检索 语言表达的信息后再进行检索;中间语言
的信息是用人们所不能理解的语言来表达
2 查 询扩展
查询扩展是指在用户输入检索提问
的.即互联网信息的多语言性和网民所熟
悉语言的有限性之间存在着一定的矛盾。 当前.全球 3 . 1 3 亿网页内容所使用的语言

后,采取一定的策略对用户的检索要求进 三 、跨 语 言信 息检 索的 理 论 研 行扩充.前提是添加的词汇必须是受控且 与原检索词相关。通常利用同义词典来进
计算出它的最经常性n元字符顺序,然后
的语词( 如入口词转换为正式词) , 这便于用
3 . 文档语言识别
二、 跨语 言信 息检 索 的界 定
在对文档进行检索之前,通常要对其
跨语言信息检索 ( C r o s s — L a n g u a g e I n — 息检索, 就必须实现两种语言的翻译。 为了 进行预处理。特别是在设计多种语言的跨
f o r m a t i o n R e t i r e v a l , 简称 C HR ) 是指用户用 实现这个 目的, 可以采取提问翻译、 文档翻 语言信息检索中,识别文档的语言信息有
交 流 与 探 讨 i 璧 慧 慧 一
信息检索技术与研究
康媛 媛 胡 曦 玮
( 安徽 大 学)
摘 要: 跨 语 言 信 息 检 索技 术 和 相 关 理 论 研 究 已 经逐 渐 成 为 信 息检 索领 域 的 重 要 研 究课 题 之 一 。本 文 梳 理 信 息检 索相
关理论及 实现技 术 . 提 出使 用 多种语言相结合方 法是解 决跨语 言信息检 索的关键 , 并 分析跨语言信息检 索的发
行信息检索时.语言障碍成为人们对信息 g u a g e ) . 目 标语言可以是用户不熟悉甚至完 择检索词,每一个用目 标语言书写的检索
获取和理解过程中亟待解决的问题。 全陌生的语言。 与跨语言检索相对应, 提问 词后均给出用源语言表达的意思 式语言和文档相同的检索称为单语言检索 ( m o n o l i n g u a l r e t r i e v a 1 ) 。 要实现跨语言的信
检索的局限性越来越明显,大多数用户已 为其支撑
经不能满足于仅仅在 自己的母语 里对相关
1 . 查询策略
相关性排序( 共现技术) ; 第二, 从结果文献 信息排序前n 篇文档中选取 m个最高频率
此外,跨语言信息检索还可采用与用
Biblioteka Baidu
的信息进行查找检索.而是希望能够查询
在跨语言信息检索中。提问式所使用 的词, 来扩展最初的查询提问式。
到更多的其他语种中的相关信息 。 特别是 的语言通常称为源语言 s o u r c e l a u g u a g e ) 。
对 自身语种的信息掌握较少的用户来说, 源语言一般是用户的母语;被检索文档所 户交互, 由用户查询译文的方式扩展查询。 这种需求更加迫切。 因此, 在利用因特网进 使用 的语言称 为 目标 语言 ( t a r g e t l a n — 其主要原理是将查询问题翻译后由用户选
某一种语言从另外一种或多种语言表达的 译和中间语言翻译等翻译策略。
助于提高索引质量, 改善检索效果。 首先,
2 o 1 3 年 第 9 期囊 I _ 囊
构造多个语言的模型.即该语言中3 6 0 个 利用自 然语言处理与机器翻译相结合的技术 词. 这便于同时使用多个文献数据库: 另一 最经常使用的 n 元字符.按其在文献中出 提高翻译的准确性。 在跨语言检索中, 翻译的 种是自然语言的语词转换为情报检索语言 现的频率排成序列。 辨别文档语言时, 首先 准确性直接决定了 检索的准确性。
了人们对信息检索的迫切需求。 然而, 面对 系统中找到所需的信息。 研究目 的是克服语 翻译是提问和待检索的信息都翻译成一种
互联网这个涵盖多种语言的知识库,人们 言壁垒.提供跨语言文献信息检索服务, 通 逻辑形式, 或者第三种语言。
现在所能够理解和利用的信息只是整个网 过使用提问语种的提问式, 能够在信息系统 络信息资源中极少的一部分。相 当一部分 中 检索出 符合要求的相关信息。
跨语言信息检索在本世纪 7 O 年代初 行查询扩展。微软亚洲研究院在研究中英
占比依次为英文6 8 . 4 %,日 文5 . 9 %,德文 期就已 被提出。 S a h o n 利用手工编制的叙词 文信息检索时,提出了一种两步伪相关性 2 - s t a g e p s e u d o 5 . 8 %。中文 3 . 9 %,法文 3 . 0 %。西班牙文 表实现了受控语言的跨语言信息检索Ⅲ 。 进 反馈的提问式扩展方法 ( 2 . 4 %, 俄文 1 . 9 %, 意大利文 1 . 6 %, 葡萄牙文 入 9 0 年代。 国外又掀起了这方面的研究热 r e l e v a n t f e e d b a c k ) : 第一, 使用翻译后的提 技术的实现需要有强大、 完善的理论作 问式检索出一系列文献信息, 1 . 4 %, 韩文 1 . 3 %, 其他语种 4 . 4 % 。 单一语种 潮。 并对其进行
相关文档
最新文档