跨语言信息检索的主要实现方法 PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9

谢!
10
5
4.中间语种翻译方法 一般认为,选择的中间语种是计算机容易自动 处理的语种,如英语等。特别是在跨语言信 息检索中遇到这样问题时:源语种和目标语 种之间无法进行直接翻译。此时只能借助于 中间语种将源语种翻译目标语种(源→中间→ 目标)或将源语种和目标语种翻译成中间语种 (源→中间←目标)。
6
5.非翻译方法(no translation approach)。
2
二、跨语言信息检索的实现方法
跨语言信息检索涉及至少两种以上语言的文献,需 要先确定出文献的语种、形式及编码方案,对其进 行自动分析和标引,最终实现检索匹配,因此离不 开“翻译”的过程。“翻译”可以说是跨语言信息 检索技术的核心问题。其实现方法主要有以下几种:
1.提问式翻译方法 提问式翻译方法来自百度文库在信息检索之前,将提问式的语 种转化翻译成所要检索信息的信息语种。
一、跨语言信息检索基本概念
1.跨语言信息检索的概念 跨语言信息检索(CLIR)是指用户用某种语 言从另外一种或多种语言表达的文献信息集 中检索出所需文献信息的方式或技术。
1
2.跨语言信息检索的类型 (1)双语言信息检索 (2)多语言信息检索 (3)特定领域的跨语言信息检索 (4)跨语言的多媒体信息检索
除了上述几种通过翻译来实现跨语言信息检索的方法外, 还有学者提出了不进行任何翻译,只通过使用一些词形 处理手段,就可实现CLLR的技术。也称为同源匹配。 这种技术主要是基于印欧语系中的英语、法语等有共同 的起源,它们中的很多词有相似的拼写形式或者读音, 将英语词汇、法语词汇、英法双语文件映射到一个向量 空间中,可进行语义上的比较匹配。
3
2.文献翻译方法。 文献翻译方法是在信息检索之前,将文献信 息资源的信息语种转化为提问语种。文献信 息不仅指文本信息,也包括语音文献信息, 例如数字图书馆中就存在大量的数字化语音 文献。
4
3.提问式-文献翻译方法 综合提问式翻译方法和文献翻译方法的优点, 提出提问式-文献翻译方法来实现CLIR。这一 方法既减少用户的翻译成本,又提高检索服 务的质量,应该说是目前实现CLIR 比较理想 的选择。
7
三、跨语言信息检索中翻译方法的实现
1.基于机器翻译的方法。 机器翻译系统接受用户输入并输出翻译结果。
2.基于语料库的方法 语料库是将同一信息或同一主题的信息用两种或多种语言进行描述,
并由人工或计算机建立不同语种间信息的联系的集合,来源于对单词 用法的统计。语料库可以分为平行语料库和比较语料库。基于语料库 方法的中心思想是通过语料库中不同语种同一信息的对应关系对提问 式进行翻译并且过滤提问式翻译后产生的非正常翻译结果。 3.基于词典的方法 中心思想是基于双语字典或词典,找出提问式中的所有检索单词(提 问语种)对应匹配的由信息语种描述的单词。 4.字典与语料库混合方法 首先使用字典对提问式进行翻译,再利用专业语料库中相关术语的对 应关系来净化翻译结果。
8
四、跨语言信息检索的发展趋势及 前景展望
1、发展趋势: (1)不断涉足新的语言种类。 (2)多种方法结合的效果要优于单种方法。 (3)结合语义分析提高查询精确度。
2、前景:由于CLIR 技术是正处于研究的新兴技术, 实际应用也不是很多,技术还不够成熟,因此在技 术方面仍期待有更核心性的突破和进展,从而形成 一套完备的理论体系以及成熟的实践操作技术。
相关文档
最新文档