跨语言信息检索课件

合集下载

跨语言信息检索的主要实现方法.ppt

4.中间语种翻译方法一般认为，选择的中间语种是计算机容易自动处理的语种，如英语等。特别是在跨语言信息检索中遇到这样问题时：源语种和目标语种之间无法进行直接翻译。此时只能借助于中间语种将源语种翻译目标语种(源→中间→ 目标)或将源语种和目标语种翻译成中间语种 (源→中间←目标)。
5.非翻译方法(no translation approach)。
一、跨语言信息检索基本概念
1.跨语言信息检索的概念跨语言信息检索（CLIR）是指用户用某种语言从另外一种或多种语言表达的文献信息集中检索出所需文献信息的方式或技术。
2.跨语言信息检索的类型（1）双语言信息检索（2）多语言信息检索（3）特定领域的跨语言信息检索（4）跨语言的多媒体信息检索
四、跨语言信息检索的发展趋势及前景展望
1、发展趋势： (1)不断涉足新的语言种类。 (2)多种方法结合的效果要优于单种方法。 (3)结合语义分析提高查询精确度。 2、前景：由于CLIR 技术是正处于研究的新兴技术，实际应用也不是很多，技术还不够成熟，因此在技术方面仍期待有更核心性的突破和进展，从而形成一套完备的理论体系以及成熟的实践操作技术。
2.文献翻译方法。文献翻译方法是在信息检索之前，将文献信息资源的信息语种转化为提问语种。文献信息不仅指文本信息，也包括语音文献信息，例如数字图书馆中就存在大量的数字化语音文献。
3.提问式-文献翻译方法综合提问式翻译方法和文献翻译方法的优点，提出提问式-文献翻译方法来实现CLIR。这一方法既减少用户的翻译成本，又提高检索服务的质量，应该说是目前实现CLIR 比较理想的选择。
谢
谢！Biblioteka 除了上述几种通过翻译来实现跨语言信息检索的方法外，还有学者提出了不进行任何翻译，只通过使用一些词形处理手段，就可实现CLLR的技术。也称为同源匹配。这种技术主要是基于印欧语系中的英语、法语等有共同的起源，它们中的很多词有相似的拼写形式或者读音，将英语词汇、法语词汇、英法双语文件映射到一个向量空间中，可进行语义上的比较匹配。

信息检索与运用PPT课件(共8章)第一章进入“信息殿堂”的钥匙---认识信息检索

（二）按照收录信息的完整程度划分
1 全文检索工具全文检索工具主要指可以检索到文献全文，并且为检索结果提供全文阅读的信息检索工具。
图1-12 中国知网提供全文检索服务
2 二次检索工具分类
目录型检索工具
题录型检索工具文摘型检索工具
索引型检索工具
四、信息检索的工具
定义
目录型检索工具是记录文献具体出版单位、收藏单位及其他外表特征的检索工具。它一般以一个完整的出版或收藏单位（如某图书馆）为基本著录单元，一般著录文献的名称、著者、文献出处等。对于文献信息检索来说，国家图书馆馆藏目录、学校或公共图书馆馆藏目录等是常用的目录型检索工具
第
二
节
信息检索基础知识
一、信息、知识和文献的概念
观察图1-6中的4张图片，你能从中得到哪些信息？这些信息的载体是什么？
（a）（a）
（b）
（c）
；（b）
图1-6 信息的形式与内容；（c）
（d）
；（d）
。
一、信息、知识和文献的概念
（一）信息
目前大家普遍接受的定义为：信息是客观存在的一切事物通过物质载体所发出的消息、情报、指令、数据和信号中所包含的一切可传递和交换的内容。
认
识
产生
事
物
信大脑思维重新知
新
组织和有序化
实践应用的
信
息
识
息
记录在载体上文献
传递、研究、运用
图1-7 信息、知识和文献的关系
二、信息检索的概念与原理
信息检索的基本原理，其核心是信息需求与信息存储的比较和选择，即两者匹配的过程。具体来说，就是信息使用者从特定的信息需求出发，在特定的信息集合中根据存储信息时所设定的线索与规则找出自己需要的信息。信息检索的原理如图1-8所示。

信息检索技术(讲授版)PPT课件

开始浏览，沿着专题链接层层查找，直至找到有关的内容为止。然后用“书签”
保存这个页面的URL，转向另一个分支。这种方法可以迅速获得较多的相关地
址，然后进行筛选。就使用引擎而言，国外专家也建议先用链接页面多、响应
时间快的引擎。
-
3
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系，引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求最密切的文献线索，往往包含了相似的观点、思路、方法，具有启发意义。
这里需要说明的是，在Windows 环境下，尤其是在中文数据库及网站中，逻辑检索可以用算符将检索要求编成综合表达式向计算机一次输入检索提问，也可以用窗口上的逻辑指令按钮（与、或、非）进行分步组配提问和检索。
-
36
案例
-
37
布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符，利用布
尔逻辑算符进行检索词或代码的逻辑组配，是计算机信息检索
例 2：《法国的邮电事业》的类号为“F635.65” ，“F63” 代表世界各国邮电事业，“565”为世界地区复分号，是法国的代号。如主表类目没有注明依世界地区表复分时，则在世界地区复分号上加国家区分号“（）”以示区别
例3：《上海市现代摄影作品集》是“J426.51”，“J426”代表现代摄影作品集，“51”为中国地区复分号，指上海市。
-
5
另一种较为普遍的查法是由近及远地追溯，这样由一变十，由十变百地获取更多相关文献，直到满足要求为止。这种方法适合于历史研究或对背景资料的查询，其缺点是越查材料越旧，追溯得到的文献与现在的研究专题越来越疏远。因此，最好是选择综述、评论和质量较高的专著作为起点，它们所附的参考文献筛选严格，有时还附有评论。

信息检索通用教程教学课件ppt

1-3 基本方法
信息检索原理图
1-3 基本方法
2. 常用技术布尔逻辑检索（Boolean Search）截词检索（Truncation Search）限制检索（Limitation Search）位置检索（Position Search）加权检索（Weight Search）
1-3 基本方法
原理原理信息存储与检索信息存储与检索信息检索信息检索信息的存储与检索之间的相符性信息的存储与检索之间的相符性113基本方法基本方法信息检索原理图信息检索原理图113基本方法基本方法常用技术常用技术布尔逻辑检索布尔逻辑检索booleansearchbooleansearch截词检索截词检索truncationsearchtruncationsearch限制检索限制检索limitationsearchlimitationsearch位置检索位置检索positionsearchpositionsearch加权检索加权检索weightsearchweightsearch基本方法基本方法常用技术常用技术布尔逻辑检索布尔逻辑检索booleansearchbooleansearch布尔逻辑算符图示布尔逻辑算符图示逻辑与逻辑非逻辑或逻辑异检索工具方法与步骤检索工具方法与步骤选择检索工具方法与途径实施检索过程评价检索结果修正调整检索策略分析检索问题13基本方法113基本方法基本方法检索工具方法与步骤检索工具方法与步骤11分析检索课题分析检索课题22选择检索工具方法与途径选择检索工具方法与途径33实施检索过程实施检索过程44修正或调整检索策略修正或调整检索策略bb11分析检索课题分析检索课题要查找的是什么类型的问题
书目、索引、文摘等
各类字典、词典、百科全书等类书、政书、年鉴、手册、名录、表谱、图录等丛书、总集、资料汇编、综述、方志等

跨语言信息检索技术

The unchanged term can be expected to match successfully with a corresponding term in another language if the two languages have a close linguistic relationship.(for example, generation in English and French)
2021/8/2
3
The Internet Big Picture
World Internet Users and 2015 Population Stats
World Regions
Africa
Population Internet Users
1,158,355,663 313,257,074
Penetrat Users % ion(%po of Table pulation)
2021/8/2
17
文档翻译优缺点
优点
只翻译一次文档提供的上下文比较丰富文档可以线下事先翻译好
缺点
翻译速度慢占用大量空间、时间，效率低依赖机器翻译系统的质量
2021/8/2
18
查询翻译vs.文档翻译
取决于特定语言资源通常查询翻译使用更广两种方法都提出了“交互性”挑战
3.5%
3,426%
North America
357,172,209 313,862,863 87.9%
9.6%
191%
Latin America
617,776,105 333,115,908 53.9%
10.2%
1,743%
Oceania/Aus 37,157,120

《信息检索》PPT课件

1985年，国家教委印发<改进和发展文献课教学的几点意见>的通知. (85)教高一司字065号
1992年，国家教委印发《文献检索课教学基本要求》，全面规定了“文献检索课”的课程性质、教学目的、课程组
织、教学评估.教高司[1992]44号
1993年，国家教委<关于成立《文献检索课》教学指导小
怎样提高信息处理能力？
精选课件ppt
7
内容提要
1
引言
2
基本概念
3
互联网资源
4
专业学术资源
5
商标权
6
其他知识产权
精选课件ppt
8
1. 信息、知识、情报、文献
信息：事物属性，是由事物发出的消息、指令、数据. 知识：是人类社会实践经验的总结，是人的主观世界对于
客观世界的概括和反映. 情报：是激活了的知识，是为特定目的服务的信息；是对
(20%)
精选课件ppt
15
2.3.1 图书
对已发表的成果和经验，或某知识领域的系统论述或总结. 通常以期刊论文、会议论文、研究报告等一次文献为基本
素材，经分析、归纳、重组而成.
范围：专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等.
按载体形态分
手抄型文献印刷型文献微缩型文献机读型文献(电子文献) 视听型文献
精选课件ppt
12
2.1 文献内容层次
零次文献：未经正式发表或不宜公开或交流的文献.
包括：底稿、手稿、文稿、书信、图纸、记录、经验、意见等.
一次文献：原始制作，即作者以本人的研究成果为基本素
材而创作(或撰写)的文献.
手抄型：主要指古旧文献和未经付印的手稿及技术档案之类的资料.

信息检索之课件文稿演示

省图馆藏书目查询系统
2021年3月6日星期六
湖北民族学院《信息检索》（Information Retrieval ）系列课件
3-16
检索方法
2021年3月6日星期六
湖北民族学院《信息检索》（Information Retrieval ）系列课件
3-17
普通检索界面
2021年3月6日星期六北京交通大学出版社《信息检索教程》（Information Retrieval Textbook）系列课件 3-18
随着现代计算机技术的发展，大多数图书馆都已建成馆藏书目数据库，并进而发展成基于计算机网络的联机公共目录检索系统(OPAC)。读者利用OPAC系统，在任何地方都可以方便地查询图书馆的书刊信息，使馆藏书目走出图书馆，实现了更广泛地服务于公众的目的。
3-2
OPAC系统一般设置题名、责任者、主题词、分类号、索取号、ISBN/ISSN号、出版社等字段，输入检索词即可检索。系统执行后将逐条显示命中书刊的基本信息，单击某个题名则进一步显示详细的书目信息和馆藏及流通信息，读者可据此前往图书馆借阅。
由于图书馆的藏书数量相当庞大，而读者不可能尽知每本图书的准确书名，因此在使用OPAC时，可先通过题名、责任者、主题词等途径找出若干所需图书，然后从这些图书的分类号入手，通过分类途径浏览、查寻，最终找到自己最需要的图书。
2021年3月6日星期六
湖北民族学院《信息检索》（Information Retrieval ）系列课件
湖北民族学院《信息检索》（Information Retrieval ）系列课件
ห้องสมุดไป่ตู้
3-2
1 书刊目录检索系统
书目即书刊目录的简称。它是将图书、期刊按一定规则著录、并有序编排而成的检索工具，它记载书刊的题名、著(译)者、版本、出版地、出版者、出版年、文献内容等信息。

跨语言资讯检索导论-PPT精品.ppt

1,687 1,684 654 546 546 473 458 432
英100 語 English
40%的Internet使用者不懂英文，但是80% 的Internet內容是英文
Hsin-Hsi Chen
German
Dutch
Spanish
Swedish
Language (estimated by domain)
Monolingual users may retrieve images by taking advantage of multilingual captions.
Monolingual users may retrieve documents and have them translated (automatically or manually) in their language.
西
日語
德語
法語
荷蘭
芬班蘭牙
中文
語語語
瑞典語8
Hsin-Hsi Chen (Source: www.emarketer)
9
What is Cross-Language
Information Retrieval?
Definition: Select information in one language based on queries in another.
跨語言資訊檢索導論
Hsin-Hsi Chen (陳信希) Department of Computer Science and
Information Engineering National Taiwan University
Hsin-Hsi Chen
1

第7章跨语言信息检索技术

混合方法是综合利用上面各种技术的优缺点以期望获得更佳的检索效果。此种方法中应用最广泛的资源组合是将双语字典和一些单语资源，例如单语体本WordNet、单语语料库等结合，利用字典进行翻译知识的抽取，利用单语资源进行翻译消歧。
机读字典三者单独作用均能够达到单语言检索的90% 统计字典单语言检索
原因三
多数商用的机器翻译系统只返回一个最优翻译结果，不提供可供选择的翻译列表。
3）基于语料库的查询翻译方法
基于平行语料库的方法
平行语料库依据对其程度又可分为篇章对齐、段落对齐、句子对齐和词对齐，一般来说对齐的粒度越小，对齐的精度越高，查询翻译效果就越好。
基于可比语料库的方法
使用可比语料库最著名的方法就是相似性叙词表。有学者利用一个瑞典语新闻语料库和英语新闻语料库，构建双语可比语料库，从中提取出双语的相似性主题词表信息并且用于查询翻译中。试验结果显示此种方法所获得的检索性能是单语言信息检索性能的一半左右。
模型一
共现模型（Co-occurence Model）
模型二
名词短语翻译模型（Noun Phrase Translation Model）
模型三
依存翻译模型（Dependency Translation Model）
模型一模型二模型三
共现模型（Co-occurence Model）名词短语翻译模型（Noun Phrase Translation Model）依存翻译模型（Dependency Translation Model）
受控词汇检索的不足之处
用受控词汇表中的检索词来标识每一篇文档第一点通常是手工完成的，其使用范围受到很大的局限。
培训用户学会有效地使用受控词汇来构建查询条件是一件非常困难的工作。

信息检索技术PPT课件

从形式上分正式主题词非正式主题词
按按照照选选词词方方式式的的不不同同划划分分
2020/3/21
标题词单元词
叙词关键词
13
2.1.2 主题语言
标题词语言
最早使用的主题语言之一，以规范化的自然语义作为标识来表示文献涉及的主题概念。其中表达主题的词语称为标题词
单元词语言
从文献内容中抽选出来的最基本的词汇，将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位单元词是构成标题词的组件，绝大部分单元词都不是具体的标题。
检索词A和检索词B用“与”组配，检索式为：
A AND B，或者 A * B
它表示检出同时含有A、B两个检索词的记录。
例：图书馆教育 library AND education
2020/3/21
21
2.3.1 布尔逻辑检索逻辑“或”
一种具有概念并列关系的组配，用“OR” 或“+”或“|”算符表示
检索词A和检索词B用“或”组配，检索式为：
2020/3/21
23
2.3.2 截词检索
定义：用给定的词干做检索词，用以检索出含有该词干的全部检索词的记录。又称为通配符，不同的检索系统中使用的符号不同，通常用“*”、“？” 来表示。
方式：后截断、前截断、中间截断代码: *—无限截断？—有限截断
作用：扩大检索范围、提高查全率、减少检索词的输入量、节省检索时间等作用。
2.1.3 代码语言、自然语言
代码语言
是指对事物的某方面特征，用某种代码系统来表示和排列事物概念，从而提供检索的检索语言。通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。适用：科技报告、专利文献

跨语言信息检索

生了第一篇关于跨语言信息检索的博士论文。1996年同义词表应用于CLIR。1997年卡内基梅隆大学语言技术研究所在跨语言信息检索的理论与实践中首次采用广义向量空间模型（GVSM）算法。文本检索会议（TREC）在1997年开始将跨语言检索测评作为中心议题之一。NTCIR成立于1998年，第一次工作会议于1999年在东京举行，主要侧重于亚洲语。跨语言评论论坛第一次会议与2000年在葡萄牙首都里斯本举行，每年一次，重点侧重于欧洲。
石康 1302304007
跨语言信息检索技术 1.
CLIR概述 CLIR研究发展 CLIR基本框架 CLIR分类 CLIR主要研究热点
2.
3. 4. 5.
一、跨语言信息检索技术概述
• 1、跨语言信息检索技术基本概念跨语言信息检索（CLIR）是指用户用某种语言从另外一种或多种语言表达的文献信息集中检索出所需文献信息的方式或技术，是一种跨越语言界限进行信息检索的活动。 • 2、跨语言信息检索技术涉及领域语言学、情报学、计算机科学、心理学、管理学等。
• 受控词汇跨语言检索系统中包括两个过程：将文档与查询条件都用受控词汇来表示。对文档的标识其实是对文档的翻译过程，而对查询条件用受控词汇来构建其实是对查询条件的翻译过程。它主要用于文档集的概念是可控的一些领域，例如数字图书中的全文检索。 • 受控词汇检索的缺点:用受控词汇表中的检索词来标识每一篇文档通常是手工完成的，其使用范围受到很大的局限；培训用
c.多数商用的机器翻译系统只返回一个最优翻译结果，不提供可供选择的翻译列表 ③基于语料库的查询翻译方法 • 由于基于知识的方法都需要投入大量的人力进行翻译工具的构建，人们就开始研究从语料库中直接提取词用法的统计信息，进行查询翻译。根据所使用的语料库的不同，此种方法可以分为基于平行语料库的方法和基于可比语料库的方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 翻译成这些英文句子的概率是不同的 • 概率最大的英语句子是翻译结果
P(e1|f), P(e2|f), P(e3|f)…
e = arg max P(e | f )
e
Use Bayes Rule
• Use Bayes Rule
e = arg max P(e | f ) = arg max( P(e) × P( f | e))
– 288,000 v.s. 346,000
•
Word Reordering in Translation
– have programming a seen never I language better
•
Word Choice in Translation
– That is a little banana. (0) – That is a small banana. (3)
• 噪音信道模型
• •
Mary 到底说了什么？到底说了什么？ Brown 猜的过程就是翻译的过程。猜的过程就是翻译的过程。
– 将法语 ”Je t’aime.” 翻译成英语
基于统计的方法(SMT) 基于统计的方法
• 怎么猜？怎么猜？
– 一开始，肯定猜不出来。一开始，肯定猜不出来。 – 说多了，可能就能猜出来了。说多了，可能就能猜出来了。
翻译概率教师教师 a 教师 teacher
扭曲度
twenty aged
– she is a teacher aged twenty
跨语言信息检索
• 为了消除网络资源利用中的语言障碍，跨语言信息检索技为了消除网络资源利用中的语言障碍，术成为当前信息检索领域中重要的研究课题。术成为当前信息检索领域中重要的研究课题。
• 跨语言信息检索
– Cross-Language Information Retrieval (CLIR)
• 是指用户以一种语言提问是指用户以一种语言提问 • 检出另一种语言或多种语言描述的相关信息的方法检出另一种语言或多种语言描述的相关信息的方法
a i =1 j =1 j =1
l
m
m
基于统计的方法
• Brown认为，法语f: ”Je t’aime.” 可能翻译成任何一句英语认为，法语认为
– e1: How are you? – e2: I love you. – e3: The noisy channel works like this. – ……
• 生成
– 根据目标语言生成规则，利用译文结构生成译文。根据目标语言生成规则，利用译文结构生成译文。
RBMT的优缺点的优缺点
• 优点
– 直观，能够直接表达语言学家的知识直观， – 系统适应性强，不依赖于具体的训练语料系统适应性强，
• 缺点
– 规则主观因素重，有时与客观事实有一定差距规则主观因素重， – 规则的覆盖性差，特别是细颗粒度的规则很难总结得比较全面规则的覆盖性差， – 规则之间的冲突没有好的解决办法（翘翘板现象）规则之间的冲突没有好的解决办法（翘翘板现象） – 规则一般只局限于某一个具体的系统，规则库开发成本太高规则一般只局限于某一个具体的系统， – 规则库的调试极其枯燥乏味
• Brown 的方法
e = arg max P (e | f ) = arg max ( P(e) × P ( f | e))
e l e
= arg max (∏ p (ei | ei −1ei − 2 )
e i =1
× ∑ (∏ n(φi | ei ) × ∏ t ( f j | ea j ) × ∏ d ( j | a j , l , m)))
跨语言检索 = 传统检索 + 机器翻译
机器翻译
检索结果
用户需求
匹配
互联网
机器翻译
索引库分析处理
网页采集
建立索引
网页
机器翻译
基于规则的方法(RBMT) 基于规则的方法
• 分析
– 根据源语言分析规则，分析原文结构。根据源语言分析规则，分析原文结构。
• 转换
– 根据转换规则，将原文结构转换成译文结构根据转换规则，
基于实例的方法(EBMT) 基于实例的方法
• 照猫画虎
• RBMT: • EBMT:
分析匹配
转换对齐
生成重组
基于实例的翻译举例
待翻译句子
吴先生是宇航员
匹配
吴先生是老师
实例组
翻译结果
呉さんは
宇宙飛行士
です
基于统计的方法(SMT) 基于统计的方法
Translation Model
• 翻译模型
P ( f | e) = ∑ (∏ n(φi | ei ) × ∏ t ( f j | ea j ) × ∏ d ( j | a j , l , m))
a i =1 j =1 j =1
l
m
m
富余度 – 她 – 她 – She 是是 is 二十二十岁岁的
e e
• ?
– What happened to P(f)? – Why use Bayes Rule?
• e:疾病疾病 • f:症状症状
语言模型
翻译模型
Language Model
• • P(e) P(“我是坏人”) v.s. P (“我是好人”) 我是坏人” 我是好人” 我是坏人我是好人