信息检索2-词典
信息检索(2)
信息素质
• 信息素质(Information Literacy 简称IL),又
称信息素养,简单地讲,信息素养是指个人“能认 识到何时需要信息,和有效地搜索、评估和使用 所需信息的能力”。 • 它包含了三个层面:
信息意识、信息能力、信息道德。
信息素质的内涵:
信息意识——对各种信息自觉的心理反映
信息能力——信息技术的应用能力搜索引擎 、Google搜索引擎 分类目录( Directory )
雅虎中国、搜狐、新浪、网址之家、 网易分类目录等 • 三大系列中文网站 • 四次文献 • 五大多媒体技术 • 十大文献信息资源
• 一个原则 • 两类搜索引擎 • 三大系列中文网站: • 三大中文门户网站—新浪、搜狐、网易 • 三大中文期刊数据库—清华库、维普库、万方库 • 三大中文数字图书馆—超星、方正、书生之家 • 四次文献 五大多媒体技术 十大文献信息资源
Company
LOGO
课程性质
《文献信息检索》课就其实质来说,是一门方 法课, 即通过讲授信息检索基础理论、信息检索 方法和各种中外文数据库的使用,提高同学们获 取信息的能力,主要是培养学生的情报信息意识 和提高检索技能。
Company
LOGO
一、信息素质
信息素养的概念
• To be information literate, a person must be able to recognize when information is
二、信息源
• 信息的来源叫做信息源。 • 信息源可按不同的方法分类描述,比较常见的分
类方法有如下三种:
• 1、按信息的载体形式划分(电子文献等); • 2、按信息加工的级别划分(四次文献); • 3、按信息的发布形式划分(十大文献信息源等)
第二章 文献信息检索基本知识(2).概要
(2)截词检索表达式
用截词符号“*”、“?”或“$”加在检索词 的前后或中间,以检索一组概念相关或同一词根 的词。 按截断的位置可分为:
前截断、中间截断、后截断 按截断的字符数量可分为: 有限截断(?)、无限截断(*)
如:输入检索式“Comput*”,将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果。
第二章 信息检索基础知识
2.3 文献信息检索的工具
1、文献信息检索工具概述 检索工具是将大量分散无序的文献资料经过加 工整理,按照一定的规则和方法编制起来,用来 报道、存储和查找文献的工具,是附有检索标识
的某一范围文献条目的集合。
传统的检索工具是人们利用手工方法编制的
工具书,有字典、词典、目录、百科全书、名录、 类书、政书、表谱、图录等。这些工具书是人们
题录示例
(3)索引(引得) 索引是将书刊内容中所论及的篇名、语词、主 题等项目,按照一定的排检方法加以编制,注明出 处,供读者查检使用的检索工具。 索引与目录的根本区别就在于著录的对象不同, 目录所著录的是一个完整的出版单位,索引所著录 的则是完整的出版物的某一部分、某一观点、某一 知识单元,提高文献检索的深度和检索效率。
完全一致(精确匹配)、任意一致(模糊匹配)
等。
讨论1: 我馆书目查询系统共有多少种检索方式?其基 本检索有多少个检索字段?
讨论2: “中国学术期刊网络出版总库”有哪些检索方式?
?
? ? 中国科技期刊数据库初级检索界面
2、 信息检索方法
(1)常用法 ①顺查法 ②倒查法 ③抽查法 (2)回溯法 (3)循环法
信息检索
2、 报刊 报刊是一种以印刷形式或其它形式逐次刊行的,通常 有数字或年月日顺序编号的,并打算无限期地连续出 版下去的出版物。 报刊特点:数量大、品种多、内容丰富多样;出版周 期短,报道速度较快;发行、流通广泛、连续性强, 伴随着相应的学科领域发展而发展。 在检索工具的文摘中,往往有卷、期、页的标志(如 Vol. 10, No. 2, 201-209 )
信息检索(Information Retrieval):是指将信息按一 定的方式组织、存储起来,并根据用户的需要找出有 关信息的过程。它的全称又叫做“信息存储与检索” (Information Storage and Retrieval),这是广义的 信息检索。狭义的信息检索仅指该过程的后半部分, 从信息集合中找出所需信息的过程。
4、一、二、三次文献之间的关系 一次文献带有创造性;二次文献是在一次文献基础上 形成的,具有选择性、浓缩性;三次文献是在一、二 次文献基础上经过分析、提炼、总结形成的,具有概 括性。从一次文献到三次文献,是一个由分散到集中、 由无序到有序的过程。
三、按信息的表现形式划分
1、 文献型信息源 存储语言文字形式信息的各种载体的集合。 2、 非文献型信息源 数值型信息源、 声像型信息源、 多媒体信息源、 实物及口头信息源。
三、文献
1.文献的含义 在《文献情报术语国际标准(草案)》 (ISO/DIS5127)中对文献是这样定义的,即“为 了把人类知识传播开来和继承下去,人们用文字、 图形、符号、声频、视频等手段将其记录下来,或 写在纸上,或晒在蓝图上,或摄制在感光片上,或 录到唱片上,或存储在磁盘上。这种附着在各种载 体上的记录统称为文献”。 在《信息与文献术语》(GB/T4894— 2009)中对文献是这样定义的,即“文献,在 文献工作过程中作为一个单位的记录信息或实物对 象”。这里文献工作指的是为了存储、分类检索、 利用或传递而对记录信息所进行的连续和系统的汇 编和处理。
信息检索2-词典
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 20/3/91 55 B.C. B-52 【B-52轰炸机,美国的一种轰炸机】 PGP 密钥:324a3df234cb23e 【PGP是一个基于RSA 公匙加密体系的邮件加密软件】 (800) 234-2333
简单的布尔检索 vs. 结果的排序
简单的布尔检索只返回匹配上的文档,不考虑结果顺序 Google和其他大部分精心设计的布尔引擎均对结果进行排序, 以使好的结果排在差的结果的前面
13
现代信息检索
本讲的内容
索引构建过程(特别是预处理) 如何对索引文档进行处理来得到词典
理解文档(document)的概念 词条化(Tokenization),理解词条(token)的概念 词项生成,理解词项(term)的概念
每个布尔表达式都能转换成上述形式(合取范式)
获得每个词项的df (保守)通过将词项的df相加,估计每个OR表达式 对应的倒排记录表的大小 按照上述估计从小到大依次处理每个OR表达式.
11
现代信息检索
一个布尔搜索引擎Westlaw: 例子
需求:有关对政府侵权行为进行索赔的诉讼时效(What is the statute of limitations in cases involving the federal tort claims act?) 查询: LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM /3 = within 3 words, /S = in same sentence
信息检索重点
1.信息检索(information retrieval) 定义(1)广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关的信息的过程和技术。
所以它的全称又叫信息存储与检索(information storage and retrieval).(2)狭义的信息检索:指广义的信息检索的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们的所说的信息查寻。
(information search)2.检索工具定义:检索工具是人们用来存储、报道和查找文献的工具。
因此,它具有存储和检索的功能。
存储是把分散、无序的文献,采用一定的检索语言使其集中,组织起来,成为有规律的检索系统,变成检索工具。
检索是人们按照有关检索语言,采用一定的方法和途径,检出自己所需的文献。
3.检索策略的定义陈光祚:所谓检索策略就是在弄清用户情报需求实质的前提下,选择检索途径、检索用词以及明确各词之间逻辑关系和查找步骤的科学安排。
赖茂生:所谓检索策赂,是指为实现检索目的而制定的全盘计划和方案,是对整个检索过程的谋划和指导。
4.信息资源:是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。
信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
填空一.检索工具的功能(1)报道功能。
(2)标识功能。
(3)辅助检索功能。
二.检索工具的类型1 按检索方法划分检索工具可以划分为手工检索和机械检索工具两大类型,机械检索工具主要是指计算机检索。
2 按收录范围划分检索工具可分为综合性检索工具、专业性检索工具、单一性检索工具3种。
综合性检索工具收录范围广,涉及多门学科。
专业性检索工具收录的范围仅限于某一学科领域。
单一性检索工具只收录某一特种类型的文献,但学科范围可广可窄。
3 按出版形式划分检索工具又可分为书本式、卡片式、磁带式和缩微制品等形式,书本式又包括书刊式、单卷式和附录式3种。
4 按收录文献的对象和揭示方式来划分⑴目录目录是一批图书或其他单独出版的资料的系统化记载及内容的揭示。
《信息检索》 第2讲 信息检索的基本知识2
19
2013-8-1
(2)自然语言和受控语言的一体化发展趋势
在网络环境下自然语言和受控语言的融合或称一体化是检索
语言未来发展的必然趋势。这方面比较前沿的、有代表性的 理论研究和实践是国内张琪玉先生提出的学科——事物概念 组配型检索语言和美国国家医学图书馆所创建的UMLS系统 。 学科——事物概念组配型检索语言具有的特点是:通过学 科聚类和事物聚类的结合、号码标识和词语标识的结合以及 系统序列和字顺序列的结合,实现分类系统和主题系统的完 全一体化。用户从自然语言词汇、分类号和主题词任一途径 入口检索,都能获得相应的文献。这种检索语言具有开放性 ,可不断增补新概念。目前该模式正处于理论研究阶段。 UMLS模式即一体化医学语言系统。UMLS由超级叙词表、语 义网络、情报源图谱和专家词典四个相互联系的部分组成。
13
2013-8-1
用主题法查找文献,要注意以下几点:
注意利用词表
选择主题词要把握概念的含义 要利用概念之间的属种关系和相关关系增加检索线索
14
2013-8-1
注意利用词表
主题词是检索系统使用的专门的规范化语言,用这
种语言表述的概念,只有一种解释,不允许一词多 义、多词一义,这是规范化检索语言的单义性所规 定的。而一般用户的提问用的是自然语言,自然语 言并不遵守特定事物具有特定概念用特定语言表达 这一原则。
10
2.2 关键词语言
关键词语言是适应目录索引编制过程自动化的需要而产
生的。关键词是文献的篇名、摘要、正文中出现的具有 实质意义并能表达文献主题内容的词语。以关键词作为 标识的检索系统就叫做关键词语言。 由于关键词是未经规范的自然语言,一个概念可以用几 个词义相同或相近的词来表达,因此关键词语言没有固 定的词表,只有一个停用词词表,用以识别词语的词性 ,方便计算机自动抽取实质性语词。 关键词语言十分适于计算机编制索引,检索入口多,编 制速度快,但缺点是容易造成漏检。 例如:“国际联机检索概论”中的“国际联机检索”、 “国际联机”、“联机”、“检索”都是能描述这篇文 献主题的关键词,都可以作为检索词。
《信息检索基础2》
《信息检索基础2》一、单项选择题1、手稿、私人笔记等属于文献,辞典、手册等属于文献。
a一次,三次b零次,二次c零次,三次d一次,二次2、分类途径是按照文献信息所属的学科门类,利用进行检索的途径。
a学科名称b专业名称c分类号da、b、c均可3、如果希望查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是。
数据处理,讨论a后均法,进行,数据处理b后均法,数据处理c后均法,进行,d用,后均法,进行,数据处理4、文献数据库中字段的基本内容是。
库属性的描述a对记录属性的描述d对文档属性的描述b对记录某一方面具体属性的描述c对数据5、以文献线索为检索对象的书目检索,是属于。
息检索a文献信息检索b事实信息检索c数据信息检索d全文信6、信息检索提问一般要从文献的和内容特征进行提问。
a分类号b外部特征c主题词d索书号7、布尔逻辑是用于从某一检索范围中排除不需要的概念。
a与b或c非d8、类型的专业文献出版周期最短、发行量最大、报道最迅速及时。
a报纸b期刊c会议文献d专利9、用来查找某一范围的基本知识、重要资料和数据的参考工具书是a年鉴b手册c字典与百科全书d表谱与图谱10、专利文献提供技术信息具有以下特点a内容专深、全面、可靠,不公开b新颖、可靠、实用,公开c新颖、可靠、成熟,是从事生产的依据d新颖、可靠、专深,解密后公开11、以下文献中,哪种是二次文献a《全国报刊索引》b《中国大百科全书》c《说文解字》d《新华字典》12、在我国核心期刊的评价体系中,影响最大的是。
刊》(cscd)二、多项项选择题1、有关截词的叙述中,是正确的。
a截词符要紧接在词干前后,截词符和词之间不能有空格c截词符是用于规定检索词之间位置关系的算符b不论什么词d避免将检索词a《中文社会科学引文索引》(cssci)c《中文核心期刊要目总览》b《中国科学引文数据库来源期d《中国科技论文统计源期刊》13、在《中图法》的22个大类中,"s”类表示:a生物科学b医药、卫生c农业科学d天文学、地球科学14、以下哪个属于截词检索技术中的截词符a。
文献检索,信息检索(2)第二章 信息检索原理
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
信息检索复习(名词解释)
1、同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。
2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:查全率=(检出相关文献量/系统中相关文献总量)*100%3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:查准率=(检出相关文献量/检出文献总量)*100%4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:漏检率=(漏检相关文献量/系统中相关文献总量)*100%5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。
6、单库检索:在选定的单一数据库中进行检索。
7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。
8、相关度优先:和查询的条件内容最相关的文献优先排在前面。
9、最新论文优先:发表时间比较新的文献优先排在前面。
10、精确匹配:检索结果中包含与检索词完全相同的词语11、模糊匹配:检索结果包含检索词或检索词中的词素12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。
13、倒查法从最新时间查找起,直到满足检索要求为止。
14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。
15、二次检索是指在前一次检索结果的范围内,继续进行检索。
16、定题检索 SDI (selecti ve dissemi nation of informa tion)查找有关特定主题最新信息的检索。
17、回溯检索 RS (retrosp ective search)查找一段时期内有关特定主题信息的检索。
信息检索教程(第二章)
4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量
信息检索基础知识2
2.1.2.5图录类工具书
图录类工具书是以图形、图像、符号等为 主体,附以简略的文字说明,以反映各种 事物、人物的空间特征和形象特征的工具 书。它包括地图、历史图录、文物图录、 人物图录、艺术图录、科技图像等。地图 是地球表面自然和社会现象在平面图上的 缩影,以反映各种事物和景象的地理分布 及其在空间与时间上的相互制约、内在联 系和发展动态。历史图录是以图形、图像 等揭示历史人物和事物的工具书。
2.1.2.4表谱类工具书
表谱类工具书是以表格或其他较为整齐的形式, 记录史实、时间、地理等资料,并附以简略的文 字说明,以反映史实和时间。主要包括年表、历 表和专门性历史表谱3种类型。年表是按年代顺 序编制,专供查考历史年代、历史纪元及历史大 事的检索工具。如《中华人民共和国大事记》等。 历表是一种把不同历法的历日按一定的次序汇编 在一起,以相互对照的表格,提供查找和换算不 同历法的年、月、日的工具书。专门性历史表谱 主要用于查考人物、职官、地理和数据等专题资 料,如《中西回史日历》等。
2.1.3 机械检索工具
机械检索工具是手工检索工具向计算机检 索系统过渡的中间检索工具。它主要包括 两种类型:机电检索工具(如打孔机)和光电 检索工具(如缩微机)。机械检索工具利用机 械装置改进信息资源的存储和检索方式, 但是只能对某一固定存储形式的信息资源 进行特定检索,过分依赖于设备,检索操 作复杂,成本很高,并且检索质量和效率 也不理想。所以很快被计算机检索系统所 取代。
联机检索系统
联机检索系统主要有以下四种服务方式: (1)回溯检索(RS,Retrospective Search) 是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定 时间范围内或特定时间以前的文献信息的一种联机检索方式。通过 RS进行专题检索或情报调研,可全面系统地了解有关文献信息的线 索。 (2)定题检索(SDI,Selective Dissemination of Information) 是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之 后出现的新的文献信息的一种联机检索方式。 (3)联机订购 联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系 统可以为用户提供原始文献的联机订购服务。 (4)电子邮件 联机检索系统为用户提供E-mail和电子邮政的功能 。
信息检索
2.按信息的加工级别划分
• 零次文献(实验记录、手稿、原始录音、谈话记录等) • 一次文献(图书、期刊论文、会议论文、科技报告、专
利、标准等)
• 二次文献 (目录、题录、文摘等) • 三次文献 (文献综述、年鉴、词典)
三次文献之相互关系
读者查找
一次文献
二次文献
三次文献
作者发表
三、 信息检索的技术与方法
信息检索的技术
• 布尔逻辑检索 • 截词检索 • 限制检索
(一) 布尔逻辑检索
• 布尔逻辑组配运算是采用布尔代数中的逻辑 “与”、逻辑“或”、逻辑“非”等算符,将 检索提问式转换成逻辑表达式,限定检索词在 记录中必须存在的条件或不能出现的条件。
• 凡符合布尔逻辑所规定的条件的文献,即为命中文献。
以事实作为检索对象,查找用户所需的描述性 事实,其检索对象为机构、企业、人物的基本 情况、历史变迁等。 百科全书、工具书
(二)信息检索的意义
1.节约研究人员的时间,避免重复劳动 科学研究具有继承和创造两重性,科学 研究的两重性要求科研人员在探索未知或 从事研究工作之前,应该尽可能地占有与 之相关的信息。信息检索是研究工作的基 础和必要环节,成功的信息检索无疑会节 省研究人员的大量时间,使其能用更多的 时间和精力进行科学研究。
1. 逻辑“与”(并且)
• 符号:“and” 或“*”表示 • 表达式:A*B 或者 A and B
• 意义:检索记录中必须同时含有检索词AB的 文献,才算命中文献 • 作用:增加限制条件,即增加检索的专指性, 以缩小提问范围,减少文献输出量,提高查 准率。
2. 逻辑“或”(或者)
• 符号:“or” 或 “+”表示 • 表达式:A OR B 或 A+B • 意义:检索记录中凡含有检索词A或含有检索 词B,或同时含有检索词A、B的,均为命中文 献文章。 • 作用:放宽提问范围,增加检索结果,起扩 检作用,提高查全率。
信息检索
5.信息检索新策略
? 目前综合性搜索引擎的特点是查找范围很广而深度和专业性不够。
? 实行“元搜索”,即利用元搜索引擎先对综合性搜索引擎进行主题相关的检索,分析返回页面,下载结果URL,将得到的页面进行分析、存储、提取,得到一个庞大的初始结果集。再利用这个结果集对超链进行一定的分析判断后,按照传统的沿链递归方法“爬行”,对结果集进行扩展。利用这种检索策略,既需要掌握知名综合性搜索引擎的使用方法,又需要了解专业引擎和元搜索引擎的特点。
? 智能代理是在人工智能技术上发展起来的,常见的应用功能有资源挖掘、资源集成(沟通网络上不同物理位置的分布资源)和资源定制。
? 检索领域中的智能代理的研究就是要Agent去模仿人在信息检索中的行为(思考、比较、甄别、去重、判断、评估等等),并主动完成一系列高级、复杂的自动处理任务,而不是机械、被动地代理用户完成任务。
主题目录方式:主题目录方式的优点是可通过浏览的方式层层遍历,找到所需要的信息线索,再通过信息线索链接到相应的网络信息资源。该方式具有系统性、可扩充性、结构清晰、使用方便的优点,但更适合于建立专业性网络信息资源体系。
超媒体方式:超媒体技术是超文本与多媒体技术的结合,它将文字、表格、声音、图像、视频等多媒体信息以超文本组织起来,使用户可以通过高度链接的网络结构在各种信息库中自由航行,找到所需信息。
10.跨语言检索技术
? 跨语言信息检索是指使用一种语种的提问查询不同语种的检索技术,例如,输入的是中文的提问式,信息检索系统将返回英文、法文或其他语种描述的相关信息。结果信息资料可以是文本信息,也可以是以其他形式存在的信息。目前研究的较多的是文本信息与语音信息的跨语言信息检索。
信息检索
信息检索的种类
按照检索对象,把信息检索分为: 文献检索 数据检索 事实检索
文献检索
• 是指查找用户所需文献的线索或者原文的检索。 如查找某一主题的相关文献,对某研究课题立项 的文献查新,或从事新产品开发时需要查找有关 最新研究动态等。 • 文献检索是一种相关性检索 文献检索是一种相关性检索,检索结果是某一专 题的文献线索(文摘、题录),一般要经过阅读文摘 后才能决定取舍。文献检索主要是利用二次文献 进行,如各种载体形式的目录、题录、文摘、索 引等。文献检索是信息检索中最基本、最重要的 类型。 文献检索是信息检索的核心和和主体部分,是 最常用的一种检索。文献检索分为数目检索和全 文检索。其目标是检索出原始文献或原始文献的 替代品。
全文检索系统
CNKI 附加的资源
CNKI的期刊导航
核心期刊导航
外语类的核心刊
检索系统小结
全文检索系统
用户提问
目录检索系统
馆藏信息
收藏地
全文
文摘检索系统
来源信息
三、检索语言
• 检索语言基础知识 • 检索语言的分类 • 检索运算符
检索语言
信息检索语言是用来描述信息的内容特 征和形式特征以及表达信息用户的语言。 它是根据文献信息的存储和检索的需要而 编制的一种人工语言,又称检索标识。它 把信息的存储与检索联系起来使信息的标 引者和检索者取得共同理解,从而实现检 索目的。是沟通信息存储和信息检索的桥 梁和纽带,也是信息用户获取所需信息全 过程得以顺利实现的保证。
汽车用燃料、润滑料类 (U473)
信息检索概念
信息检索(information retrieval): 是按照一定 方式从信息集合中或数据库中查找所需信息 的具体过程。
【精】第2讲信息检索概述(论文资料)
11
2021/1/19
信息检索系统开发与设计 第一章
1. 2 .1 信息检索处理过程
定义和建立文本数据库 用户提问操作 匹配处理
12
2021/1/19
信息检索系统开发与设计 第一章
用户界面
文本操作
逻辑视图
提问操作
用户反馈
查询
检索得文献
排序
排序文献
文本 文本
标引 倒排文档
索引
数据库管理 者模块
现代: 用文献的所有词集合以及结构来表示成为可 能,检索系统采用文献的全文本(full-text view) 视图逻辑表示。
10
2021/1/19
信息检索系统开发与设计 第一章
1. 2 信息检索系统
信息检索系统是由一定的设备和信息集合构成, 面向一定的用户,具有信息采集、组织、存贮、 选择和传播等功能的信息服务设施。
21
2021/1/19
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
用户接口子系统
– System-user interface,是面向系统用户的一种人---机接口。它承担 用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接 系统(软硬件)。
– 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口 的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工 程学因素。
据格式转换、生成并定期更新各种文档。
20
2021/1/19
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
词表管理子系统
– 功能是管理维护系统中已有的主题词表,使它与标 引、建库等子系统相连接,支持用户的各种词汇查 询操作,从提问、对话或其它文本中采集词汇、信 息,以及输出各种形式的词汇数据或词表产品(从 个别词目、词间关系、词频数据到整部词表)。
信息检索基本知识
第三节 信息检索与检索系统
第三节信息检索与检索系统
• 1、信息检索 • 2、检索系统 • 3、检索系统的组织
1. 信息检索
• 信息检索(Iformation Retrieval):将信息按一 定的方式组织和存储起来,并根据信息用户的需 要找出有关的信息的过程和技术。
了解用户的 信息需求
如何提高查全率?
• • • • • 1.优先使用最简单常用的主题词; 2.逐渐减少不重要的检索词; 3.加用多个等同词,用“或”(OR、|)语法; 4.换用上位词; 5.增加检索途径
如何提高查准率?
• • • • • 1. 换用专指性更强的主题词; 2. 逐渐加用主题词; 3. 加用辅助词; 4. 利用词和网页的外部特征限制输出结果; 5. 观察不相关检索结果的特征,使用“减”(-) 语法排除; • 6. 使用下位词
信息检索 的技术或 方法
满足信息 用户的需 求
1.2、信息检索的对象-----你找谁?
文献
• 包括题录、文摘和全文。
数据 事实
• 数值或数据(包括数据、 图表、公式等)
• 某一客观事实为检索对 象,查找某一事物发生 的时间、地点及过程
信息检索的起源
• 信息检索起源于图书馆的参考咨询和文摘索引工 作。
按检索性质区分
• 定题检索:查找有关特定主题最新信息的检索, 又称为SDI检索。
▫ 特点是:只检索最新的信息,时间跨度小。
• 回溯检索:查找一段时期内有关特定主题信息的 检索,也称为追溯检索。
二、信息检索类型
• 按检索的信息形式区分
▫ 文本检索:查找含有特定信息的文本文献的检索, 其结果以文本形式反映特定信息. ▫ 多媒体检索:查找含有特定信息的多媒体文献的检 索,其结果以多媒体形式反映。
出版专业实务-初级2020版-第一章-信息检索
东汉许慎编《说文解字》,首创部首编排法 是GB/T 13418-1992确认的汉子排序规则之一
(二)常用排检方法
4. 四角号码法
是GB/T 13418-1992确认的汉子排序规则之一 多用于编排汉语古籍索引
简称“中图法”
5. 中国图书馆分类法
是中华人民共共和国成立后编制的一种具有代表性的大型综合性图书分类法 5个基本部类、22大类
如《全国总书目》《全国报刊索引》
分经、史、子、集四部
6. 四部分类法
《四库全书总目》是四分法的典范
是我国古代图书分类的主要方法
第三节 数字化信息检索(一)是目前全球最大的中文搜索引擎 支持布尔逻辑检索、字段限制检索、短示和繁简中文查询等
一、网络检索工具
截词符号多用“?”或*
四、计算机检索技术与网络信息检索技巧
4. 限制检索 1. 选择核实的检索词
(二)网络信息检索技巧
2. 利用布尔逻辑运算符 3. 使用短语检索进行精确匹配
4. 利用高级检索
第四节 出版工作常用信息的检索方法
(1)利用“正史”艺文志、经籍志
(2)利用政书艺文志、经籍考
1. 古代著述的检索
2. 专业性百科全书:《社会科学百科全书》《中国文学百科全书》《世界历史百科全 书》《科学技术百科全书》《中国烹饪百科全书》《化工百科全书》等
3. 地域性百科全书:《北京百科全书》《黑龙江百科全书》《潮汕百科全书》等
是我国第一部现代大型综合性百科全书
1. 《中国大百科全书》
全书条目按条目标题的汉语拼音字母顺序排列
(二)百科全书的编排方式
条目之间靠参见系统相互联系,交叉而不重复
释文有长至十几万字的,也有仅百余字
大型百科全书的索引往往单独编为一卷或多卷
信息检索概述
目前,我国各大文献数据库《中国 科学引文数据库》、《中国学术期刊 综合评价数据库》以及数字化图书馆、 中国期刊网等都要求学术论文按《中 图法》标注中图分类号。
(2) 主题语言
主题语言是指以自然语言的字符为字 符,以名词术语为基本词汇,用一组名 词术语作为检索标识的一类检索语言。 主题语言表达的概念比较准确,具有较 好的直观性、灵活性和专指性,满足用 户从主题概念角度检索新兴专业学科、 交叉学科文献信息的要求。
本校图书馆主页——可查中图分类号
TM 电工技术 TM0 一般性问题 TM1 电工基础理论 TM2 电工材料 TM3 电机 TM4 变压器、变流器及电抗器 TM5 电器
TM6 发电、发电厂 TM7 输配电工程、电力网及电力 系统 TM8 高电压技术 TM91 独立电源技术(直接发电) TM92 电气化、电能应用 TM93 电气测量技术及仪器
第二章信息检索概述
2.1信息检索的涵义
信息检索的概念有狭义和广义之分。
狭义的信息检索(Information Retrieval) 是指依据一定的方法,从已经组织好的大量有关文 献集合中,查找并获取特定的相关文献的过程。这 里的文献集合,不是通常所指的文献本身,而是关 于文献的信息或文献的线索。如果真正要获取文献 中所记录的信息,那么还要依据检索所取得的文献 线索索取原文。
以知识属性来描述和表达信息内容的信 息处理方法称为分类法。《国际专利分 类表》、《中国图书馆分类法》等。
中国图书馆分类法简表(第四版)
A
马克思主义、列宁主义、 毛泽东思想、邓小平理论
B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 TB 一般工业技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
30
现代信息检索
中文分词
解决歧义和未登录词识别的基本方法:
规则方法:分词过程中或者分词结束后根据规则进 行处理;
统计方法:分词过程中或者分词结束后根据统计训 练信息进行处理。 规则+统计
德语中复合名词连写
Lebensversicherungsgesellschaftsangestellter ‗life insurance company employee‘ 【人寿保险公司员工 】 德语检索系统往往要使用一个复合词拆分的模块,而 且该模块对检索结果的提高有很大帮助(可以提高15%)
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 20/3/91 55 B.C. B-52 【B-52轰炸机,美国的一种轰炸机】 PGP 密钥:324a3df234cb23e 【PGP是一个基于RSA 公匙加密体系的邮件加密软件】 (800) 234-2333
索引量太大,查全率百分百,但是查准率低,比如查“明天” 这句话也会出来
词:李明 天天 都 准时 上班
索引量大大降低,查准率较高,查全率不是百分百,而且还会 受分词错误的影响,比如上面可能会切分成:李 明天 天都 准 时 上班,还有: 他和服务人员照相
字词混合方式/k-gram/多k-gram混合 一般原则,没把握的情况下细粒度优先
31
现代信息检索
中文分词和检索
以下是当前某些研究的结论或猜测,仅供参考 并非分词精度高一定检索精度高
评价标准不同 分词规范问题: 鸡蛋、鸭蛋、鹌鹑蛋…… 目标不同
检索中的分词:
查询和文档切分采用一致的分词系统 速度快 倾向细粒度,保证召回率 多粒度并存
搜索引擎中的分词方法
每个布尔表达式都能转换成上述形式(合取范式)
获得每个词项的df (保守)通过将词项的df相加,估计每个OR表达式 对应的倒排记录表的大小 按照上述估计从小到大依次处理每个OR表达式.
11
现代信息检索
一个布尔搜索引擎Westlaw: 例子
需求:有关对政府侵权行为进行索赔的诉讼时效(What is the statute of limitations in cases involving the federal tort claims act?) 查询: LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM /3 = within 3 words, /S = in same sentence
词条流
Countrymen
Linguistic modules
修改后的词条
语言分析工具 roman countryman 2 1 13 4 2 16
friend Indexer friend roman
倒排索引
countryman
现代信息检索
文档分析
文档格式处理
pdf/word/excel/html?
26
现代信息检索
中文分词
中文分词是很多中文文本处理的第一步
我国科学家近日研制出一套水下反恐监控系统 我国 科学家 近日 研制 出 一 套 水下 反恐 监控 系统
分词方法
基于是否使用词典:
基于词典的方法:给出一部词典,根据这部词典进行匹配 无词典的方法:不需要词典,根据某种人工构词规则或者 统计规则从字生成词。
倒排记录表
更快的合并算法: 跳表法(skip list) 短语查询的处理及带位置信息的倒排索引
提纲
❶ ❷
上一讲回顾 文档
❸
词项
通常做法+非英语处理
英语
❹
跳表指针
❺
短语查询
15
现代信息检索
词典
回顾倒排索引构建
待索引文档
Friends, Romans, countrymen.
Tokenizer 词条化工具 Friends Romans
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
Friends Romans Countrymen
词条 就是一个字符串实例
词条在经过进一步处理之后将放入倒排索引中的 词典中
通常中间有空格 早期的IR系统可能不索引数字
但是数字却常常很有用:比如在Web上查找错误代码 (一种处理方法是采用n-gram: 见第三讲)
元数据是分开还是一起索引
现代信息检索
语言问题:法语和德语
法语
L‗ensemble 【全部】 到底是一个还是两个词条?
L ? L‘ ? Le ? 但是常常希望 l‘ensemble 能和un ensemble 【一组】匹配 至少在2003年以前,Google没有这样处理 国际化问题!
词项-文档(term-doc)的0-1关联矩阵
Antony and Cleopatra
Julius Caesar
The Tempest
Hamlet
Othello
Macbeth
Antony Brutus Caesar Calpurnia Cleopatra mercy worser
1 1 1 0 1 1 1
12
现代信息检索
Google中是否使用布尔模型?
Google默认是与(AND)操作,输入查询[w1 w2 . . .wn]意味着 w1 AND w2 AND . . .AND wn
当返回文档不包含某个词wi 时,可能是如下情形:
指向该页面的锚文本包含wi 页面包含 wi 的变形(不同形态的同一词,拼写校对,同义等等) 长查询 (n large) 布尔表达式返回的结果少
1 1 1 1 0 0 0
0 0 0 0 0 1 1
0 1 1 0 0 1 1
0 0 1 0 0 1 1
1 0 1 0 0 1 0
Brutus AND Caesar AND NOT Calpurnia
若某剧本包含某单 词,则该位置上为1, 否则为0
现代信息检索
词项-文档矩阵太大
对于某个文档集,大小为6GB,但是词项-矩阵中 的元素个数为500G,其中只有1G个元素非零 (0.2%非零),矩阵极度稀疏
因此,只需要存储所有的非零元素,于是得到所 谓的倒排索引(Inverted Index) 原始文档集词项-文档矩阵倒排索引
现代信息检索
倒排索引
对每个词项t, 保存所有包含t的 文档列表
词典(dictionary)
倒排记录表( postings)
7
现代信息检索
倒排记录表的合并(求交集)
规则或者统计方法:
基于规则的方法:通过某种判定规则,确定是否为词 统计方法:基于语料库统计+机器学习
27
现代信息检索
中文分词
正向最大匹配(基于词典的方法)
假设只考虑一元和二元词项 二元词典{的确,确实,实在,在理}
0 1 2 3 4 5 6
他 说 的 确 实 在 理
指针位置
剩余词串
首字
最大匹配词条
0
他说的确实在理
他
他
1
2
说的确实在理
的确实在理
说
的
说
的确
4
6
实在理
理
实
理
实在
理
28
现代信息检索
中文分词
逆向最大匹配(基于词典的方法)
二元词典{的确,确实,实在,在理}
0 1 2 3 4 5 6
他 说 的 确 实 在 理
指针位置 6 4 2 1 0
剩余词串 他说的确实在理 他说的确实 他说的 他说 他
尾字 理 实 的 说 他
最大匹配词条 在理 确实 的 说 他
29
现代信息检索
中文分词
分词中遇到的两大难题:
未登录词问题(Out of Vocabulary, OOV):出现词典 中没有的词,如:人名、地名、机构名、一些新词 等等 歧义问题(Ambiguition):同一句子有多种可能的分 词结果
ቤተ መጻሕፍቲ ባይዱ
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
现代信息检索
提纲
❶ ❷ ❸
上一讲回顾 文档
词项
通常做法+非英语处理
英语
❹
跳表指针
❺
短语查询
2
提纲
❶ ❷
上一讲回顾 文档
简单的布尔检索 vs. 结果的排序
简单的布尔检索只返回匹配上的文档,不考虑结果顺序 Google和其他大部分精心设计的布尔引擎均对结果进行排序, 以使好的结果排在差的结果的前面
13
现代信息检索
本讲的内容
索引构建过程(特别是预处理) 如何对索引文档进行处理来得到词典
理解文档(document)的概念 词条化(Tokenization),理解词条(token)的概念 词项生成,理解词项(term)的概念
法语邮件中带一个德语的pdf格式附件
如何确定索引的单位?
文件为单位? 邮件为单位? 如果邮件带有5个附件,怎么办? 一组文件? (比如采用html格式写的某个PPT文档)