信息检索
第三章 信息检索的基本知识
1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
信息检索基础知识
TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语
信息检索
中文书本式的检索工具
《国内总书目》--《全国新书目》《科技新 书目》:查找国内出版的图书目录 《外文新书通报》:查找国外新书目录 《全国报刊索引》:查找国内期刊论文的工 具 科技 文献书目型数据库检索系统 事实型数据库检索系统 数值型数据库检索系统 全文数据库检索系统
“逻辑或”的组配种类
同义词 同一个人多个姓名 通用的英文缩写 化学物名称 Eg:CAD
逻辑非
用于排除含有不需要概念的信息,可缩小所 检索信息的范围。 逻辑运算符:“NOT”、“-” 逻辑表达式:“A NOT B ”“A-B” 语义表示:被检索文献中含有A而不含有B
4字段(限制)检索
在检索系统中,数据库设置的可供检索的字 段通常有两种: 表达文献主体内容特征的基本字段 表达文献外部特征的辅助字段 基本字段包括篇目(TI)、文摘 (AB)…… 辅助字段包括作者(AU)、语种 (LA)……
4字段(限制)检索
为了缩小检索范围,可利用字段代码来限制检索词 出现的字段,以提高检索速度和命中率。 如: economic models in ti(表示只在题 目字段中查找文献) economic models in de(只在主题词中 查找) economic models in ab(只在文摘中查 找) au = Smith,J.C (查作者为Smith,J.C 的 文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献)
位置算符检索即运用位置算符表示两个检索 词间的位置。 如果说布尔逻辑算符是表示两个概念之间的 逻辑关系的话,位置算符表示的是两个概念 在信息中实际物理位置关系。
检索时会经常遇到这样的问题?
信息检索---名词解释
一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
什么是信息检索
什么是信息检索?1、信息检索是一门关于如何查找文献、知识和信息的工具性课程,被认为是开启知识宝库的金钥匙。
2、信息检索课程是一门对于本科生到博士生都具有很强实用性的课程,对于帮助我们学生提高科研能力和拓宽科研领域具有重要的作用。
开设信息检索课的作用大学生需要学习,如何提高自己获取和利用文献信息的能力;进入工作岗位后如何更新自己的知识结构,使自己不落伍.所以,获取知识和信息的能力成为了大学生必须具备的重要能力之一.信息检索这门课主要讲授检索文献的一些基本方法,培养学生检索文献的技能.学习和科技需要文献,个人全面素质的提高需文献,生活中也离不开各种信息.我们在信息检索课中,老师侧重介绍了信息检索工具与检索技巧!但对于今后我们的生活中,这种检索思想将会发挥更大的作用,所以平时我们应多积累一些有关互联网上的检索工具(包括搜索引擎和检索技巧)方面的知识,这方面的能力可能带给我们更大的实惠。
信息检索课程作为一门方法课程,它不仅使我们的信息意识更为敏锐,而且使我们了解了信息组织与检索的原理,让我们学会了操作使用各种专业文献信息数据库和网络检索工具。
通过老师认真指导在我们不断练习的基础上,我们不仅掌握了娴熟的检索操作技能,而且逐步掌握了如何选择合适得信息源,如何确切表达特定的信息需求,以与如何应对检索过程中出现的各种问题。
在信息检索课中学习到了什么?1、通过信息检索课程学习,知道了什么是信息,信息的有哪些类型,信息有什么特征,信息有什么作用。
2、通过信息检索课程的学习,知道什么是信息检索,信息检索的类型有哪些,知道了信息检索的过程,知道了信息检索的方法和途径,知道了信息检索的技巧和策略,学会了如何去评价信息。
3、通过信息检索课程的学习,知道了网络上原来还有那么多数字图书馆,有那么多知识数据库。
4、通过信息检索课程的学习,发现搜索引擎并不是仅仅用来搜索网页和MP3,还可以用来搜索重要的知识,发现了搜索引擎原来还有如此多的笑秘密。
信息检索
专业科训信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
信息检索有广义和狭义的之分。
广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
一·按存储与检索对象划分,信息检索可以分为:1·文献检索·2数据检索 3·事实检索以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
二·按存储的载体和实现查找的技术手段为标准划分:1·手工检索 2·机械检索 3·计算机检索其中现在发展比较迅速的计算机检索是“网络信息检索”,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
按检索途径划分:(1)直接检索,(2)间接检索三·检索方法信息检索方法包括:普通法、追溯法和分段法。
1.普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。
运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。
普通法又可分为顺检法和倒检法。
顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性效果较好。
信息检索
1.什么是信息检索?从广义的角度讲,信息检索包含信息存储和信息获取两个过程。
信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。
获取是存储的逆过程,其实质是根据特定的需求,运用以组织好的检索系统,将特定的信息查找出来。
存储是获取的前提和基础,没有存储就没有获取,而获取是存储的目的,二者密切联系,互相依存,缺一不可。
狭义的信息检索是指广义的信息检索的后一个过程,即信息获取的过程,相当于人们所说的信息查检等。
具体来说,狭义的信息检索指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。
2.信息检索效果的评价指标有哪些?(1)检索效果有效性评价,即检索技术效果的评价,是对检索系统满足检索要求的有效程度的评价,主要以查全率和查准率为评价标准。
(2)检索系统使用的评价,包括系统对用户是否需要,是否实用有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法。
(3)检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。
评价信息检索效果的指标主要有6个:收录范围、查全率、查准率、响应时间、用户负担和输出形式。
附:查全率=【检出相关文献信息量/检索系统中相关文献信息总量】*100%=(a/a+c)*100%查准率=【检出相关文献信息量/检出文献信息总量】*100%=(a/a+b)*100%漏检率=【漏检相关文献信息量/检索系统中相关文献信息总量】*100%=(c/a+c)*100%误检率=【误检文献信息量/检出文献信息总量】*100%=(b/a+b)*100% 3.什么是检索语言?检索语言的实质是用于表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。
它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码(如化合物的各种代码),用于对文献内容进行主题标引、特征描述或逻辑分类。
信息检索的方法
信息检索的方法
信息检索方法有顺查法、倒查法、抽查法、追溯法。
1、顺查法
一般用于重大课题和各学科发展史以及新兴学科等方面的研究
课题的全满检索。
2、倒查法
目的是获取近期发表地最新文献信息。
是一般科研人员最常用地方法,在确认某项成果是否创新时,也适合用倒查法。
3、抽查法
抽查法重点对某一时间段进行检索,多用于检索专题调查报告。
4、追溯法
追溯法可以利用原始文献新附的参考文献追溯检索;还可以利用专门编制的引文索引进行追溯查找。
信息检索
文献:记录信息和知识的一切载体。
文献检索:以文献为检索对象,查找含有用户所含信息的文献。
文摘:是将论文或专著的内容加以浓缩,以精炼的语言把文献信息的重要内容,学术观点,数据及结构准确的描述下来并按一定目录规则与排列起来,供读者查阅的一种信息系统.核心期刊是科技期刊中少数高质量的特定期刊,指各学科领域刊载本专业高水平学术论文,能反映本学科最新研究成果及前沿研究状况与发展趋势的期刊,其载文率、被引用率以及参考利用价值都很高.浏览法:直接浏览最新期刊,特别是核心期刊上的一次文献。
追溯法:当查到一篇参考价值较大的新文献后,以文献后面附的参考文献为线索,由近及远,进行逐一追踪的方法。
顺查法:是由旧到新的查找。
多用于已知所查主题起始年代。
倒查法:是由新到旧的查找。
多用于查找新课题或某课题的新内容。
抽查法:有选择地在某课题文献发表较集中的年限查找。
多用于事先了解该学科或课题的发展历史背景。
循环法:又称分段法,是交替使用“常用法”和“追溯法”来进行检索的综合检索方法。
即利用检索工具查到一批文献资料,又利用这些文献所附的参考文献追溯查找。
信息:是客观存在的事物现象,是生物体或有一定功能的机器可以感知的客观事物发出的一切有意义的信号和消息。
特点:客观性、可认知性、传递性、时效性知识:是人们对自然界、人类社会中各种信息进行思维分析、加工提炼、并加以系统和深化而形成的信息集合。
情报:用不同的方法和手段,在有效的时间内所获得的有针对性和有价值的信息或知识。
特点:传递性、时效性查全率:在信息检索结果中,检索出的相关信息占信息检索系统中相关信息的比例.查准率:是指系统进行检索时,系统中检出的相关文献量与检出的文献总量的比率。
数据库:是计算机存储设备上按一定方式存储的相互关联的数据集合,同时又反作用于新形象检索.搜索引擎:指根据一定的策略、运用特定的计算机程序搜索互联网上的信息,对信息进行组织和处理后显示给用户,是为用户提供检索服务的系统。
信息检索
信息检索一、名词解释:1.信息检索:狭义的信息检索概念是指在信息的海洋中选取符合需要的信息的过程称为信息检索。
而如今发展为包括信息的储存、组织、查询、提取等多个工作过程,所以广义的信息检索又称为信息储存与检索。
2.CALIS:全称为中国高等教育文献保障系统(china academic library&information system),其联合目录数据库始建于1997年。
其资源类型包括原文、图片、阴文、文摘、馆藏、相关文献等;育种覆盖中文、英语和日语。
3.引文索引:利用文献引证关系检索相关文献的索引。
引文索引以某一文献(包括作者、题名、发表年份、出处等基本数据)作为标目,标目下著录引用或参考过该文献的全部文献及出处。
它主要供用户从被引文献查找引用文献。
4.截词检索:截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。
截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。
尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。
5.科技查新:科技查新是文献检索和情报调研相结合的情报研究工作,它以文献为基础,以文献检索和情报调研为手段,以检出结果为依据,通过综合分析,对查新项目的新颖性进行情报学审查,写出有依据、有分析、有对比、有结论的查新报告。
二、填空1.文献按内容层次可分为:一次文献、二次文献和三次文献。
2.计算机信息技术中常用的检索技术是:布尔逻辑检索、截词检索、限制检索、词位检索。
3.信息素质的内涵包括:信息意识、信息技能和信息道德。
4.SCI是什么的缩写:科学引文索引(science citation index)。
5.位置算符W:这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒,3N:此算符两侧的检索词之间允许间隔最多3个其他词或字母,且两者词序可颠倒。
信息检索
二、 按信息的表现形式划分:(1)文献型信息源;(2)非文献型信息源。非文献型信息源包括电子信息源、数值型信息源、声像型信息源、多媒体信息源以及实例与口头信息源。
6、信息出版类型:是指记录有知识的文献出版类型。
7、信息检索:是指将信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户的需要找出有关信息的过程。它的全过程又称为信息存储与检索。
19、主题语言类主要有标题词语言、叙词语言(后组式)、关键词语言和单元词语言等。它们统称为主题法系统。
关键词(非规范化)语言指在文献标题、摘要或正文中出现的,对表达文献内容具有实质意义,能作为检索入口的,起关键性描述作用的词汇。
20、检索语言的特点:检索语言不同于自然语言,它所表述的概念只是一种解释,不允许一词多义、多词一义而使概念的表述模糊不清。
25、数据库的结构:数据库是以文档的形式组织起来的。(1)记录(record):文档的基本组成单位。记录是作为一个单位来处理的有关数据的集合,是对某一实体的属性进行描述的结果。 例如文献的题名、作者、发表时间、语种、分类号、主题词等;(2)字段(field):是记录的下级数据单位,用来描述实体的某一属性。 例如文献号字段、题名字段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号字段等;每个字段的具体内容成为字段值或属性值。字段的设计决定了检索点的数量。(3)文档(file)若干个记录构成的信息集合称为文档。
32、常用基本检索字段:(1)TI(题名字段):找出题名中含有world-wide-web的记录(用法举例:S world(w)wide(w)web/TI);(2)AB(文摘字段):找出文摘中含有Academic Library记录(S Academic(w)Library/AB);(3)DE(主题词字段):找出主题词字段中含有Internet的记录(S Internet/DE)。
信息检索
2.按信息的加工级别划分
• 零次文献(实验记录、手稿、原始录音、谈话记录等) • 一次文献(图书、期刊论文、会议论文、科技报告、专
利、标准等)
• 二次文献 (目录、题录、文摘等) • 三次文献 (文献综述、年鉴、词典)
三次文献之相互关系
读者查找
一次文献
二次文献
三次文献
作者发表
三、 信息检索的技术与方法
信息检索的技术
• 布尔逻辑检索 • 截词检索 • 限制检索
(一) 布尔逻辑检索
• 布尔逻辑组配运算是采用布尔代数中的逻辑 “与”、逻辑“或”、逻辑“非”等算符,将 检索提问式转换成逻辑表达式,限定检索词在 记录中必须存在的条件或不能出现的条件。
• 凡符合布尔逻辑所规定的条件的文献,即为命中文献。
以事实作为检索对象,查找用户所需的描述性 事实,其检索对象为机构、企业、人物的基本 情况、历史变迁等。 百科全书、工具书
(二)信息检索的意义
1.节约研究人员的时间,避免重复劳动 科学研究具有继承和创造两重性,科学 研究的两重性要求科研人员在探索未知或 从事研究工作之前,应该尽可能地占有与 之相关的信息。信息检索是研究工作的基 础和必要环节,成功的信息检索无疑会节 省研究人员的大量时间,使其能用更多的 时间和精力进行科学研究。
1. 逻辑“与”(并且)
• 符号:“and” 或“*”表示 • 表达式:A*B 或者 A and B
• 意义:检索记录中必须同时含有检索词AB的 文献,才算命中文献 • 作用:增加限制条件,即增加检索的专指性, 以缩小提问范围,减少文献输出量,提高查 准率。
2. 逻辑“或”(或者)
• 符号:“or” 或 “+”表示 • 表达式:A OR B 或 A+B • 意义:检索记录中凡含有检索词A或含有检索 词B,或同时含有检索词A、B的,均为命中文 献文章。 • 作用:放宽提问范围,增加检索结果,起扩 检作用,提高查全率。
信息检索
信息检索1.信息检索的概念。
狭义信息检索是指用户找出有关信息的过程。
广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。
当前三分方法:文本检索、音频与视频检索、数值检索。
(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。
实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。
一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。
二、需求集合:用户的信息需求是在社会实践活动中产生的。
当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。
三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。
5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。
信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR问题是主流。
信息检索概念
③操作界面友好,帮助信息、功能键、窗口式对话框、鼠标控制等,简单易学,直接面向最终用户,不需要对用户进行专门的培训。
④输出灵活,可以有拷盘、打印、套录建库以及网上传输等多种输出形式。
⑤融多种媒体为一身,结合激光技术、计算机技术和多媒体技术,将文字、声音、图像、视频等多种媒体信息存储在一起。
(1)布尔逻辑式的构造不易全面反映用户的需求。
(2)匹配标准存在某些不合理的地方。
(3)检索结果不能按照用户定义的重要性排序输出
2.2.2向量模型
文档表示反映文档在系统中的存储形式描述,可用一组关键词或标引词表示;查询表示反映对用户信息需求的描述;匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配,以过滤输出结果。
第二章信息检索模型
信息检索系统的实现首先要对文档集进行索引和归档,以支持信息检索。检索式代表用户的信息需求。检索系统分析查询与文档表示,进行相似性匹配,排序返回查询结果。
(3)系统科学。
(4)语言学。
(5)认知科学。
概括地讲,可以把信息检索当前正在研究的主要课题和未来发展趋势归纳如下:
(1)跨语言信息检索。
(2)多媒体信息检索。
(3)信息检ห้องสมุดไป่ตู้可视化。
(4)信息检索智能化。
(5)信息检索个性化。
(6)信息检索多样化
任何检索策略都包含3个部分:文档表示、查询表示和匹配函数。
联机检索系统也称国际联机检索系统,通常采用相对封闭的客户机/服务器模式,属于典型的主从式结构。如图1-3所示,联机检索系统通常由联机检索中心、通信设施、检索终端3个主要部分组成。
联机检索系统的特点是:
信息检索
文献检索步骤
1、分析课题 a.分析检索课题的学科门类 b.分析检索课题的内容主题 c.明确课题的检索目的和范围
2、选择检索工具 3、确定检索途径 4、构造检索式,实施检索 5、索取原始文献
二、构建检索式的基本规则
1、逻辑算符 and、or、not 2、优先算符-嵌套符( ) 3、位置算符 nW、nN 4、截词符 * 5、通配符 #、?
什么是 信息检索
信息检索是通过不同的途 径,从多种媒体的众多的信 息资源中,查找出特定的、 符合需要的文献,或某一问 题的答案(数据、事实经过 或结论等)的过程。
信息检索的必要条件
一、了解文献信息的类型及特点
二、了解获取文献信息的方式 本地获取:网络、图书情报机构 异地获取:馆际互借、文献传递
了解本地图书情报机构所能提供的 资源和服务
文献检索方法
常用法
常用法可以分为顺查法、倒查法和抽查法三种。 (1)顺查法:从用户要求查找的起始年代或课题 分析所得出的该课题研究的起始年代起,由远及近 地进行逐年查找。 (2)倒查法:与顺查法相反,由近及远地进行查 找文献的方法。 (3)抽查法:针对课题研究所处的发展高峰期的 若干年中进行查找。
互关系,完全按字顺排
列。
文献检索途径
与标识文献的检索语言的类型一致,文献检索途径 如下:
1、题名途径——准确的题名(全部或部分) 2、著者途径——作者姓名的表示方法 3、号码途径——正确了解号码的含义和输入方法 4、分类途径——了解本系统的分类法 5、主题途径——正确选用系统提供的主题词
检索途径 → 检索字段
6、复数标识符 +
7、禁用词 8、固定短语或词组 “ ”
逻辑算符(and、or、not)
信息检索
1.信息检索:信息用户为处理解决各种问题而查找,识别,获取相关的事实,数据,知识的活动及过程。
广义:信息检索就是指信息按照一定的方式组织与存储起来,并根据用户的需要找出相关信息的过程2.信息检索类型:(1)对象内容:文献检索,数据检索,事实检索(2)方式:手工信息检索,机器信息检索(3)对象的信息组织方式:全文检索,超文本检索,超媒体检索3.信息资源:狭义:人类社会活动中经过加工处理的,有序化的并大量累积后的有用的信息的集合。
广义:信息和它的生产者以及信息技术的集合,由三种部分构成:一是人类社会活动中经过加工处理有序化并大量积累后的有用信息的集合;二是为某种目的而生产有用信息的信息生产者的集合;三是加工、处理和传递有用信息的信息技术的集合。
4.按其所依附的载体的划分:体裁信息资源、实物信息资源、文献信息资源、网络信息资源按信息资源的加工程度划分(含区分):一次信息资源:未经过加工或粗略加工的原始信息资源,特点是比较零散,系统性不强,但包括所有的重要内容二次信息资源:对大量一次信息资源进行加工、整理、标引、著录、浓缩,并予以有序化编排而形成的结果,主要指各种目录、题录、索引、文摘等三次信息资源:指通过二次信息资源提供的线索,对某范围内的一次信息资源进行分析、研究、加工而成的信息资源5.主题信息需求:查新需求、查准需求、查全需求6.信息检索的效果评价(分析题)查全率(R)=被检出相关文献数/系统中的相关文献数查准率(P)= 被检出相关文献数/被检出文献总数7.联机检索系统的结构和工作原理:(1)结构:组成部分:主机系统、通信系统、终端系统;功能模块:信息资源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统(2)工作原理:联机数据库、文档组织,检索流程8.网络检索系统的结构和工作原理:(1)结构:自动索引程序、数据库、检索代理文件(2)工作原理:通过自动索引程序Robot来广泛搜索网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并大多以web页面的形式向用户提供有关的资源导航、目录索引及检索界面9.信息检索经典模型(区分):(1)布尔检索模型:是基于集合论和布尔代数的一种简单检索模型,运用布尔代数的方法,用布尔表达式表示用户提问,通过对文献标示与提问式的逻辑比较来检索文献(2)向量模型:又称代数模型,是检索系统所有数学模型中最有创造性,最能揭示文献之间关系,使用最复杂要求最高的模型(3)概率模型:基于概率排序原理,即文献应该根据自身与提问的相关概率来排序输出10.信息检索语言结构原理(1)定义:信息检索语言是用来描述文献特征,表达主题提问的一种专门的人工语言,是由给定领域中一切可用来描述信息内容和信息需求的词汇或符号,及其使用规则构成的供标引和检索的工具。
信息检索
《中国图书分类法》(台湾) 中国图书分类法》 台湾)
000 100 200 300 400 600 700 800 900 310 总论 320 哲学 330 宗教 340 自然科学 350 应用科学 360 历史、地理 370 历史、地理 380 语文 390 美术 数学 天文 物理 化学 地质 410 生物、博物 420 植物 430 动物 440 人类学 450 460 470 480 490 441 442 443 444 445 446 447 448 449 土木工程 道路工程 水利工程 船舶工程 市政工程 机械工程 陆空交通 电气工程 核子工程
《中图法》等级分类体系
H11 H12 H111 H112 H113 H121 H122 H123 H124 下位类
H1 H2 H3 R1
H13 H14
上位类
等级体系分类法
《中图法》结构示意图
基本大类 简表 详表
A 马克思主义、列宁主义 毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 U1 综合运输 S 农业科学 U2 铁路运输 T 工业技术 U4 公路运输 U 交通运输 U6 水路运输 V 航空、航天 [U8] 航空运输 X 环境科学、安全科学 Z 综合性图书
手工检索
数据信息和事实信息检索是确定性的检索, 检索结果可以直接利用,一般通过三次信息 源来完成。 文献信息检索是一种相关性检索,检索结果 是文献信息的线索,一般通过二次信息来实 现。 全文数据库是一次信息和二次信息的综合体 。在检索结果中,有直接的全文链接。
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
石家庄经济学院图书馆
课程目标
1.掌握信息检索的基本理论知识。 2.熟悉相关学科专业文献检索系统的编排特点。 3.熟练掌握手工检索以及网络数据库、搜索引擎 的检索方法与技巧。 4.初步掌握信息的分析与利用。(定性、定量)
lijiapei
石家庄经济学院图书馆
课程意义
• 四、信息、情报、知识、文献及其关系
第二节 信息检索基本知识 第三节 信息检索技术 第四节 检索策略制定及评价
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
一、信息的概念 早在古代,人类社会就已经认识到信息是可以 寻觅和获取的,如南唐诗人李中曾在《暮春怀 故人》中写下“梦断美人沉信息,目穿长路倚 楼台”的诗句。 宋代陈亮《梅花》“欲传春信息,不怕雪埋 藏”; 宋代女词人李清照“不乞隋珠与和碧,只乞相 关新信息”。这里的信息指消息或音讯。 唐朝诗人许浑也在《寄远》中喟叹“塞外音书 无信息,道傍车马起尘埃”:
第一节 信息基本知识
控制论的创始人、美 国科学家维纳(N. Wiener)对信息的含 义做了进一步的阐述。 他在《控制论》一书 中表明:“信息是人 们在适应外部世界并 使这种适应反作用于 外部世界的过程中, 同外部世界进行互相 交换的内容的名称”。
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
文献检索
2007-2008 第二学期
任课教师:李佳培
信息检索
2007-2008 第二学期
任课教师:李佳培
石家庄经济学院图书馆
课程安排
32学时(3月10日—4月30日) 实习4次(8学时):手工实习一次(工具书阅览室) 上机实习三次(图书馆电阅) 考评办法:最后考试占60%;a=成绩*60% 实习成绩占32%;b=4次实习和/4*32% 出席情况占8%。 c=抽查四次 总成绩=a+b+c
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
期刊
会议 论文
专利 文献
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
学位 论文
标准
科技 报告
技术 档案
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
四、信息、知识、情报、文献及其关系 知识:是人类通过社会实践而总结出来的对客观 事物的认识,是被人们理解和认识并经过大脑重 新组织和系统化的信息。 文献:是记录有知识的一切载体。 情报:是指传递着的、有特定效用的知识。 布鲁克斯方程式 K[S]+△I→K[S+△S]
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
(三)信息的出版形式
图书
期刊
会议 论文
专利 文献
科技 报告
学位 论文
标准
技术 档案
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
图书
ISBN号是国际标准书号,有10位长,4段。 如:ISBN 7-5624-1099-2,第一段为地域号,中国 为7,英语地区为1-2;第二段为出版社号;第三段为 书号;第四段为计算机校验位。校验位的 计算:7 5 6 2 4 1 0 9 9 分别*10,9,8 ,7,6,5,4, 3,2,积的和/11(模),11—余数=计算机校验位。 2007年1月1日,ISBN号升至13位,其方法是在ISBN的 前面增加3位数字的EAN前缀码——978,并重新核算 最后一位的校验码,这样就可以把国际标准书号直接 改变成欧洲物品编码(EAN),使ISBN与EAN统一起来。 比如,国际标准书号“ISBN 7-01-005477-0”修改后 就成为了欧洲物品编码“ISBN 978-7-01-005477-3”。
1.与时俱进,跟踪学术最新动态。 2.节省科研时间,提高工作效率。 3.避免重复研究。 4.挖掘、分析信息,制定高明的市场策略。
lijiapei
石家庄经济学院图书馆
目录
第一章 信息检索基本理论 第一节 信息的基本知识
• 一、信息的概念 • 二、信息的特征 • 三、信息源
– (一)信息的载体形式 – (二)信息的级别 – (三)信息的出版形式
中国学者钟义信对信息的解释:信息是事物运动 的状态与方式,是物质的一种属性。
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
还有的学者认为: 信息就是信息,既不是物质也不是能量。 信息是事物之间的差异。 信息是集合的变异度。 信息是一种场。 信息是系统的复杂性。 信息是一种关系。 信息是事物相互作用的表现形式。 信息是事物联系的普遍形式。 信息是物质和能量在时间和空间颁不均匀性。 信息是物质的普遍属性。 信息是收信者事先所不知道的报导。 信息是用以消除随机不定性的东西。
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
一、信息的概念 信息论的奠基人、 美国数学家克劳 德· 申农(Claude E. Shannon),他 1948年发表的《通 信的数学理论》一 文轰动全球。申农 指出“信息是用来 消除不确定性的东 西”。
lijiapei
石家庄经济学院图书馆
lijiapei
石家庄经济学院图书馆
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识(二)信息的级别
零次信息资源
一次信息资源 未向社会公开和正式 报道,只供一定范围 二次信息资源 指以科学研究、研制 内使用的信息资源。 三次信息资源 指将各种分散、无序的一次 成果、生产或 产品信 如:手稿、私人笔记、 信息资源,按一定规则整理、 息等为基础撰 写的, 会议(发布会、座谈) 对一、二次信息资源进行 归纳、提炼和简化,按一定 未经他人加工 、 重 组 、 评价和筛选后,经过分析、 记录、信件、设计草 规律组织而形成的供查找一 提炼和压缩,按知识门类 压缩,通过某 种方式 稿、网络私人聊天等。 次信息资源的线索型信息资 或专题综合加工而成的信 源。能有效提高检索和使用 (含网络)向 社会公 据有:直接性、及时 息资源,也成为参考工具 一次信息资源的效率。包括 开发布或报道 的信息 性、新颖性、随机性、 书。特点:概括性、浓缩 目录、题录、文摘、索引类 资源。如:专 著、教 非存储检索的特性。 性、可检索性和参考性。 具有标引和检索性质的信息 材、学术期刊 论文、 资源。如:图书馆馆藏书目、 如:百科全书、年鉴、字 联机目录、专题文摘、引文 词典、标准信息、综述和 科技报告、专 利说明 述评等。 索引、网络文摘题录型数据 书等,特点: 内容详 库、搜索引擎检索结果等。 尽、分散、无序。
1. 2. 4. 3. 印刷型信 缩微型信 电子型信 声像型信 息 息AudioMicro息 Printed forms Electronic visual Form Form
言和机器语言并存储在磁带、光盘、磁盘等介 幻灯片等。其优点是既能闻其声又能观 人力 质上,从而建立起相应的文献数据库。其特点 其像,直观、亲切,表现力强。与印刷 是存储量大,出版周期短,传递迅速,存取速 型信息相比,声像型信息更能提高人们 度快,可以融文本、图像、声音等多媒体信息 理解信息的能力。 于一体,易复制,共享性好。
lijiapei
信 息 的 特 Text 性
时效性 传递性 共享性 中介性
石家庄经济学院图书馆
第一节 信息基本知识
三、信息源 (一)信息的载体形式
为了弥补印刷型信息的不足,缩微型信息应运而生。 印刷型信息又称书本型信息。它是以纸张 电子型信息是指以数字代码方式将图、文、声、 声像型信息又称视听资料。这是一种以 它是一种以缩微胶片或平片为载体,利用缩微摄影 为载体、以印刷为记录手段而产生的一种 像等信息存储到磁、光、电介质上并通过计算 磁性和感光材料为存储介质,借助特殊 技术为记录手段而产生的信息形式。随着激光和全 机阅读的信息。如各种电子图书、电子期刊、 传统的信息形式,如图书、期刊、报纸、 息摄影技术的应用,又出现了超级缩微胶片和特级 的机械装置直接把图像和声音记录下来 联机数据库、网络数据库、网络新闻、光盘数 印刷型的检索工具等。其优点是便于阅读 缩微胶片,一张全息胶片可存储 20 万页文献。其优 的一种信息形式。主要载体有录音带、 据库等。该类信息在计算机与网络技术的支持 和流通,符合人们的阅读习惯。缺点是存 点是体积小、存储密度高、保存期长、便于收藏和 唱片、激光唱盘、录像带、电影胶片、 下,通过编码和程序设计,将信息变为数字语 管理。缺点是必须借助缩微阅读机才能阅读。 储密度低,收藏和管理需要较大的空间和
lijiapei
石家庄经济学院图书馆
第一节 信息基本知识
二、信息的特征
客观性
客观性:信息是客观存在的,不以人们的 时效性:客观事物总是不断地发展变化, 意志为转移的。 因而信息也会发展变化,如果信息不能适 传递性:信息的传递性是指任何信息只 地震,海啸,花草树林的发芽、生长 共享性:同一内容的信息可以在同一时 时地反映事物存在的方式和运动状态,那 有从信源出发,经过信息载体传递才能 和枯萎,广播电视、网络的新闻、广告等 间或不同时间里被多个信息用户使用。 中介性:信息是介于物质世界和精神世 么,这一信息就失去其效用。 被信宿接受并进行处理和运用。也就是 等发出的信息,不管你知道不知道,感知 界之间的过渡状态的东西,是人们认识 朝鲜战争与兰德咨询公司故事 说,信息可以在时间上或空间上从一点 不感知,它都是客观存在。只要有物质存 例:美国出兵朝鲜前,政府曾请美国著名的咨 事物、感知世界的不可缺少的中间环节。 移动到另一点,可以通过语言、动作、 英国剧作家萧伯纳说:“你我是朋 在,就有信息的存在。它是现实世界中事 询机构兰德公司做一预测:美国出兵中国会不 文字、通信、电子计算机等各种渠道和 它贯穿于认知活动的始终,认知过程本 友,各拿一个苹果,彼此交换,交换后仍然 物运动与状态的反映,可以被人们所感知、 会出兵?兰德公司请大批资深专家,从中共历 媒介传播 是只有一个苹果。倘若你有一种思想,彼 身就是一个以信息为中介的信息运动过 处理、存储和使用 .其客观性还表现在反映 史、军力、国际关系、甚至中共领袖性格等各 此交流思想,那么我们每个人就有两种思 程。 方面做了精深的分析,最后得出结论:“中国 想了。”这段话是物质不共享性与信息 客观世界变化的信息包含在各种物质之中。 例 : 人们看柳树发芽,就知道春天来了, 19 世 纪 60 年 代 ,7 日 本人正是 利 用 将出兵” 。其主题词只有 个字,要价 150 万美 可共享性的生动写照。苹果交换以后双 《人民画报》等报刊杂志上传递的信息, 看到天上乌云滚滚,就知道要下雨了, 元。美国防部认为是敲诈,不予理睬,冒险出 方仍然各自仅有一个苹果,但信息交换 分析、测算出了我国大庆油田的地理位 这就是这些自然世界发出的信息。 兵,结果“在错误的时间,在错误的地点,与 以后双方都有了两种信息。 置、产量和设备需求,几乎垄断了后来 错误的敌人进行了一场错误的战争”。直到前 人类认识世界和改造世界的过程, 信息共享性是推动社会交流的原动 我国石油设备进口市场,获取了高额利 些年,美国政府检讨当年决策错误,向兰德公 是一个不断从客观世界获得信息,并对 力。一条信息被用户吸收和利用并不影 润。 司付了一大笔款,表示对科学预测的重新估价 响信息的本身和被其他用户的反复使用, 信息进行加工处理,形成新的认知结构, 与信服。由上可以看出信息是具有较强时效性 各用户分享的份额也不会因为分享的人 然后通过实践活动反作用于客观世界的 的。 的多少而受影响。 过程。