信息检索的基本原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图书馆胡小莉
目录
第一节信息检索的涵义及类型
第二节信息与信息源
第三节信息检索途径与步骤
第四节信息检索效果的评价
4123
学习目的和要求
1、掌握信息检索的基本概念和类别
2、掌握常用的布尔逻辑、截词、位置检索等检索技术
3、了解信息检索的基本流程
第一节信息检索的涵义及类型
信息检索的涵义
广义:是指将信息按一定的方式组织和存储起来, 并根据信
息用户的需要找出有关信息的过程和技术。
全称为“信息存
储与检索”。
狭义:是指该过程的后半部分,即从信息集合中找出所需要
的信息的过程, 相当于人们通常所说的信息查寻。
信息检索的原理:就是将读者(用户)的信息需求与存贮在信息集合体中的信息进行比较和选择,即匹配(match)的过程。
即对信
息集合与需求的匹配与选择。
检索与查找的区别
检索查找、搜索、搜寻英文Retrival或Retrieval search
过程和方法有一定的策略,是
系统的查找资料随机或更随意一些。
技能需要一定的专门知
识和技能
简单,任意词用途课题或专题日常生活
结果检索前通常不知道
会有什么结果
通常知道结果效率迅速、准确一般
如果不刻意区分:你完全可以认为它们没有区别!
信息检索的类型
根据信息检索信息形式不同,分为:
分类检索内容
文本检索(自然语言检索)不对文献进行任何标引,直接通过计算机以自然语言中的词语匹配查找的系统。
多媒体检索能够支持两种以上媒体的数据库检索,
查找含有特定信息的多媒体文献的检
索。
超文本检索用超链接的方法,将各种不同空间的文
字信息组织在一起的网状文本。
我们日
常浏览的网页上的链接都属于超文本。
信息检索的意义及目的
1、信息检索是获取新知识的捷径,节省学习者的时间。
据估计,现在全世界每年出版的图书有80万种以上,科技期刊8
万种以上;发表期刊论文大于600万篇以上;公开的专利说明书
100多万件;国际会议文献1万多件;美、英、德、日等国产生的
科技报告达20万件左右。
科技文献浩如烟海,具备一定的信息检
索能力才能查找出有用的科技信息。
信息检索的意义及目的
2、信息检索是科学研究的向导,避免重复研究或走弯
路。
美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。
在科研开发领域里,重复劳动在世界各国都不同程度地存在。
据统计,美国每年由于重复研究造成的损失,约占全年研究经费的38%,达20亿美元之巨。
日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。
信息检索的意义及目的
2、信息检索是终身教育的基础
学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。
联合国教科文组织提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。
第二节信息与信息源
一、信息
(一)什么是信息?(Information)
信息论的奠基人,美国数学家克劳德·香农(Claude E. Shannon):“信息是用来消除不确定性的东西。
”
控制论的创始人,美国科学家维纳(N. Wiener):“信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行相互交换的内容的名称。
”
中国学者钟义信:“信息是事物运动的状态与方式,是物质的一种属性。
”
信息爆炸
客观性载体性
传递性
可塑性
时效性
信息的使用周
期越来越短
可以进行加工和
处理
必须依附于
一定的载体
才能流通和
传递
是实现信息资
源共享的基础
共享性
可被多个用户
使用
信息
可被感知、获取、传
递和利用
(二)信息的特征
二、信息源
信息源,顾名思义,就是信息的来源。
联合国教科文组织出版的《文献术语》将其定义为:个人为满足其信息需要而获得信息的来源。
类型存在方式特点
口语信息源交谈、聊天、授课、讨论等方
式传递快、互动性强、但稍纵即逝、久传易出差异
体语信息源手势、表情、姿态等方式直观性强、生动丰富、印象深刻、富有
感染力
实物信息源以实物如文物、产品样本、模
型、碑刻、雕塑等形式表示直观性强、感受实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息
文献信息源以文字、图形、符号、声频、
视频等方式记录在各种载体上
的知识和信息经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后、部分信息尚待证实的情况。
(一)零次信息源不借助实物媒体,通过直
接交流所获得的的信息来源。
包括口头交谈、参观、现场交流、听演讲、听报
告会等。
已出版的原始文献、科研人员根据科研成果撰写的文稿、第一手资料就是一次信息源。
它包括:专著、期刊论文、科技报告、会议论文、专利说明书、学位论文等,是人们检索和利用的主要对象。
通过对大量分散、无序的一次信息源进行加工、提炼、浓缩和组织,成为系统的、便于查找一次信息的工具,如收录目录、索引、文摘等的数据库与网络检索工具。
它不产生新的知识,但提供了一次信息源的线索。
信息检索主要讲的就是二次信息的编排体系和使用方法。
(四)三次信息源
在利用二次信息的基础上,对检索到的一次信息进行广泛、深入的分析研究之后,再次加工出来的成果,如专题报告、综述,以及词典、手册、百科全书、年鉴等工具书。
具有综合性强、针对性强、系统性好的特点。
课堂讨论:我们是否需要了解多种文献信息源类型呢?你平时使用比较多的是哪种类型的信息源?
一、了解一种就可以了;
二、了解几种常用的和常见的就可以了;
三、各种类型都需要了解;
第三节信息检索途径与步骤 (一)信息检索的途径
1、文献外部特征的检索途径
(1)责任者途径(著者姓名途径)
(2)题名途径(书名途径)
(3)文献类型途径
(4)代码途径(序号途径)
以文献的编号为特征,检索文献的途径。
根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN 等作为检索点。
2、文献内容特征的检索途径
(1)分类途径
是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。
一般检索系统均提供数据库所使用的分类表的分类号索引。
如:《中国图书馆分类法》
(2)主题途径
是根据表达文献主题内容的主题词及其派生出的关键词为标识查找文献信息的途径。
(3)分类主题途径
是分类途径与主题途径的结合,能够尽量避免两者的不足,取其多长。
(4)其他检索途径
①出处途径②时间途径
③任意词途径④专门术语途径
分类途径
主题途径分类途径
(二)计算机检索技术
1、布尔逻辑检索
是应用布尔逻辑代数的原理设计的、应用于计算机信息检索系统的一种主流检索技术与方法。
三种类型:
逻辑与(AND)
逻辑或(OR)
逻辑非(NOT)布尔逻辑得名于George Boole,他是考克大学(现爱尔兰国立考克大学)的英国数学家,他在十九世纪中叶首次定义了逻辑的代数系统。
现在,布尔逻辑在电子学、计算机硬件和软件中有很多应用。
布尔逻辑检索
1)逻辑“与”
运算符:AND 或*
检索式:A AND B或A*B
含义:检出的信息中必须同时含有“A”和“B”两个检索词。
提高查准率,增强检索专指性。
A
B
例:逻辑与(AND或*)
计算机在图书馆的应用
图书馆
计算机AND 图书馆
人类活动对群落多样性的影响
检索概念:
人类活动群落多样性影响
检索式
人类活动AND 群落多样性
人类活动AND 群落多样性AND 影响
人类活动AND 群落多样性AND 影响
布尔逻辑检索
2)逻辑“或”
运算符:OR 或+
检索式:A OR B或A+B
含义: 数据库记录中任何一条记录,只要含有“A”
或“B”中任何一个检索词即为命中的文献。
提高查全率,扩大检索范围
如:“微机+电脑+PC机”
“微机or电脑orPC机”
A
B
布尔逻辑检索
3)逻辑“非”
●运算符:NOT 或-
●检索式:A NOT B或A -B
●在含检索词A的记录中,去掉含检索词B的记录
例1 查“玉米但不是甜玉米”方面的文献。
检索式=玉米-甜玉米
例2 查“国外有关数字图书馆方面”的文献
检索式=数字图书馆-国内
A
B
布尔逻辑检索
布尔逻辑运算符的运算顺序
NOT AND OR
优先级高优先级低
布尔逻辑运算符号在baidu、google搜索引擎中的运用
1、百度搜索引擎三种逻辑运算符的使用方法:
逻辑与为空格,例如“中国最长公路桥”可以用这样的检索式进行检索:“中国最长公路桥”;
逻辑或为“︱”,例如“番茄︱西红柿”;
逻辑非为“-” 【注意:“-”前必须输入一个空格】,例如“马铃薯晚疫病-番茄”;
2、Google搜索引擎三种逻辑运算符的使用方法:
AND:有优先,逻辑与为空格(使用方法同百度);
逻辑或为OR 【注意:OR必须用大写】,例如:“番茄OR西红柿”
逻辑非为“-” 【注意:“-”前必须输入一个空格】,(使用方法同百度)。
百度搜索引擎逻辑或的使用方法:
截词检索
2、截词检索
截词检索是在词干的不同位置添加截词符,以此代表词的可变部位,从而减少相同词干的检索词的输入数量,提高查全率的一种常用检索方法。
主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。
在不同的检索系统里用不同的符号,一般为:*、?、! 提高查全率,防止漏检的有力手段
截词检索
1)按截词的数量划分
●有限截断:即一个截词符只代表0或1个字符。
如:apple? 可检出apple、applet等结果
●无限截断:一个截词符可代表多个字符。
如:comput! 可检出:computer、
computers,computering等结果
注:不同的数据库所用的截词符不一样,使用时应先查一下各数据库的帮助加以确认。
截词检索2)按截词的位置划分
1.把截词符号置放在一个检索词的中间;
2.中截断不允许有限截断
1.将截词符号放在一个字符串左方,表示其左的有限或无限个字符不影响该字符串的检索;
2.实质:后方一致检索1.最常用的截词检索技术;2.放在字符串右方,表示其右有限或无限个字符不影响该字符串的检索;
3.实质:后截断是前方一致检索后截断前截断
中截断
截词检索
●后截断主要使用于如下几种情况:
检索词的单复数的描述;
如:book?
同根词的表达;
如:chemi*可以检索出chemical、
chemistry、chemist等同根词
年代的表达;
如:20??(21世纪),199?(20世纪90年代) 作者
如:Moyer*可以检索出所有姓Moyer的作者
截词检索
●前截断:又称左截断,截词符在词的左边
如:输入
*computer
检索结果
microcomputer
minicomputer
截词检索
●中截断:截词符在检索词的中间
输入:
organi? ation
检索结果
organization
organisation
中截断主要使用于如下几种情况:
检索词的拼写方式存在美式、英式之分;
检索词在某个元音位置出现的单复数不同;
如:man与men
作用
扩大检索范围,提高查全率,减少检索词的输入量
位置检索
3、位置检索
(1)词级位置检索指在检索词之间使用位置算符来规定算符两边的检索词出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定要求的记录。
位置算符包括(W)、(N)算符,表示检索词之间的顺序关系
☞(W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。
例:?S solar( )energy
☞(nw):表示两个词之间可插入n个词,且词序不可颠倒。
例:?S solar(3w)energy
☞(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。
例:?S fiber(N)optic
☞(nN)表示两个词之间最多可插入n个词,词序任意。
例:?S fiber(4N)optic
位置检索
(2)子字段级或自然句级算符,用于限定检索词出现在同一子字段或自然句中,用(S)表示,S为subfield或sentence的缩写,表示其两侧的检索词必须出现在同一子字段中,即一个句子或一个短语中。
例如:rapid(S)transit,即rapid与transit在同一个子字段或一个句子中
位置检索
(3)字段级算符
字段级算符用于限定检索词出现在数据库记录中的某个字段。
算符用(F)表示,F为field的缩写。
例如:air (F)pollution, 表示air与pollution必须在同一字段中出现。
讨论:
1、查询高波教授的文章。
发表(作者)、指导(导师)
2、检索关于研究老舍的论文。
输入“老舍”时必须选择途径为“标题”或“关键词”
3、研究“法律与经济和政治的关系”的课题。
检索的信息是法律与经济和法律与政治之间的关系,因此“经济”与“政治”的关系是逻辑“或”,不是“与”,检索式“法律﹡(经济+政治)”比“法律﹡经济﹡政治”检索的范围大得多。
(三)信息检索的步骤
1. 信息需求分析
2. 选择检索工具(或数据库)与检索手段
3. 确定检索途径与拟定检索式
4. 实施试检索操作
5. 检索结果的评价与获取原始文献
1. 信息需求分析
只有对信息需求真正了解,才能获得正确的检索结果。
需求分析是在问题及其最终解决方案之间架设桥梁的第一步。
分析清楚需求间的逻辑关系包括因果关系、依赖关系、主次关系等,需求优先级的排列,就能探索出描述这些需求的多种解决方案
信息需求所涉及的通用问题
信息需求差异
☞每个人的知识结构、所处环境和面临的问题都有所不同,由此而产生的信息需求也千差万别的。
即使面对同一课题,不同身份的人需求的内容也不相同。
☞在学术研究过程中,研究人员在课题设计、课题实验(试验)、成果发表、论文写作等不同阶段的信息需求也会不同。