信息检索的概念
第三章 信息检索的基本知识
1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
名词解释(信息检索2017)
1、信息检索:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。
其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。
取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。
2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:查全率=(检出相关文献量/系统中相关文献总量)*100%3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:查准率=(检出相关文献量/检出文献总量)*100%4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:漏检率=(漏检相关文献量/系统中相关文献总量)*100%5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。
6、单库检索:在选定的单一数据库中进行检索。
7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。
8、相关度优先:和查询的条件内容最相关的文献优先排在前面。
9、最新论文优先:发表时间比较新的文献优先排在前面。
10、精确匹配:检索结果中包含与检索词完全相同的词语11、模糊匹配:检索结果包含检索词或检索词中的词素12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。
13、倒查法从最新时间查找起,直到满足检索要求为止。
14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。
15、二次检索是指在前一次检索结果的范围内,继续进行检索。
16、定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。
信息检索概念及分类
信息检索概念及分类
一、概念
信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。
狭义的信息检索仅指信息查询(Information Search)。
即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。
广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。
又称信息的存储与检索。
一般情况下,信息检索指的就是广义的信息检索。
二、分类
(一)按存储与检索对象划分,信息检索可以分为:
文献检索
数据检索
事实检索
以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
(二)按存储的载体和实现查找的技术手段为标准划分:
手工检索
机械检索
计算机检索
其中发展比较迅速的计算机检索是“网络信息检索”,
也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
(三)按检索途径划分:
直接检索
间接检索。
信息检索 ppt课件
详细描述
社交网络信息检索技术主要针对社交网络中 海量、动态更新的信息进行处理和检索。特 点包括实时性、个性化和社会化等。同时, 也面临一些挑战,如信息过载、隐私保护等
。
案例四:社交网络信息检索技术实践分享
总结词
社交网络信息检索技术的创新与应用
详细描述
介绍一些创新性的社交网络信息检索技术,如基于内 容的推荐算法、情感分析技术等。同时,分享一些成 功应用案例,如微博搜索、微信小程序等,说明这些 技术在社交网络中的实际应用和效果。
云服务和移动化 借助云服务和移动通信技术,实 现信息检索服务的移动化和云端 化,方便用户随时随地获取信息 。
个性化推荐和定制化服务 通过数据分析和挖掘,实现个性 化推荐和定制化服务,满足用户 多样化的信息需求。
多模态信息检索 融合文本、图像、音频和视频等 多种类型的信息,实现多模态信 息检索,提高信息检索的全面性 和多样性。
04
信息检索的应用领域
搜索引擎
搜索结果相关性
提高搜索结果与用户查询的关联 度,减少无关信息的展现。
语义分析和理解
对用户查询进行深度解析,识别关 键词的语义,提高搜索的准确性。
实时更新
对互联网上的新信息进行实时跟踪 和更新,确保用户获取最新、最相 关的信息。
数字图书馆
资源数字化
将传统图书馆的资源进行数字化 处理,方便用户在线阅读和下载
关联规则挖掘
挖掘信息之间的关联规则,帮 助用户发现隐藏的信息需求。
信息检索的评价指标
查全率
评估检索系统找全满足用户需求的信息的能 力。
响应时间
评估检索系统响应用户请求的速度。
查准率
评估检索系统找准满足用户需求的信息的能 力。
信息检索
专业科训信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
信息检索有广义和狭义的之分。
广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
一·按存储与检索对象划分,信息检索可以分为:1·文献检索·2数据检索 3·事实检索以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
二·按存储的载体和实现查找的技术手段为标准划分:1·手工检索 2·机械检索 3·计算机检索其中现在发展比较迅速的计算机检索是“网络信息检索”,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
按检索途径划分:(1)直接检索,(2)间接检索三·检索方法信息检索方法包括:普通法、追溯法和分段法。
1.普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。
运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。
普通法又可分为顺检法和倒检法。
顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性效果较好。
信息检索 第二讲 信息检索概述
通过分析信息存储和检索的全过程可以看出检索语言
大致有以下四个主要的功能:
对文献的情报信息内容及其外表特征加以规范化的标引;
对内容相同及相关的文献信息加以集中或揭示其相关性;
可使文献信息的存储集中化、系统化、组织化,便于检
索者按一定的排列秩序进行有序化检索;
便于将标引用语和检索用语进行相符性比较。
科性质进行分类和系统排列 。
特点:能集中体现学科的系统性,反映事物的
从属、源生关系,便于按学科门类进行族姓检
索。
(1)分类语言
按照分类方式的不同:
混合分类语言 体系分类语言 分类语言
体系分类法是基于概念
的划分和概括,以学科 分类为基础,把概括文
献内容与事物的各种类
目组成一层层隶属、详 细列举的等级结构体系。
文献检索
事实检索
数据检索
7
3.信息检索的类型
文献检索。以文献或其索引、文摘为检索对象, 目的是核实已知文献的不确切项目,如著者名、 年代、出处等,或查检某课题原始文献的线索 及它们的具有收藏情况。
文献检索是相关性检索,不直接回答用户所提 技术问题本身,只提供有关的文献供参考。
举例: “关于自动控制系统有些什么参考文献”
CALIS公共目录检索系统检索界面
读秀知识库检索界面
三、信息检索语言
1.检索语言的概念
2.信息检索语言的功能与作用
3.信息检索语言的类型
1.信息检索语言的概念
信息检索语言是一种专门的人工语言,又 称标引语言和索引语言,是信息系统中用 以描述信息的内容及外表特征和检索者表 达检索提问的语言,是两者相互沟通的共 同依据,是用于信息标引和检索提问的约 定语言。
信息检索
信息检索一、名词解释:1.信息检索:狭义的信息检索概念是指在信息的海洋中选取符合需要的信息的过程称为信息检索。
而如今发展为包括信息的储存、组织、查询、提取等多个工作过程,所以广义的信息检索又称为信息储存与检索。
2.CALIS:全称为中国高等教育文献保障系统(china academic library&information system),其联合目录数据库始建于1997年。
其资源类型包括原文、图片、阴文、文摘、馆藏、相关文献等;育种覆盖中文、英语和日语。
3.引文索引:利用文献引证关系检索相关文献的索引。
引文索引以某一文献(包括作者、题名、发表年份、出处等基本数据)作为标目,标目下著录引用或参考过该文献的全部文献及出处。
它主要供用户从被引文献查找引用文献。
4.截词检索:截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。
截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。
尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。
5.科技查新:科技查新是文献检索和情报调研相结合的情报研究工作,它以文献为基础,以文献检索和情报调研为手段,以检出结果为依据,通过综合分析,对查新项目的新颖性进行情报学审查,写出有依据、有分析、有对比、有结论的查新报告。
二、填空1.文献按内容层次可分为:一次文献、二次文献和三次文献。
2.计算机信息技术中常用的检索技术是:布尔逻辑检索、截词检索、限制检索、词位检索。
3.信息素质的内涵包括:信息意识、信息技能和信息道德。
4.SCI是什么的缩写:科学引文索引(science citation index)。
5.位置算符W:这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒,3N:此算符两侧的检索词之间允许间隔最多3个其他词或字母,且两者词序可颠倒。
第二讲:信息检索基础知识与技巧
图形表示:
5各种不同的运算符 5.1布尔逻辑运算符
①逻辑与 常用表示符号: AND 或 * 含义:检出文献中必须同时包含被其连接的所 有词或词组。 作用:缩小检索范围,减少命中文献量,提高 检索结果的查准率。
5 各种不同的运算符 5.1布尔逻辑运算符
逻辑“与”应用举例
查找干旱对水稻基因表达影响方面的文章: 干旱AND 水稻AND 基因表达
O
P Q R S
数理科学和化学
天文学、地球科学 生物科学 医药、卫生 农业科学
G H I J K
T U V X Z
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
语言、文字 文学 艺术 历史、地理
《中图法》结构示意图
大多数图书馆的索书号由中图法的分类号和著者号两部分 构成。索书号是确定一本图书所在架位的依据。了解了索 书号,就能准确迅速地找到自己需要的图书。
5 各种不同的运算符 5.2 截词符
② 前截断 又称左截断,截词符放在被截词的左边。例如 输入*magnetic,可检索出: electro-magnetic, electromagnetic等。
5 各种不同的运算符 5.2 截词符
③ 中间截断 在检索词中间嵌入截断符号,允许检索词中间 有若干形式的变化。主要解决一些英美拼写不 同,单复数形式不同的词的输入。 如:输入wom *n 可检出: woman、women 输入defen * e 可检出: defence、defense
5 各种不同的运算符 5.1布尔逻辑运算符
优先处理算符() 在实际检索中,有时要调整逻辑运算符的运算 顺序,使某些算符优先进行逻辑匹配。用() 表示,它不是布尔逻辑算符,但常与布尔逻辑 运算符搭配使用。 用法:优先对()内的算符进行逻辑运算。
信息检索
2.按信息的加工级别划分
• 零次文献(实验记录、手稿、原始录音、谈话记录等) • 一次文献(图书、期刊论文、会议论文、科技报告、专
利、标准等)
• 二次文献 (目录、题录、文摘等) • 三次文献 (文献综述、年鉴、词典)
三次文献之相互关系
读者查找
一次文献
二次文献
三次文献
作者发表
三、 信息检索的技术与方法
信息检索的技术
• 布尔逻辑检索 • 截词检索 • 限制检索
(一) 布尔逻辑检索
• 布尔逻辑组配运算是采用布尔代数中的逻辑 “与”、逻辑“或”、逻辑“非”等算符,将 检索提问式转换成逻辑表达式,限定检索词在 记录中必须存在的条件或不能出现的条件。
• 凡符合布尔逻辑所规定的条件的文献,即为命中文献。
以事实作为检索对象,查找用户所需的描述性 事实,其检索对象为机构、企业、人物的基本 情况、历史变迁等。 百科全书、工具书
(二)信息检索的意义
1.节约研究人员的时间,避免重复劳动 科学研究具有继承和创造两重性,科学 研究的两重性要求科研人员在探索未知或 从事研究工作之前,应该尽可能地占有与 之相关的信息。信息检索是研究工作的基 础和必要环节,成功的信息检索无疑会节 省研究人员的大量时间,使其能用更多的 时间和精力进行科学研究。
1. 逻辑“与”(并且)
• 符号:“and” 或“*”表示 • 表达式:A*B 或者 A and B
• 意义:检索记录中必须同时含有检索词AB的 文献,才算命中文献 • 作用:增加限制条件,即增加检索的专指性, 以缩小提问范围,减少文献输出量,提高查 准率。
2. 逻辑“或”(或者)
• 符号:“or” 或 “+”表示 • 表达式:A OR B 或 A+B • 意义:检索记录中凡含有检索词A或含有检索 词B,或同时含有检索词A、B的,均为命中文 献文章。 • 作用:放宽提问范围,增加检索结果,起扩 检作用,提高查全率。
信息检索概念
(4)网络检索(Internet Retrieval)
1.2.1信息检索系统的概念
信息检索过程的实现要依靠特定的系统,这个系统就是信息检索系统。系统是由两个或两个以上既相互区别又互相影响的各种要素构成的统一整体,信息检索系统的构成包括六个要素:
(1)目标
联机检索系统也称国际联机检索系统,通常采用相对封闭的客户机/服务器模式,属于典型的主从式结构。如图1-3所示,联机检索系统通常由联机检索中心、通信设施、检索终端3个主要部分组成。
联机检索系统的特点是:
①检索范围广,数据库数量多,几乎涉及到各个学科领域,世界上公开出版发行文献的90%都可以通过几种主要的联机检索系统查到。
因此文档信息检索过程实际上涉及文档集的逻辑表示、用户查询表示、相似性匹配及其排序三个重要的处理。
信息检索模型主要从两个方面抽象地研究信息检索方法:一是确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;二是确定在模型中如何定义和计算文档和检索式之间的关系。
检索模型的重要作用主要体现在以下几个方面:更精确地描述出文档与文档、文档与查询间的相关关系,使之能比较和计算;安排更合理、更便于检索的文档存储形式;在此基础上设计出合理的检索方
(5)方法
(6)人员
由此可见,信息检索系统由若干个相互作用的部分构成,各部分的功能互异,设计的目的也各不相同,但它们之间相互联系,共同实现系统的目标。狭义地讲,这个目标就是检索信息;广义地讲,则是提升用户的知识水平。通常认为,信息检索系统的任务是告知用户他所需要的信息在哪里。也就是说,信息检索系统并不告诉用户他所询问的主题(即不改变用户的知识结构),它只是告诉用户这一主题是否存在于数据库中,相关的文献都存在哪里。
信息技术基础-信息检索
(二)搜索引擎的高级查询功能
25
使用搜索引擎的高级查询功能可以在搜索时实现包含完整关键词、包含任意关键接上,在弹出的下拉列 表框中选择“高级搜索”选项。
(2)打开“高级搜索”对话框,在“包 含全部关键词”文本框中输入“贵阳 云南”文 本,要求查询结果页面中要同时包含“贵阳” 和“云南”两个关键词。
卡片式检索工具:就是 可以帮助检索的各类卡 片,如图书馆的各种卡
片目录。
(三)信息检索的发展历程
11
2.计算机检索阶段
随着社会的进步和不断发展,各种信息呈爆炸式增长,手工检索已经无法满足日益增长的 信息检索需求;同时,计算机技术、网络技术及数据传输技术也在飞速发展,为计算机检索提 供了技术保障,信息检索从此迈入了计算机检索阶段。计算机检索经历了以下4个阶段。
(二)常见搜索引擎推荐1.”二字源于我国宋朝词人辛弃疾执 着追求,其搜索界面如图所示。
19
2.360搜索
360搜索属于全文搜索引擎,是目前 被广泛应用的主流搜索引擎之一,其搜索 界面如图所示。
(二)常见搜索引擎推荐
(2)在打开的页面中可以看到查询 结果,但其中有些内容是不属于“中国国 家地理”期刊的。此时单击网页左侧“期 刊”栏中的“中国国家地理”超链接。
(三)期刊信息检索
37
期刊是指定期出版的刊物,包括周刊、旬刊、半月刊、月刊、季刊、半年刊、年刊等。下 面将在国家科技图书文献中心网站中,检索有关“中国国家地理”的期刊,其具体操作如下。
(1)打开“国家科技图书文献中心”网 站首页,撤销选中“会议”“学位论文”两个 选项,然后在“文献检索”搜索框中输入关键 词“中国国家地理”,最后单击“检索”按钮。
广义的信息检索
广义的信息检索包括信息存储和信息获取 两个过程。信息存储是指通过对大量无序 信息进行选择、收集、著录、标引后,组 建成各种信息检索工具或系统,使无序信 息转化为有序信息集合的过程。
计算机信息检索
一.名词解释1.信息检索:广义来说,指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程,包括“存”和“取”两个基本环节;狭义理解,一般只涉及“取”,信息检索也可称为“信息查询”或“信息查找”。
2.联机信息检索:指用户利用检索系统网络的终端设备,通过通信线路,运用一些特定的指令和检索策略与世界上的信息检索系统,进行质检的人机对话,从检索系统的数据库中查找出用户所需要的特定信息,并将检索结果与过程下载,显示和打印出来的过程。
3.CBR:基于内容的检索,指根据多媒体对象的听、视觉特征及其中蕴含的内容和语义特征进行检索,并希望能够借助于模式识别、语音识别、图像理解等相关领域的研究成果,对多媒体数据的听、视觉特征和语义特征进行自动(半自动)的分析、表达和组织。
4.网络信息源:指所有以电子数据的形式把文字、图像、声音、动画等多种形式的信息存贮在光、磁等非纸质介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。
5.搜索引擎:搜索引擎有广义与狭义之分。
广义的搜索引擎泛指网络上提供信息检索服务的攻击或系统。
狭义的搜索引擎主要是指利用网络自动搜索软件对INTERNET(主要是WEB)网络资源进行收集、组织并提供检索服务的一类信息服务系统。
6.URL:统一资源定位符(Uniform Resource Locator,缩写为URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
7. 顺排/倒排文档:文档的概念是指数据库内容的组织形式。
一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。
(1)顺排档,也称为主文档、引文文档,它是按记录存取号的大小顺序排列记录而成的文档。
文档越是新,记录存入文档的时间越是晚,记录的存取号就越大。
(2)倒排挡,是指把数据库中记录的一切可检字段或属性值(称检索标识,如著者,主题词等,不包括存取号)抽出,按某种顺序(字母或数字顺序)重新加以组织后得到的特征标识文档。
信息检索名词解释
信息检索名词解释信息检索(Information retrieval,IR)是指从大规模数据集中找出与用户需求相关的信息的过程。
以下是一些与信息检索相关的重要名词解释:1. 文档(Document):信息检索中的基本单位,可以是文本、图片、音频、视频等形式的数据。
2. 查询(Query):用户提出的一个或多个关键词或短语,用于描述其信息需求。
3. 检索(Retrieval):在信息检索系统中,通过匹配查询和文档之间的相关性,找出最相关的文档。
4. 相关性(Relevance):衡量查询和文档之间匹配程度的度量,用于判断文档是否与查询相关。
5. 评价(Evaluation):对信息检索系统性能进行定量和定性评估的过程,通常通过与人工判定相关性的比较来衡量。
6. 召回率(Recall):信息检索系统检索到的相关文档数占所有相关文档数的比例,衡量系统的查全性能。
7. 精确率(Precision):信息检索系统检索到的相关文档数占所有检索到的文档数的比例,衡量系统的查准性能。
8. F-度量(F-Measure):综合考虑召回率和精确率的度量指标,通过调和平均计算,可以较好地衡量系统的全面性和准确性。
9. 布尔模型(Boolean model):一种基本的信息检索模型,根据查询中的布尔运算符(AND、OR、NOT)对文档进行匹配。
10. 向量空间模型(Vector space model):一种常用的信息检索模型,将文档和查询表示为向量,在向量空间中计算它们之间的相似度。
11. 词语权重(Term weight):表示一个词语在文档中的重要性的权重,常用的计算方法有词频、逆文档频率等。
12. 倒排索引(Inverted index):一种常用的索引结构,以词语为关键字,记录词语出现在哪些文档中,加快检索速度。
13. 停用词(Stop word):在信息检索中,指那些对判定一个文档是否与查询相关没有帮助的常见词语,如“a”、“and”、“the”等。
第三节课 第二章 文献检索原理与方法
思考题
1.《中国图书法》(简称《中图法》)将图书分为() A. 5大部类,22个大类 B. 5大部类,26个大类 C. 6大部类,22个大类 D. 6大部类,26个大类 2.《中国图书法》(简称《中图法》)是我国常用的分类法,要 检索农业方面的图书,需要在( )类目下查找。 A. S类目 B. Q类目 C. T类目 D. R类目
第一步,《全国新书目》的新书是安排在"新书视窗"专栏,在 2000年第3期《全国新书目》的目录中寻找到"新书视窗"专栏, 在第41~77页。 第二步,在第41~77页的"新书视窗"专栏里,我们可以看到, 该专栏是按照出版社的顺序排列的。高等教育出版社在第45页, 广东经济出版社第46页,教育科学出版社在第52页。 第三步,在第45、46、52页,你可以看到这几个出版社最 近所出版的新书目录。 如广东经济出版社的目录中有以下记载: 知识经济与改革创新 黄铁苗主编 2000 20cm 25.00元 本书围绕改革开放中的热点、难点问题进行探索,具体内容 包括:所有制问财政金融问题、农村经济问题、就业问题、地方 经济问题和其他问题。
2.检索工具-类型
目录 (bibliography,catalogue) 文摘(abstract) 索引(index)
2.1 目录
目录是一批相关文献信息的著录集合,是以报道文献 出版信息为主要功能的工具。 特点:以单位出版物为著录对象,反映馆藏情况,主 要揭示文献外部特征 目录的著录项目:出版名称、责任者、出版项和稽核 项 目录的类型:《全国总书目》《全国新书目》《全国 西文期刊联合目录》
主题词法与分类法的比较
主题词法 分类法
信息检索
信息检索1.信息检索的概念。
狭义信息检索是指用户找出有关信息的过程。
广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。
当前三分方法:文本检索、音频与视频检索、数值检索。
(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。
实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。
一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。
二、需求集合:用户的信息需求是在社会实践活动中产生的。
当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。
三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。
5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。
信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR问题是主流。
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
信息检索概述
目前,我国各大文献数据库《中国 科学引文数据库》、《中国学术期刊 综合评价数据库》以及数字化图书馆、 中国期刊网等都要求学术论文按《中 图法》标注中图分类号。
(2) 主题语言
主题语言是指以自然语言的字符为字 符,以名词术语为基本词汇,用一组名 词术语作为检索标识的一类检索语言。 主题语言表达的概念比较准确,具有较 好的直观性、灵活性和专指性,满足用 户从主题概念角度检索新兴专业学科、 交叉学科文献信息的要求。
本校图书馆主页——可查中图分类号
TM 电工技术 TM0 一般性问题 TM1 电工基础理论 TM2 电工材料 TM3 电机 TM4 变压器、变流器及电抗器 TM5 电器
TM6 发电、发电厂 TM7 输配电工程、电力网及电力 系统 TM8 高电压技术 TM91 独立电源技术(直接发电) TM92 电气化、电能应用 TM93 电气测量技术及仪器
第二章信息检索概述
2.1信息检索的涵义
信息检索的概念有狭义和广义之分。
狭义的信息检索(Information Retrieval) 是指依据一定的方法,从已经组织好的大量有关文 献集合中,查找并获取特定的相关文献的过程。这 里的文献集合,不是通常所指的文献本身,而是关 于文献的信息或文献的线索。如果真正要获取文献 中所记录的信息,那么还要依据检索所取得的文献 线索索取原文。
以知识属性来描述和表达信息内容的信 息处理方法称为分类法。《国际专利分 类表》、《中国图书馆分类法》等。
中国图书馆分类法简表(第四版)
A
马克思主义、列宁主义、 毛泽东思想、邓小平理论
B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 TB 一般工业技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索的概念
信息检索的概念
信息检索是指通过计算机技术和信息学方法,从大量的文本、图像、
音频等数据中,按照用户需求进行全文搜索和过滤,获取与需求相关
的信息的过程。
它是一种通过计算机技术实现对大量文本信息进行搜
索和管理的方法,是人们在海量信息中寻找所需信息的重要工具。
一、信息检索的基本概念
1.1 信息检索系统
信息检索系统是指利用计算机技术和各种数据库,为用户提供全面、
准确、及时的文献资料查询服务。
它包括用户接口、数据库管理系统、检索引擎等组成部分。
1.2 检索词
检索词是指用于描述所要查找的主题或内容的关键词。
它可以是单个
单词或短语,并且必须与所要查找的主题或内容相关。
1.3 查询语言
查询语言是指用户在进行搜索时使用的语言。
它可以是自然语言,也
可以是专业性较强的查询语言。
1.4 检索结果
检索结果是指根据用户输入的关键词,在数据库中查找到与之相关联
文献资料,并将其按照一定顺序呈现给用户。
二、信息检索技术
2.1 文本检索技术
文本检索技术是信息检索中最常用的一种技术。
它通过对文本内容进
行分析和处理,提取关键词并建立索引,实现全文搜索和过滤。
2.2 图像检索技术
图像检索技术是指通过计算机视觉和图像处理技术,对图像进行分析
和处理,提取特征信息,并建立相应的索引,实现图像的搜索和管理。
2.3 音频检索技术
音频检索技术是指通过数字信号处理、模式识别等方法对音频进行分
析和处理,提取特征信息,并建立相应的索引,实现音频的搜索和管理。
三、信息检索系统的构成
3.1 用户接口
用户接口是指用户与信息检索系统之间进行交互的界面。
它可以是命
令行界面、图形用户界面或Web界面等形式。
3.2 数据库管理系统
数据库管理系统是指用于存储、管理和维护各种文献资料数据库的软
件系统。
它包括数据库设计、数据存储、数据访问等功能模块。
3.3 检索引擎
检索引擎是信息检索系统中最核心的部分。
它负责将用户输入的查询
语句转换为机器可识别的语言,并在数据库中查找相关文献资料,最
终将检索结果呈现给用户。
3.4 索引库
索引库是指用于存储各种文献资料的索引信息的数据库。
它包括关键词、文档编号、出现位置等信息。
四、信息检索系统的应用
4.1 学术研究
信息检索系统在学术研究中有着广泛的应用。
它可以帮助学者快速获
取所需文献资料,并对其进行分析和处理,提高学术研究效率和质量。
4.2 商业应用
信息检索系统在商业领域中也有着重要的应用。
它可以帮助企业快速
获取市场信息、竞争情报等,并根据这些信息制定相应的营销策略和
决策。
4.3 社会服务
信息检索系统还可以为社会提供各种服务。
例如,医学领域中的诊断
支持系统、法律领域中的法律案例检索系统等。
五、总结
通过以上内容可以看出,信息检索是一种非常重要的技术和工具。
它
通过计算机技术和信息学方法,实现对大量文本、图像、音频等数据
进行搜索和管理,为人们获取所需信息提供了便利。
同时,信息检索
系统也有着广泛的应用领域,包括学术研究、商业应用和社会服务等。