信息检索知识
信息检索的基本知识
⑵信息检索系统的类型 〔续〕
④索引型检索系统: 索引是根据一定的需要,把特定范围内的
某些重要文献中的有关款目或知识单元,书 名、刊名、人名、地名、语词等,按照一 定的方法编排,并指明出处,为读者提供 文献线索的一种检索系统。
索引不仅广泛存在于各种书刊等文献 中,而且更多见于作为辅助检索系统而附 在不同类型的检索工具之后,为检索工具 提供了更多的检索途径。
信息的存储过程就是按照主题词表或 分类表及使用原那么对原始信息资源
一、信息检索原理〔续〕
2、信息检索系统〔续〕
一、信息检索原理〔续〕
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
2、信息检索系统〔续〕
按著录和标引方式划分 ④文摘型检索系统是以简练的文字将文献
资料的主要内容准确、扼要地摘录下来, 并按照一定的著录规那么和编排方式系统 地组织起来的检索 工具。 主要包括:报道性文摘
指示性文摘 如:美国的?化学文摘?英国的?科学文摘〉
中国的〈中国数学文摘〉〈海洋文摘〉
2、信息检索系统〔续〕
按著录和标引方式划分
⑤全文型检索系统 全文检索是指在文献资料的标题、目录、作
者、内容中检索 指定的字符串。 全文检索系统是指将文章 中所有的文字处理序列 都作为检索对象进行索引,并根据需要找出包含 有欲检索词的文献的系统。
作用:它能提供快捷的数据管理工具和数据 查询手段,帮助人们进行了大量文献数据的整理 和管理工作,使人们能够快速、方便地查到想要 的任何信息。
第二章 信息检索的根本知识
信息检索知识点
信息检索知识点信息检索是指从大规模的信息资源中,通过利用各种信息检索工具和技术,准确和高效地找到用户所需要的信息的过程。
信息检索技术在现代社会中扮演着重要的角色,它不仅广泛应用于互联网搜索引擎,还在图书馆、数据库、企业信息管理等领域发挥着重要作用。
本文将介绍信息检索的定义、关键概念和一些常用技术。
一、信息检索的定义和目标信息检索是指通过计算机等工具从大规模的信息资源中,按照用户的需求进行检索,提供相关性高、准确性好的信息结果。
它的目标是帮助用户快速地找到所需的信息,提升信息搜索效率和准确性。
二、关键概念1. 查询:用户提交的检索请求,通常由一系列关键词组成。
2. 检索词:查询中使用的关键字或关键词短语。
3. 检索结果:根据查询返回的与之相关的文档或信息。
4. 相关性:衡量检索结果与查询之间相关程度的指标,通常使用相关性排序算法进行排序。
5. 文档:信息资源的基本单位,可以是网页、文章、图片、音频等形式。
三、信息检索的主要技术1. 分词技术:将文本数据按照一定规则分割成有意义的词语,是信息检索的基础步骤。
2. 索引技术:将文档中的关键词与其所在位置进行索引,以提高检索效率和准确性。
3. 倒排索引:根据关键词构建索引表,记录关键词与文档之间的对应关系,常用于搜索引擎等场景。
4. 相似度计算:根据查询和文档的相似性,为检索结果进行排序。
5. 结果评估:通过评估检索结果的质量,改进检索算法和模型。
四、常用的信息检索模型1. 布尔模型:将查询和文档转化为布尔表达式,按照布尔运算进行检索。
2. 向量空间模型:用向量表示文档和查询,通过计算向量之间的相似度进行检索。
3. 概率检索模型:基于统计方法,利用概率模型进行信息检索。
五、信息检索的挑战和发展方向1. 大规模数据处理和存储:随着互联网的快速发展,信息资源呈指数级增长,如何高效地处理和存储大规模的数据成为了一个挑战。
2. 多语言检索:不同语言的信息检索在跨语言信息检索中面临很大的难度和挑战。
第三章 信息检索的基本知识
1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
信息检索的基本知识
6
—信息检索的基本知识
检索的一般程序→选择检索工具 IV
引语工具书
引语工具书的重要词语索引是一类广泛汇集名言佳句的工具书,给出引语的上下 文和出处。一般按照作者、主题、时期编排,利用这一类工具书,可以核对某一 词语,以求准确引用;可以查明某一特定引语的出处等。
字典、词典
字典、词典按编撰目的可以分为语文词典、专科词典和综合性词典(百科词典)。 一般语文词典提供词语的拼写、读音、含义、用法等;专科词典则汇集不同学科 的词汇,有的侧重语文角度对各种术语给予简略的解释,有的则偏重知识角度; 综合性词典兼有语文词典和专科词典的功能,可称为百科词典,从这类词典中既 可以查到普通的语文字词,也可以查到人、地、事等百科性内容。
F4 工业经济 F74 国际贸易 F5 交通运输经济 F75 各国对外贸易 所谓“类”是指具有共同属性的事物的集合。一类事物除了具有共同属性外,还 F6 邮电经济 F76 商品学 有许多不同的属性,可以进行多次划分,因此在体系分类法中存在上位类、下位 F7 贸易经济 类、同位类的概念。类一般使用标记符号标识,包括字母、数字等。 F8 财政经济 F761 一般性著作 F762 农产品 体系分类法具有按学科或专业集中、系统地向人们揭示文献资料内容的功能,这 对与系统系统掌握和利用某一专业范围的文献非常有用。 F763 医疗用品 F764 重工业产品 F765 建筑器材
14
—信息检索的基本知识
检索的一般程序→获取原文 II
获取原文的途径
本单位图书情报部门。这是获取原文最方便的途径,要善于利用馆藏目录、如读 者目录有缺省,应利用公务目录、典藏目录等工具; 掌握国内主要的或对口的图书情报机构的馆藏信息。利用联合目录或网络,由近 及远的查找; 从著者处获取原文; 从检索刊物出版机构获取原文;
信息检索基础知识
TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找;2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息;3.为什么说信息存储和检索是两个不可分割的有机体检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的;存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较;检索过程是存储过程的逆过程;因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来;4.信息检索的方法1顺查法2倒查法3抽查法4追溯法5循环法5.信息检索的途径1内部特征途径a)分类途径b)主题途径2外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:1简单,形式简洁,易于理解;2 可操作性强,应用广泛;3 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;4 能处理结构化提问;缺点:1表达用户复杂需求效果欠佳2准确匹配无法提供定量比较3匹配标准不尽合理4检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的;8.什么是计算机信息检索所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程;实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合;9.计算机信息检索的类型:(1)根据检索系统的工作方式,可分为:a.脱机信息检索脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索;b.联机信息检索联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程;联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高;c.光盘信息检索d.网络信息检索(2)根据信息的服务方式,可分为:a.定题检索定题检索是用户根据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息;具有定期性、新颖性和批处理性的特点;b.回溯检索回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息;也可以查找最新的信息,可以适应多数用户的查询需要;c.日常检索10.计算机信息检索技术初级检索6个1)布尔逻辑检索2)位置限制检索3)短语检索4)截词检索5)字段限制检索6)区分大小写检索11.计算机信息检索技术高级检索6个1)加权检索2)自然语言检索3)相关信息反馈相似检索4)概念检索5)模糊检索6)聚类检索布尔逻辑检索(1)逻辑与用AND或表示检索式写作A AND B或A B(2)逻辑或用“OR”或“+”表示(3)逻辑非用NOT 或—表示 A NOT B A当中除去B所剩下的字段名称及缩写AB abstract TI title AU author JN journal nameLA language PY publication year SP source publication分类和聚类的异同相同点:基于“类”的思想进行检索;不同点:1分类基于分类法,其类目体系主要是先组式,有系统性的;类目与文献之间具有相对独立性;而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献决定;2从类目形成过程看,分类是总到分,聚类由分到总;会构建检索式主要是积木型12.计算机信息检索策略含义狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式;广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排;13.计算机信息检索策略类型即联机检索五原则(1)最专指面优先:从最专指的概念入手(2)最低登录量面优先(3)积木型重点掌握,会构建此检索式(4)引文珠型增长(5)逐次分馏14.网络信息资源的评价方法:(1) 定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评估,主要有指标体系法和调查表法;(2) 定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分析法等三种;(3) 综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合评价法等;(4) 分类方法:分为第三方评价法、用户评价法和网络计量法;15.搜索引擎的类型:(1) 按检索机制划分:检索型、目录型和混合型检索工具(2) 按检索内容划分:综合型、专题型和特殊型检索工具(3) 按包含检索工具数量划分:单独型和集合型检索工具(4) 按检索资料类型分:万维网检索工具和非万维网检索工具16.元搜索引擎的含义所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作;17.元搜索引擎的特点:(1) 虚拟索引数据库(2) 查全率高(3) 用户界面友好(4) 适宜二次加工(5) 扩展性好18.元搜索引擎的工作原理19.实现跨语言信息检索的方法:1提问式翻译方法2文献翻译方法唯一结果是源语言描述3提问式—文献翻译方法将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息; 检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键;4中间语种翻译方法5非翻译方法20.语义网的应用(1)Web服务(2)智能信息检索(3)基于语义的网页搜索引擎(4)企业数据管理收录论文的两个层次(1)Compendex数据;数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等;其中:分类码;主题词需要专业人员单独给出;(2)Page One数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘;不需要任何专业人员再做工作;数据和Page One数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex数据,反之是Page One数据;有没有主题词和分类号是判断论文是否被Compendex数据正式收录的唯一标志;23.主题指南按字母顺序列出与分类表中类目名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索文献的指南;便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码;科学引文索引的编制结构及检索方法(1)引文索引(2)来源索引(3)机构索引(4)轮排主题索引25.如何决定收录期刊的数量和种类1“加菲尔德文献集中定律”——确定适宜的期刊数量该定律认为:在几万种科技期刊中,最重要的期刊即核心期刊不过一千种,甚至可能还不足500;因而,把收录期刊的范围定在3000种以内,足以把重要的科技文献包括在内;2“费用—效果原则”——用来选择每一种期刊,具体方法是“引用频率统计法”先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高;通过上述两个指标决定了收录期刊的数量和种类26.什么是专利这种受法律保护的发明就称专利;含义:专利权——法律受专利法保护的发明创造——专利技术专利说明书等专利文献——文献这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体表现;27.什么是同族专利同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利;由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利;28.专利的类型(1)发明专利(2)实用新型专利(3)外观设计专利(4)植物性专利(5)防卫性专利知识产权:工业产权和着作产权29.学位论文的文献价值:(1)较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验方法到数据获取、分析结论论述翔实;(2)珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论文的使用者可以跟踪名校导师的科研进程;(3)综述性二次文献:对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,可得到课题研究现状综述;(4)写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研究方法,学习学位论文的写作方法;30.信息检索评价方法(1)测试文档集合法(2)人机交互(3)用户体验日志分析法(4)自然观察法31.召回率:R=检索出的相关文献量/ 数据库中的全部相关文献x100%准确率:P=检索出的相关文献量/ 检出的文献总量x100%32.平均准确率并会计算平均准确率是一个通过所有相关文献测定系统绩效的单值指标;如果检索系统能快速返回所需的相关文献,并对被检文献进行等级排序,则该系统的性能较好;平均准确率是求各个相关文献准确率的平均值;因此平均准确率的计算只考虑相关文献的数量,而与检出文献的总量无关;。
信息检索基本知识
T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。
信息检索基础知识
第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。
信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。
这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。
运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。
信息已成为与物质、能量同样重要的三大资源之一。
信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。
文献:将知识记录并保持在一定的载体上,就形成了文献。
文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。
2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。
信息检索基础知识
46
计算机信息检索系统工作流程
输入子系统——选择收集特定范围的信息资源、按系统 指定款式输入系统 处理子系统——处理加工经过鉴定、选择好的数据和信 息,使其成为易于存储和检索的形式。 存储子系统——将加工处理后的信息按某种规定有序聚 积在存储载体上以构成可检文档。 传输子系统——通过计算机与通信线路的连接,完成信 息编码的传递、转接、处理与接受。 输出子系统——根据用户需求有效输出各类最终信息产 品。 控制子系统——根据系统内外环境变化,适时调控,保 障系统的有效输入、有效存储、有效输出等环节的协调 运行。
16
三、计算机信息检索系统 2、计算机信息检索系统的类型
计算机单机信息检索系统(20世纪50年代 初——60年代中期) 计算机联机信息检索系统( 20世纪60年 代中——70年代中期) 计算机光盘信息检索系统( 20世纪70年 代中——80年代中期) 计算机网络信息检索系统( 20世纪80年
(期).页码
10
二、手工信息检索系统
5、几种常用的手工信息检索工具 《中国农业文摘》: 81年创刊、85年起分7个分册 刊期、类型:双月刊、文摘型 检索途径:分类、主题、著者 著录格式:分类号 顺序号 题目 /作者
// 刊名, -年,卷(期). -页码 文摘正 文…… 图x 表x 参x (文摘员)
23
一、信息检索语言概述
信息检索语言是人们在加工、存储
及检索信息时所使用的标识符号; 信息检索语言是索引款目所使用的 标识系统; 信息检索语言可以是对自然语言作 规范化处理后的词汇与技术语言, 也可以是某类事物及其某方面特征 的代码。
24
二、信息检索语言的基本类型
1、按构成原理分:
信息检索基本知识
查全率=—— x w 查准率=—— m
w
漏检率=1-查全率 误检率=1-查准率
如果x与m完全吻合,或者说检索工具 中所存储的有关某一课题的文献全部被 检出,这是最理想的。然而在实际上往 往达不到这个指标,而总是有一定误差 的。
五 检索途径与检索方法 一般说,所有文献的特征可分两 大类:外表特征(题名、著者、序号等) 和内容特征(分类、主题、关键词)。 所以文献检索的途径也分成两个方面。
思考题 1. 简述对信息和文献的理解。 简述对信息和文献的理解。 2. 文献的出版类型有哪些? 文献的出版类型有哪些? 3. 比较文献载体的优缺点。 比较文献载体的优缺点。 4. 一次文献、二次文献和三次文献有何 一次文献、 区别? 区别? 5. 谈谈电子信息源。 谈谈电子信息源。
6. 信息检索及其种类有哪些? 信息检索及其种类有哪些? 7. 常用的检索工具有哪些? 常用的检索工具有哪些? 8. 谈谈检索效率的评价标准。 谈谈检索效率的评价标准。 9. 简述检索途径与检索方法。 简述检索途径与检索方法。 10. 检索的一般程序步骤有哪些? 检索的一般程序步骤有哪些? 11. 何谓音译? 何谓音译?
(2) 常用法 : 利用检索工具来查找
文献的方法。它又可分为倒查法和顺查法. 倒查,就是由近及远地逆时间查找.它的 倒查 重点是放在近期文献,只需查到基本满足要 求时间为止. 顺查, 顺查,就是由远及近地顺时间查找。例 如,已知某项发明的产生年代,现在需要了 解它发展的全过程,就可以运用顺查法从最 初的年代开始,逐步往近期查找。
第一章 信息检索基本知识
第一节 信息与文献概述 一、信息的概念 二、信息的类型与特征 三、各种信息源及其特征 1 文献信息源 2 电子信息源 3 实物信息源 4 口头信息源
信息检索知识
tumor(瘤)or carcinoma(癌) or neoplasm (新生物)。
A OR B
8
逻辑“非” NOT/检索式“A not B”表示包含检索词A同时不包 含检索词B的文献为命中文献。 如:查“动物的乙肝病毒(不要人的)”的文献 的检索式为hepatitis B virus(乙肝病毒)
not human(人类)。
A NOT B
9
邻近度算符 With 检索式“A with B”表示检索词A和检索词B 不仅要同时出现在一条记录中,还要同时出现 在一个字段里的文献才是命中文献. 如:“drug with abuse”检索出的是同一个字 段中同时出现这两个词的记录。
10
邻近度算符Near
Willian Henry Harrison →Harrison W H 姓前有前缀M’、Mc、Mac,在索引中一律按Mac的字顺排 在一起 姓前带 冠词 De、Della、Des、La、Van、Vanden、Von 与姓名字顺一起排列; 有等级制称号的著者排在无等级制称号的著者之后,先排 Johs W 后排Johs W jr 音译中国人著者-按汉语拼音著录;俄国人-按英俄文音译 对照表;日本人-按黑本氏英日文音译对照表对译。 学术团体,企业单位等名称按原名著录,并加国名以示区 别。
33
主题词检索
34
检索步骤: 1、点击[主题词]按钮 2、输入检索词(中文或外文),点击[浏览]按钮 3、选中所要检索的主题词,点击[主题词注释]按钮之后, 可对该词进行不扩展、扩展、加权检索及树状结构选择 4、点击[检索]按钮,选择相应的副主题词与主题词进行组 配检索
35
索引词检索
36
检索步骤: 1、点击索引词[浏览] 2、输入检索词,点击[浏览]按钮 3、通过浏览选择检索词,点击[检索]按钮 备注: 检索多个索引词时,使用[加入列表]、 [浏览列 表]和[检索列表] 按钮
信息检索知识点
计算机检索1.信息素养信息素质、信息能力:作为具有ILinformation literacy能力的人;必须能够充分地认识到何时需要信息;并有能力去有效地发现、检索、评价和利用所需要的信息;从而具有终身学习的能力;总能够为任何任务和决策找到所需信息..2.信息检索广义:指将信息按照一定的方式组织和存储起来;并根据信息用户的需要找出有关信息的过程和技术..包括存储和检索两个过程..狭义:从信息集合中找出所需信息的过程..信息查找Information Search;Information Seeking2.1信息现状分析1信息爆炸导致文献量急剧增加;内容相互渗透;语种增多;文献分布异常分散;文献寿命愈来愈段;2由于条件限制;人们吸收和利用信息的能力并未得到相应的提高.. 3.检索的作用1促进智力资源的开发;2协助管理者做出正确的决策;3帮助科研人员借鉴前人的研究成果;避免重复劳动;4信息检索是知识更新的手段..4.数据库类型1:作为图书馆数字资源的数据库特指为科学、教学、学习所需各种参考资料的集合;以数据库的形式管理和利用..自建数据库:馆藏目录OPAC;本校学位论文数据库..商业性数据库:数据库商、出版商和其他机构以商业化方式提供的各种电子资源;图书馆需要支付一定的费用购买数据库的使用权再提供给一定的读者群..免费数据库:开放获取资源、机构典藏和其他免费的网络资源..5.数据库类型2从收录文献的内容分;有综合性数据库和专业性数据库之分;从收录文献的类型分;有图书数据库、期刊数据库、学位论文数据库、报纸数据库、会议文献数据库、专利文献数据库、标准数据库等;从提供文献的形式分;有全文数据库、文摘数据库、引文数据库;各数据库举例:专业数据库:Petroleum AbstractPA、EnCSciFinder SchoiarCA综合性数据库:读秀、Scopus、EI、SCI特定文献类型;如图书、期刊、学位论文等:超星、EIsevier ScienceDirect、PQDT全文数据库:CNKI、维普、SPE摘要性数据库:EI、PA引文数据库:Web of Science、CSSCI中文社会科学引文索引6.Science Citation Index ExpandedSCI-E是个什么样的数据库它是ISI检索平台中Web of Science核心合集中的一个子库它是一个摘要型数据库它是一个引文数据库它是一个期刊数据库它收录的学科范围包括科学、技术的各学科7.查文献应该如何选择数据库学科专业:有专业型数据库时;首选专业型数据库;数据量:选择数据量大的;文献类型:根据研究的需要..如果仅需要某种文献;最好选择该类型的子库;检索功能:准确性高、易用、检索结果的处理能力;分析功能第三章信息资源的分类8.信息存贮载体:印刷型、缩微型、声像型、机读型9.根据加工程度划分零次文献:口头信息、未公开发表的文字资料手稿、书信、笔记等;时效性强;大量而无序;一次文献:期刊论文、专利文献、科技报告、会议录等;研究人员最终索取的文献;二次文献:检索工具:如SCI、EI、CA、PubMed/Medline三次文献:选用大量有关的文章;经过综合、分析、研究而编写出来的文献;如:综述、评论、评述、进展、动态等;研究人员最终需要的文献..科研人员与科学信息的获取和利用:研究人员的文献平台可以由二次文献作为入口;满足整体的需求;然后;通过这个入口来获取有用的高质量的全文期刊一、三次文献来满足纵深对的研究需要..10.根据文献编辑出版的特征和范围划分11科技图书BooksMonograph;Anthology;Textbook;Reference book:内容系统成熟可靠;新颖性较差;学习;教育之用..2科技期刊 Periodical Journal;magazine;serial:数量大;覆盖面广;内容新颖;及时;交流;影响广泛;信息价值高..3报纸Newspaper:出版周期更短;获取实事性、政策性信息..4政府出版物Government Publications:源自官方、权威、可靠、价廉;可获取政策性、法规性及科技信息..5科技报告Sci/Tech Report:反映前沿科技、内容新颖、有密级控制..如:美国政府四大科技报告:PB;AD;NASA;DOE报告..6专利文献Patent Document;Patentspecification/bulletin/aids:类型有:专利说明书、专利公报、专利分类表、专利文摘等检索工具..反映新的技术发明;是重要的技术、经济信息源..7会议文献Conference paper;Proceedings:会议论文集;回忆录;会议资料等;反映最新成果;最新动向;高水平;前沿发展动态..8学位论文Dissertations\Thesis;内容专深;非卖品;有较高学术参考价值..9标准文献Standards:反映成熟技术;掌握技术政策;技术水平;可供研究新产品;改造老产品;改进工艺和操作水平是借鉴..10产品资料:形象、直观、新颖、可了解工业水平、产品发展、市场动态等..11广告Advertisement:可及时把握竞争对手最新推出的产品品种;市场卖点..准确掌握个地区市场的广告竞争态势..12技术档案和图纸:技术性;适用性;保密性..11.检索语言:根据检索需求而编制的检索系统存储与检索共同使用的人工约定语言..分类:体系分类语言、标题词语言、关键词语言、叙词语言.. 12.检索途径:又称检索点;指利用信息的各种内外特征;作为检索出发点;从不同角度来检索信息..有:分类Classified:所属学科分类主题Subject:所属主题内容、关键词着者Author:团体着者Corporate Author名称;题目Title代码Code13.基本运算符1逻辑算符“与”:and 或例:telecommut and productiv逻辑算符“或”:or 或 +例:computer or microcomputer逻辑算符“非”:not 或—例:aspartame not beverage14.基本运算符2:截词符用于解决一些词干相同、词义相近、但词尾或词头不一致的派生词如有同一词根派生出的名词、动名词、动词、形容词、副词等;或名词的单、复数形式;或痛一次的英美不同拼写形式等词的一次输入..PQD平台的截词符用、和$表示..截词符 Nurse —nursed/nurses ad—added/adult/adopt用于替换某个字词中间或结尾的任何一个字符;不能代表没有字符..截词符 control—control/controlled/controlling 代替0-10个字符截词符$ $5beat—Upbeat/offbeat/heartbeat 限定截词符用$n表示;代替0-n个字符..15.基本运算符3:位置算符P/n、N/n用于限定词与词之间的位置关系;以提高查准率..当检索词为词组形式时;或两个检索词之间可能被禁用词或标点符号隔开时;均应使用位置算符..P/0 两个单词中间有一个空格或一个字符;在文献中出现的前后位置不能互换..Polar P/0 embedded可检索到:polar-embedded或polar embedded P/1 两个单词中间可能有0-1个单词;在文献中出现的前后位置不能互换..位置算符P/n与位置算符N/n的用法近似;区别在于前后单词是可以互换的..16.PQD检索词自动匹配在PQD中检索时;系统会自动匹配单词的单复数;英美拼写变体;形容词比较级最高级等形式..17.短语检索:“”双引号检索短语在PQD中可把短语放在引号内进行精确短语检索;但这种检索方式不能自动匹配..在PQD中;空格默认为逻辑算符and..18.字段检索格式:字段名检索词或检索式AUsmithand TIfood:检索标题含有food;作者含有smith的文章..多个字段检索时;字段与字段之间用逗号隔开AB;TIfood:检索标题含有food或者摘要含有food的文档..PQD中;检索式常用限制字段为TI;AB;SU;IF..PQD中的主题词SU字段是系统标引的独立字段..19.检索策略:指为实现检索目标而制定的检索计划和方案..检索式是检索策略的具体体现;是指计算机检索中用来表达用户检索提问的逻辑表达式;通常由检索词和各种逻辑算符、截词符、位置算符以及系统规定的其他连接符号等构成..20.检索的基本步骤1分析检索课题;明确检索要求;确定检索的主题内容、范围等2确定检索概念3选择表达概念的检索词选择所有不同的能够表达检索概念的词使用截词检索各种词尾变化的词使用位置算符指定词组或词间的相对位置关系4)使用逻辑算符组配检索概念;拟定检索表达式5)选择恰当的数据库6)上机检索21.获取全文的方法全文链接按钮、全文数据库、馆际互借、图书馆文献传递、免费全文网站、提供免费全文的期刊;作者E-mail联系或作者主页..22.检索策略的优化方法1扩大命中文献量的方法1选择其他同义词、相关词、上位词2去掉一个不太重要的检索信息3将限制严谨的位置算符改为较宽松的位置算符;或通过and算符代替位置算符4取消某些限制过严的后缀符、限制符等5增加检索途径;将主题途径与非主题途径结合起来使用 6利用截词技术;检索所有相同词干的词7用E指令扩词以核实拼写8选择其他数据库进行检索23.检索策略的优化方法2缩小命中文献量的方法1提高检索式的专指度;增加或换用下位词和专指度较强的词2增加一个检索概念3将检索式中的and算符改为位置算符;或将较宽松的位置算符改为更严谨的位置算符4使用后缀限制;将检索词限制在基本索引的“重要”字段中;如规范词字段或题目字段5用辅助索引的某些字段与主题索引组结合限制检索范围6截词使用不当24.三大检索系统概况SCIScience Citation IndexSCI-EScience Citation Index Expanded科学引文索引SSCISocial Science Citation Index社会科学引文索引A & HCIArts & Humanities Citation Index艺术与人文引文索引CPCIConference Proceedings Citation IndexCPCI-SConference Proceedings Citation Index-Science科学会议CPCI-SSHConference Proceedings Citation Index-Social Science Citation Index社会科学与人文艺术会议EIThe Engineering Index工程索引25.三大检索系统收录质量区别SCI最能反映基础学科研究水平和论文质量检索系统收录的科技期刊比较全面集中各学科高质量优秀论文的精粹成为世界科技密切注视的中心和焦点CPCI、EI这两个检索系统评定科技论文和科技期刊的质量标准相对要宽松CPCI是一种综合性的科技会议文献检索刊物;该检索工具收录包括自然科学、技术科学以及历史与哲学等;覆盖的学科范围广;收录会议文献齐全;而且检索途径多;出版速度快..易成为了检索全世界正式出版的会议文献的主要的和权威的工具..26.临近算符NEAR/x :NEAR代表所链接的两个词之间的词语数量小于等于N;默认的使用Near的缺省值是15..SAME:要求两个检索词是在一个检索字段中..Yale SAME hosp27.利用WOS强大的分析功能Web of Science数据库中可以对检索结果按照以下方式进行研究:按照作者分析:了解某个研究的核心研究人员是谁;按照国际和地区分析:了解核心研究国是哪里;按照文件类型分析:了解该研究通常以什么途径发表;按照机构名称分析:了解有哪些机构在从事这项研究;按照语种分析:了解该研究是以什么语种发表的;按照出版年分析:了解该研究的发展趋势;按照期刊标题分析:了解该研究通常发表在哪些期刊上;按照学科分类分析:了解该研究设计了哪些研究领域..28.检索方式选择EI Compendex Web的主要检索方式有三种:快速检索Quick Search——系统默认界面专家检索Expert Search词表检索Thesaurus Search此外;还有浏览检索Browse Indexes等其它辅助检索工具..29.检索表达式的构造逻辑运算符AND;OR;NOT:逻辑运算符的运算优先级别相同;自左向右..字段限制符wn 字段码:window wn TI AND sapphire wn TI短语检索“检索短语”或者 {检索短语}截词运算符词根检索$:$management 可查 manage;managed;manager; Managers;managing等..30.浏览索引浏览索引可帮助用户选择合适的检索词;在快速检索和专家检索中都提供浏览索引功能;在快速检索中有作者、作者单位、刊名、出版社和Ei受控次的浏览索引;在专家检索中还增加了论文类型、文献类型和语言的浏览索引..由于Ei Compendex 以不同的格式引用作者的姓名;所以特别建议用户在检索时使用作者浏览索引..31.结果浏览可以在结果浏览中浏览命中记录的文摘信息Abstract—系统默认格式和详细信息Detailed Record可以改变记录的排列顺序可以获取记录的全文和链接图书馆馆藏可以进行组合检索可以回顾检索历史、保存检索策略、保存检索结果、通过E-mail发送最新文献的点子通告等32.小结Ei Conpendex使用的平台是Engineering Village;uong检索收录或文献时;注意选库..Ei用于检索工程领域的二次文献..检索方法有快速检索、专家检索和词表检索;建议初学者采用快速检索的方法..注意采用该数据库特有的浏览器索引功能;可使检索结果更准、更全..33.专利类型发明专利:是指对产品、方法或其改进所提出的新的技术方案..实用新型专利:是指对产品的形状、构造或其结合多提出的适于使用的新技术方案..外观设计专利:是指对产品的形状、团或者其结合以及色彩与形状、图案的结合所做出的富有美感并适于工业应用的新设计..34.专利的特点专有性:是指专利权人对其发明创造所享有的独占的制造、使用、销售和进口的权利..地域性:一个人/国家依照其本国专利法授予的专利;在该国法律管辖的范围内有效;对其他国家没有任何约束力;外国对其专利权不承担保护义务..时效性:对于专利的保护期限;各国的规定不尽相同..我国专利法规定:发明专利、实用新型专利以及外观设计专利的保护期限自申请日起分别为20年、10年、10年..。
《信息检索基础知识》课件
03
信息检索系统
信息检索系统的构成
信息检索系统由信息源、信息组织与 检索方式、信息检索工具、用户界面
和信息利用等部分构成。
信息源是信息检索系统的物质基础, 包括各种类型的文献、网页、社交媒
体等。
信息组织与检索方式是信息检索系统 的核心,通过关键词、分类、主题等 方式对信息进行组织和检索。
信息检索工具是信息检索系统的手段 ,包括搜索引擎、数据库、图书馆等 。
05
信息检索的未来发展
信息检索技术的发展趋势
语义理解技术
随着自然语言处理技术的不断进步,信息检 索将更加注重对用户查询的语义理解,以提 高检索的准确性和相关性。
个性化检索
个性化检索技术将更加成熟,能够根据用户 的兴趣、偏好和行为习惯,为用户提供更加 精准和个性化的检索结果。
多模态检索
多模态检索技术将实现文本、图像、音频和 视频等多种媒体信息的融合检索,满足用户 对多媒体信息检索的需求。
自然语言处理
自然语言处理是信息检索中不可或缺的技术之一,它利用计算机对自然语言文本进行分析和处理,以 实现自然语言文本的自动识别和机器理解。
自然语言处理技术包括分词、词性标注、句法分析、语义分析等,这些技术能够将自然语言文本转换为 计算机可识别的格式,以便进行后续的信息检索和文本挖掘。
自然语言处理技术的应用范围广泛,例如在搜索引擎中实现自动纠错、自动完成、智能推荐等功能,以 及在智能客服中实现自动问答、智能回复等功能。
源。
网络信息检索阶段
随着计算机技术的发展,人们开始利用计算 机进行信息检索,出现了各种基于计算机技 术的检索工具和数据库。
智能信息检索阶段
随着人工智能技术的发展,智能信息检索逐 渐成为新的发展趋势,它能够更加智能地理 解用户需求,提供更加精准的信息服务。
信息检索基本知识
第三节 信息检索与检索系统
第三节信息检索与检索系统
• 1、信息检索 • 2、检索系统 • 3、检索系统的组织
1. 信息检索
• 信息检索(Iformation Retrieval):将信息按一 定的方式组织和存储起来,并根据信息用户的需 要找出有关的信息的过程和技术。
了解用户的 信息需求
如何提高查全率?
• • • • • 1.优先使用最简单常用的主题词; 2.逐渐减少不重要的检索词; 3.加用多个等同词,用“或”(OR、|)语法; 4.换用上位词; 5.增加检索途径
如何提高查准率?
• • • • • 1. 换用专指性更强的主题词; 2. 逐渐加用主题词; 3. 加用辅助词; 4. 利用词和网页的外部特征限制输出结果; 5. 观察不相关检索结果的特征,使用“减”(-) 语法排除; • 6. 使用下位词
信息检索 的技术或 方法
满足信息 用户的需 求
1.2、信息检索的对象-----你找谁?
文献
• 包括题录、文摘和全文。
数据 事实
• 数值或数据(包括数据、 图表、公式等)
• 某一客观事实为检索对 象,查找某一事物发生 的时间、地点及过程
信息检索的起源
• 信息检索起源于图书馆的参考咨询和文摘索引工 作。
按检索性质区分
• 定题检索:查找有关特定主题最新信息的检索, 又称为SDI检索。
▫ 特点是:只检索最新的信息,时间跨度小。
• 回溯检索:查找一段时期内有关特定主题信息的 检索,也称为追溯检索。
二、信息检索类型
• 按检索的信息形式区分
▫ 文本检索:查找含有特定信息的文本文献的检索, 其结果以文本形式反映特定信息. ▫ 多媒体检索:查找含有特定信息的多媒体文献的检 索,其结果以多媒体形式反映。
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
信息检索的基本知识
信息检索的基本知识
信息检索是一种重要的技术,它用于从大量的数据中提取所需信息。
以下是一些信息检索的基本知识:
•索引:信息检索的首要步骤是构建索引。
索引是一个按关键字组织的数据结构,用于快速定位和访问文档。
•关键字:关键字是进行信息检索的基本单位。
它们可以是单个词或短语,根据检索目的和搜索引擎的功能来确定。
•搜索引擎:搜索引擎是信息检索的核心工具。
它利用索引和算法来找到与用户查询相关的文档,并按相关性排序。
•查询:用户通过查询向搜索引擎提供信息需求。
查询可以是简单的关键字、短语,也可以是复杂的语句。
•相关性:搜索引擎根据文档与查询的匹配程度计算相关性。
相关性分数用于确定排名,从而决定返回给用户的搜索结果顺序。
除了以上基本知识,信息检索还涉及更多高级技术:
•倒排索引:倒排索引是一种常用的索引结构,它将关键字映射到包含这些关键字的文档列表中,以支持快速的搜索。
•词频和权重:搜索引擎通常根据关键字在文档中出现的频率和位置,以及其他因素来计算关键字的权重。
•自然语言处理:信息检索利用自然语言处理技术来理解用户查询和文档内容,以提高搜索效果。
•评估和优化:为了提供更好的搜索结果,搜索引擎需要不断评估和优化算法,以适应不断变化的用户需求和文档集合。
总结起来,信息检索是一门复杂而关键的技术,它在数字化时代具有重要意义。
了解信息检索的基本知识对于学习和使用搜索引擎、开发相关应用都非常有帮助。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
幻灯片1第一章概论●1.1文献与信息的产生及作用●文献的含义:记录有知识的一切载体。
●(1)知识内容(2)物质载体(3)记录符号(4)记录手段幻灯片21.2文献的类型特点1、按文献的出版类型来划分图书、连续出版物、会议文献、专利文献、学位论文、科技报告、政府出版物、标准文献、产品样本、技术档案幻灯片3●1.2.1按文献的加工深度来划分●零次文献、一次文献、二次文献、三次文献幻灯片41.3网络与图书馆1.3.1网络1.3.2网络信息资源1.3.3数字图书馆幻灯片51.4大学生信息素养教育1.4.1概念1.4.2信息素养的评价1.4.3信息素养教育幻灯片6第2章信息检索基本理论●2.1.1信息检索定义●广义的信息检索(I n f o r m a t i o n R e t r i e v a l)●是指将信息按一定的方式组织和存储起来,并根据信息用户的需求找出所需信息的过程和技术。
●包括信息的存储(S t o r a g e)和检索(R e t r i e v a l)两个过程。
幻灯片7● 2.1.2 信息检索原理● 2.1.3 信息检索的类型幻灯片82.2 检索语言●2.2.1定义与作用●2.2.2检索语言的分类●根据描述信息的特征划分:●描述信息内容特征的语言●主要有主题语言、分类语言和代码语言●《中图法》:五大部类,22个基本大类。
●描述信息外部特征的语言●主要有题名、责任者、编号、机构名称和引文等幻灯片9● 2.3 检索工具●检索工具的定义●检索工具的类型●线索型检索(检索类)工具书●参考型检索工具书●SCI(科学引文索引)、SSCI、CSCI、CSSCI幻灯片102.4计算机检索系统● 2.4.4 计算机检索技术(掌握各种技术对查全率、查准率的影响)●布尔逻辑算符:AND ;OR; NOT●(NOT算符的作用是剔除某个概念)●位置算符●截词检索●字段限制检索●精确与模糊检索●短语检索:通过双引号来实现●加权检索幻灯片11● 2.5 信息需求与表达● 2.6 信息获取的影响因素● 2.6.6 检索效果的评价●查全率:指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。
查全率R=检出相关信息量/系统中相关信息总量×100%查准率:指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的的尺度。
查准率P=检出相关信息量/检出信息总量×100%幻灯片12查全率与查准率间的关系有研究认为:在物理、技术科学信息检索范围内,P提高1%将导致R降低3%。
在现代科技信息检索系统中,一般R为60-70%,P为40-50%。
有研究认为:在物理、技术科学信息检索范围内,P提高1%将导致R降低3%。
在现代科技信息检索系统中,一般R为60-70%,P为40-50%。
幻灯片132.7检索的组织与实施● 2.7.1 分析课题,制定检索方案●找出课题所涉及的主要内容和相关内容,从而形成主要概念和次要概念,选取主题词。
●明确课题需要的文献类型。
在检索工具中收录了来自各种不同类型的文献信息,课题性质不同,所需要的文献类型也不同。
●确定检索的时间范围。
每一项理论或技术都有其发生、发展和形成的过程。
为避免浪费时间和精力,检索时应根据研究课题的背景确定检索的时间范围。
时刻关注相关学科的最新动态。
●课题需要的主语种。
●了解课题对查新、查准、查全诸方面有无具体要求。
幻灯片14● 2.7.2 选择检索工具● 2.7.3 确定检索标识●应尽量选用规范化词●选用本学科具有检索意义的关键词或自由词●关键词(自由词)检索,这时还应选取该词的同义词、近义词、狭义词、分子式、分类号、登记号、专利号、化学物质俗名、商品名等,使用多个词试检●规范词或代码的选择需利用词表或分类表进行自然语言到规范语言的转换幻灯片15● 2.7.4 选择检索途径●分类途径:是利用目次表分类索引进行的检索,关键是确定类目或分●类号。
●主题途径:是利用主题索引进行的检索,关键是确定主题词或关键词。
●篇名途径:是根据书刊篇名进行查找的一条途径。
●著者途径:是利用著者索引进行的检索,包括个人著者和团体著者。
●注意外国与中国著者书写上的区别。
●序号途径:是利用代码索引进行的检索。
常见的号码索引:ISBN号、●索书号、ISSN号、专利号、入藏号、报告号、标准编号等。
●其他途径:有些检索工具还编有一些特殊索引,如引文索引、会议索●引等。
幻灯片16● 2.7.5 选择检索方法●手检方法●(1)常用法●顺查法:检索全面、不易漏检,但费时费力,适于撰写综述性文章。
●倒查法:查询近期文献,效率高、省时省力,但有可能漏检。
●抽查法:重点检索某一时期的文献,检索效率高易漏检。
●(2)追溯法●由远及近地追溯:能查到越来越新的文献,但要依靠专门的引文索引工具。
●由近及远地追溯:适合于查找以往的研究情况或对背景资料的查询,但越●查文献越旧,易漏检。
●分段法:交替使用以上所提的两种方法,一般只追溯5年左右的●时间,然后再用检索工具查出一批文献进行追溯。
幻灯片17● 2.7.6 实施检索● 2.7.7 索取原始文献●利用图书馆馆藏目录或公共联机目录(OPAC)查找文献馆藏地●到附近的图书馆或文献情报中心借阅或复印文献●利用有关全文数据库,打印、下载原始信息●利用联机信息系统或网络信息系统,用联机传递、E-mail、Fax或脱机邮寄的方式获取原始信息,或网上提出订购请求,获取原始信息●搜索网上免费信息资源,可以获得一些有用的文献信息●通过图书情报机构文献传递服务索取原始文献信息等幻灯片18第3章学术评价及信息组织● 3.1 学术评价● 3.2 信息的组织与管理●参考文献类型标识。
●根据GB3469-83《文献类型与文献载体代码》规定,以单字母方式标识:专著 M;报纸 N;期刊 J;专利文献 P;技术标准 S;学位论文 D;科技报告 R;幻灯片193.2.4信息管理所谓信息管理,是指对人类社会信息活动的各种相关因素(主要是人、信息、技术和机构等)进行科学的计划、组织、控制和协调,以实现信息资源的合理开发与有效利用的过程。
它既包括微观上对信息内容的管理—信息的组织、检索、加工、服务等,又包括宏观上对信息机构和信息系统的管理。
信息管理是由活动主体、活动对象、活动手段等要素构成的。
在信息管理活动中,表现为信息人员利用掌握的信息技术,控制和利用信息资源来达到组织目标的活动过程。
幻灯片20● 3.3信息交流与使用●知识产权:●在中国,发明专利的保护期限为20年,著作权保护期限一般是作者有生之年加死后50年,商标权一次性注册有效期为10年。
在法律规定的有效期限内知识产权受到保护,超过法定期限,知识产权权利自行消失。
幻灯片213.4信息研究3.4.1 信息交流3.4.2 信息分析1.信息分析的原则对文献信息进行分析,是通过对众多信息的整理、辨析、评价,提取出共性的、特征性的或方向性的内容,达到去粗取精、去伪存真的目的。
因此,信息分析应遵循可靠性、科学性、新颖性、适用性的原则。
幻灯片22第4章信息检索服务●2.1图书馆信息咨询服务内容:●参考咨询服务●新书通报服务●馆际互借与文献传递●定题服务●科技查新●代查代检●学科服务●教学与培训●馆际合作幻灯片23馆际合作机构1.江西昌北高校图书馆联盟2.C A L I S(h t t p://w w w.c a l i s.e d u.c n)中国高等教育文献保障系统(C h i n a A c a d e m i c L i b r a r y&I n f o r m a t i o n S y s t e m,C A L I S)。
3.C A S H L(h t t p://w w w.c a s h l.e d u.c n)C A S H L是中国高校人文社会科学文献中心(C h i n a A c a d e m i c H u m a n i t i e s a n d S o c i a lS c i e n c e s L i b r a r y)的英文简称,中文称之为开世览文。
4.N S T L(h t t p://w w w.n s t l.g o v.c n/)N S T L是国家科技图书文献中心(N a t i o n a l S c i e n c e a n d T e c h n o l o g y L i b r a r y)的英文简称。
幻灯片242.3 网络搜索引擎搜索引擎常用的检索技巧:“”—精确匹配(-)—消除无关性(|)—并行搜索i n t i t l e—把搜索范围限定在网页标题中s i t e—把搜索范围限定在特定站点中i n u r l—把搜索范围限定在u r l链接中f i l e t y p e:—特定格式的文档检索幻灯片25第5章常用中文数据库1 中国知识资源总库(CNKI):2 中文科技期刊全文数据库(维普)3 万方数据资源系统4 超星资源检索系统5 方正电子图书数据库6 国研网(教育版)7 考试辅导系统8 昌北高校图书馆联盟服务系统幻灯片26检索图书的数据库:超星资源检索系统;方正电子图书数据库检索期刊的数据库:中国知识资源总库(C N K I);中文科技期刊全文数据库(维普);万方数据资源系统检索学位论文的数据库:中国知识资源总库(C N K I);万方数据资源系统。