信息检索的基本知识.

合集下载

信息检索的基本知识

信息检索的基本知识

⑵信息检索系统的类型 〔续〕
④索引型检索系统: 索引是根据一定的需要,把特定范围内的
某些重要文献中的有关款目或知识单元,书 名、刊名、人名、地名、语词等,按照一 定的方法编排,并指明出处,为读者提供 文献线索的一种检索系统。
索引不仅广泛存在于各种书刊等文献 中,而且更多见于作为辅助检索系统而附 在不同类型的检索工具之后,为检索工具 提供了更多的检索途径。
信息的存储过程就是按照主题词表或 分类表及使用原那么对原始信息资源
一、信息检索原理〔续〕
2、信息检索系统〔续〕
一、信息检索原理〔续〕
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
2、信息检索系统〔续〕
按著录和标引方式划分 ④文摘型检索系统是以简练的文字将文献
资料的主要内容准确、扼要地摘录下来, 并按照一定的著录规那么和编排方式系统 地组织起来的检索 工具。 主要包括:报道性文摘
指示性文摘 如:美国的?化学文摘?英国的?科学文摘〉
中国的〈中国数学文摘〉〈海洋文摘〉
2、信息检索系统〔续〕
按著录和标引方式划分
⑤全文型检索系统 全文检索是指在文献资料的标题、目录、作
者、内容中检索 指定的字符串。 全文检索系统是指将文章 中所有的文字处理序列 都作为检索对象进行索引,并根据需要找出包含 有欲检索词的文献的系统。
作用:它能提供快捷的数据管理工具和数据 查询手段,帮助人们进行了大量文献数据的整理 和管理工作,使人们能够快速、方便地查到想要 的任何信息。
第二章 信息检索的根本知识

信息检索的基本知识

信息检索的基本知识

文献、数据、事实检索三者区别 数据检索与事实检索,都是要检索 出包含在文献中的信息本身,是确定性 的检索,检索结果是可以直接利用的。 文献检索,则是要检索出包含所需 信息的文献,是相关性检索,检索结果 经过分析研究后才能确定是否能用。
3 文献的类型
♦ 3.1 按文献的载体分
3.1.1 书写型文献:古旧文献和未经复印的手稿以及技术 书写型文献: 档案之类的资料。 档案之类的资料。 3.1.2 印刷型文献 3.1.3 缩微型文献 3.1.4 声像型文献 3.1.5 机读型文献 (电子出版物) 电子出版物) 3.1.6 网络出版物
(2)知识 知识 是人类认识的成果或结晶, 是人类认识的成果或结晶,包括经验知识和理 论知识。 论知识。 (3)情报 情报 人们为了一定的目的搜集的有使用价值的新知 识或新信息。情报具有知识性、传递性。 识或新信息。情报具有知识性、传递性。 情报的本质必须是知识,没有一定的知识内容, 情报的本质必须是知识,没有一定的知识内容, 就不能成为情报。 就不能成为情报。 知识必须经过传递才能成为情报。 知识必须经过传递才能成为情报。 (4)文献 文献 用文字、图形、符号、声频、视频等技术手段, 用文字、图形、符号、声频、视频等技术手段,记 录有知识的一切载体。 录有知识的一切载体。
5 文献检索的意义
♦ 1)通过文献检索课程的教学,学校可以培养
学生的情报意识和获取新知识的能力。 ♦ 2)通过文献检索课程的学习,学生能够学会 利用图书馆,提高自学能力。 ♦ 3)掌握了文献检索的方法和技能,将大大地 缩短收集情报的时间,提高利用文献的准确率。 ♦ 4)通过运用文献检索的方法和技能,学生可 以不断更新知识,提高自身综合素质,更好地 迎接新世纪的挑战。
第一章
信息检索的基本知识

第三章 信息检索的基本知识

第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,

检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。

信息检索的基本知识

信息检索的基本知识

6
—信息检索的基本知识
检索的一般程序→选择检索工具 IV
引语工具书
引语工具书的重要词语索引是一类广泛汇集名言佳句的工具书,给出引语的上下 文和出处。一般按照作者、主题、时期编排,利用这一类工具书,可以核对某一 词语,以求准确引用;可以查明某一特定引语的出处等。
字典、词典
字典、词典按编撰目的可以分为语文词典、专科词典和综合性词典(百科词典)。 一般语文词典提供词语的拼写、读音、含义、用法等;专科词典则汇集不同学科 的词汇,有的侧重语文角度对各种术语给予简略的解释,有的则偏重知识角度; 综合性词典兼有语文词典和专科词典的功能,可称为百科词典,从这类词典中既 可以查到普通的语文字词,也可以查到人、地、事等百科性内容。
F4 工业经济 F74 国际贸易 F5 交通运输经济 F75 各国对外贸易 所谓“类”是指具有共同属性的事物的集合。一类事物除了具有共同属性外,还 F6 邮电经济 F76 商品学 有许多不同的属性,可以进行多次划分,因此在体系分类法中存在上位类、下位 F7 贸易经济 类、同位类的概念。类一般使用标记符号标识,包括字母、数字等。 F8 财政经济 F761 一般性著作 F762 农产品 体系分类法具有按学科或专业集中、系统地向人们揭示文献资料内容的功能,这 对与系统系统掌握和利用某一专业范围的文献非常有用。 F763 医疗用品 F764 重工业产品 F765 建筑器材
14
—信息检索的基本知识
检索的一般程序→获取原文 II
获取原文的途径
本单位图书情报部门。这是获取原文最方便的途径,要善于利用馆藏目录、如读 者目录有缺省,应利用公务目录、典藏目录等工具; 掌握国内主要的或对口的图书情报机构的馆藏信息。利用联合目录或网络,由近 及远的查找; 从著者处获取原文; 从检索刊物出版机构获取原文;

信息检索基础知识

信息检索基础知识

TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语

信息检索知识点

信息检索知识点

信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找;2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息;3.为什么说信息存储和检索是两个不可分割的有机体检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的;存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较;检索过程是存储过程的逆过程;因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来;4.信息检索的方法1顺查法2倒查法3抽查法4追溯法5循环法5.信息检索的途径1内部特征途径a)分类途径b)主题途径2外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:1简单,形式简洁,易于理解;2 可操作性强,应用广泛;3 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;4 能处理结构化提问;缺点:1表达用户复杂需求效果欠佳2准确匹配无法提供定量比较3匹配标准不尽合理4检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的;8.什么是计算机信息检索所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程;实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合;9.计算机信息检索的类型:(1)根据检索系统的工作方式,可分为:a.脱机信息检索脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索;b.联机信息检索联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程;联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高;c.光盘信息检索d.网络信息检索(2)根据信息的服务方式,可分为:a.定题检索定题检索是用户根据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息;具有定期性、新颖性和批处理性的特点;b.回溯检索回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息;也可以查找最新的信息,可以适应多数用户的查询需要;c.日常检索10.计算机信息检索技术初级检索6个1)布尔逻辑检索2)位置限制检索3)短语检索4)截词检索5)字段限制检索6)区分大小写检索11.计算机信息检索技术高级检索6个1)加权检索2)自然语言检索3)相关信息反馈相似检索4)概念检索5)模糊检索6)聚类检索布尔逻辑检索(1)逻辑与用AND或表示检索式写作A AND B或A B(2)逻辑或用“OR”或“+”表示(3)逻辑非用NOT 或—表示 A NOT B A当中除去B所剩下的字段名称及缩写AB abstract TI title AU author JN journal nameLA language PY publication year SP source publication分类和聚类的异同相同点:基于“类”的思想进行检索;不同点:1分类基于分类法,其类目体系主要是先组式,有系统性的;类目与文献之间具有相对独立性;而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献决定;2从类目形成过程看,分类是总到分,聚类由分到总;会构建检索式主要是积木型12.计算机信息检索策略含义狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式;广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排;13.计算机信息检索策略类型即联机检索五原则(1)最专指面优先:从最专指的概念入手(2)最低登录量面优先(3)积木型重点掌握,会构建此检索式(4)引文珠型增长(5)逐次分馏14.网络信息资源的评价方法:(1) 定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评估,主要有指标体系法和调查表法;(2) 定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分析法等三种;(3) 综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合评价法等;(4) 分类方法:分为第三方评价法、用户评价法和网络计量法;15.搜索引擎的类型:(1) 按检索机制划分:检索型、目录型和混合型检索工具(2) 按检索内容划分:综合型、专题型和特殊型检索工具(3) 按包含检索工具数量划分:单独型和集合型检索工具(4) 按检索资料类型分:万维网检索工具和非万维网检索工具16.元搜索引擎的含义所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作;17.元搜索引擎的特点:(1) 虚拟索引数据库(2) 查全率高(3) 用户界面友好(4) 适宜二次加工(5) 扩展性好18.元搜索引擎的工作原理19.实现跨语言信息检索的方法:1提问式翻译方法2文献翻译方法唯一结果是源语言描述3提问式—文献翻译方法将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息; 检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键;4中间语种翻译方法5非翻译方法20.语义网的应用(1)Web服务(2)智能信息检索(3)基于语义的网页搜索引擎(4)企业数据管理收录论文的两个层次(1)Compendex数据;数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等;其中:分类码;主题词需要专业人员单独给出;(2)Page One数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘;不需要任何专业人员再做工作;数据和Page One数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex数据,反之是Page One数据;有没有主题词和分类号是判断论文是否被Compendex数据正式收录的唯一标志;23.主题指南按字母顺序列出与分类表中类目名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索文献的指南;便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码;科学引文索引的编制结构及检索方法(1)引文索引(2)来源索引(3)机构索引(4)轮排主题索引25.如何决定收录期刊的数量和种类1“加菲尔德文献集中定律”——确定适宜的期刊数量该定律认为:在几万种科技期刊中,最重要的期刊即核心期刊不过一千种,甚至可能还不足500;因而,把收录期刊的范围定在3000种以内,足以把重要的科技文献包括在内;2“费用—效果原则”——用来选择每一种期刊,具体方法是“引用频率统计法”先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高;通过上述两个指标决定了收录期刊的数量和种类26.什么是专利这种受法律保护的发明就称专利;含义:专利权——法律受专利法保护的发明创造——专利技术专利说明书等专利文献——文献这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体表现;27.什么是同族专利同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利;由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利;28.专利的类型(1)发明专利(2)实用新型专利(3)外观设计专利(4)植物性专利(5)防卫性专利知识产权:工业产权和着作产权29.学位论文的文献价值:(1)较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验方法到数据获取、分析结论论述翔实;(2)珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论文的使用者可以跟踪名校导师的科研进程;(3)综述性二次文献:对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,可得到课题研究现状综述;(4)写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研究方法,学习学位论文的写作方法;30.信息检索评价方法(1)测试文档集合法(2)人机交互(3)用户体验日志分析法(4)自然观察法31.召回率:R=检索出的相关文献量/ 数据库中的全部相关文献x100%准确率:P=检索出的相关文献量/ 检出的文献总量x100%32.平均准确率并会计算平均准确率是一个通过所有相关文献测定系统绩效的单值指标;如果检索系统能快速返回所需的相关文献,并对被检文献进行等级排序,则该系统的性能较好;平均准确率是求各个相关文献准确率的平均值;因此平均准确率的计算只考虑相关文献的数量,而与检出文献的总量无关;。

信息检索基本知识

信息检索基本知识

T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。

信息检索基础知识

信息检索基础知识

第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。

信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。

这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。

运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。

信息已成为与物质、能量同样重要的三大资源之一。

信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。

文献:将知识记录并保持在一定的载体上,就形成了文献。

文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。

科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。

2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。

信息检索基本知识

信息检索基本知识

查全率=—— x w 查准率=—— m
w
漏检率=1-查全率 误检率=1-查准率
如果x与m完全吻合,或者说检索工具 中所存储的有关某一课题的文献全部被 检出,这是最理想的。然而在实际上往 往达不到这个指标,而总是有一定误差 的。
五 检索途径与检索方法 一般说,所有文献的特征可分两 大类:外表特征(题名、著者、序号等) 和内容特征(分类、主题、关键词)。 所以文献检索的途径也分成两个方面。
思考题 1. 简述对信息和文献的理解。 简述对信息和文献的理解。 2. 文献的出版类型有哪些? 文献的出版类型有哪些? 3. 比较文献载体的优缺点。 比较文献载体的优缺点。 4. 一次文献、二次文献和三次文献有何 一次文献、 区别? 区别? 5. 谈谈电子信息源。 谈谈电子信息源。
6. 信息检索及其种类有哪些? 信息检索及其种类有哪些? 7. 常用的检索工具有哪些? 常用的检索工具有哪些? 8. 谈谈检索效率的评价标准。 谈谈检索效率的评价标准。 9. 简述检索途径与检索方法。 简述检索途径与检索方法。 10. 检索的一般程序步骤有哪些? 检索的一般程序步骤有哪些? 11. 何谓音译? 何谓音译?
(2) 常用法 : 利用检索工具来查找
文献的方法。它又可分为倒查法和顺查法. 倒查,就是由近及远地逆时间查找.它的 倒查 重点是放在近期文献,只需查到基本满足要 求时间为止. 顺查, 顺查,就是由远及近地顺时间查找。例 如,已知某项发明的产生年代,现在需要了 解它发展的全过程,就可以运用顺查法从最 初的年代开始,逐步往近期查找。
第一章 信息检索基本知识
第一节 信息与文献概述 一、信息的概念 二、信息的类型与特征 三、各种信息源及其特征 1 文献信息源 2 电子信息源 3 实物信息源 4 口头信息源

信息检索知识

信息检索知识

tumor(瘤)or carcinoma(癌) or neoplasm (新生物)。
A OR B
8
逻辑“非” NOT/检索式“A not B”表示包含检索词A同时不包 含检索词B的文献为命中文献。 如:查“动物的乙肝病毒(不要人的)”的文献 的检索式为hepatitis B virus(乙肝病毒)
not human(人类)。
A NOT B
9
邻近度算符 With 检索式“A with B”表示检索词A和检索词B 不仅要同时出现在一条记录中,还要同时出现 在一个字段里的文献才是命中文献. 如:“drug with abuse”检索出的是同一个字 段中同时出现这两个词的记录。
10
邻近度算符Near
Willian Henry Harrison →Harrison W H 姓前有前缀M’、Mc、Mac,在索引中一律按Mac的字顺排 在一起 姓前带 冠词 De、Della、Des、La、Van、Vanden、Von 与姓名字顺一起排列; 有等级制称号的著者排在无等级制称号的著者之后,先排 Johs W 后排Johs W jr 音译中国人著者-按汉语拼音著录;俄国人-按英俄文音译 对照表;日本人-按黑本氏英日文音译对照表对译。 学术团体,企业单位等名称按原名著录,并加国名以示区 别。
33
主题词检索
34
检索步骤: 1、点击[主题词]按钮 2、输入检索词(中文或外文),点击[浏览]按钮 3、选中所要检索的主题词,点击[主题词注释]按钮之后, 可对该词进行不扩展、扩展、加权检索及树状结构选择 4、点击[检索]按钮,选择相应的副主题词与主题词进行组 配检索
35
索引词检索
36
检索步骤: 1、点击索引词[浏览] 2、输入检索词,点击[浏览]按钮 3、通过浏览选择检索词,点击[检索]按钮 备注: 检索多个索引词时,使用[加入列表]、 [浏览列 表]和[检索列表] 按钮

信息检索-检索基本知识

信息检索-检索基本知识
·凡带有“-”,应排在该类0之前,同级号码之后。
19.6.22
排列举例:
1. H1、H12、H、H134、H2、H219、H0、 H-44、 H 2-44 2. TP311.1、F0、G624、F2、O-44、I2457 、 TN912、TP319、
F 181、O13-43 、O-62 3. I247.5/J3、 I247.5/G5、F0/L21、FO/L12
1:H、H-44、H0、H1、H12、H134、H2、H 2-44、H219、 2:F0、F 181、F2、G624、I2457 、O-44、O-62、O13-
43、 TN912、TP311.1、 TP319 3:F0/L12、F0/L21、 I247.5/G5、 I247.5/J3
19.6.22
《科图法》
早,只好用倒查法,新兴学科,起始年代不远,可 用顺查法,波浪发展的学科,可选择发展高峰,用 循环法
19.6.22
检索语言
信息检索要克服的三个语言障碍: ★自然语言障碍 ★学科专业语言障碍 ★检索语言障碍
19.6.22
又称文献存储和检索语言,是根据文献信 息存储与检索的需要而创制的一种人工语言, 是汇集、组织、存储、检索文献信息的工具和 手段。
19.6.22
★00 马列、毛泽东思想 ★10 哲学 ★20 社会科学
21 历史、历史学 … 48 艺术 49 无神论、宗教学 ★50 自然科学 51 数学 … 54 化学 65 农业科学 71 技术科学 ★90 综合性图书
以字符构建主题语言:
1.关键词:直接从文献信息的标题、摘要或内 容本身抽取出来的用于揭示信息主题内容的自 由词。
磁盘式
19.6.22
19.6.22

《信息检索基础知识》课件

《信息检索基础知识》课件

03
信息检索系统
信息检索系统的构成
信息检索系统由信息源、信息组织与 检索方式、信息检索工具、用户界面
和信息利用等部分构成。
信息源是信息检索系统的物质基础, 包括各种类型的文献、网页、社交媒
体等。
信息组织与检索方式是信息检索系统 的核心,通过关键词、分类、主题等 方式对信息进行组织和检索。
信息检索工具是信息检索系统的手段 ,包括搜索引擎、数据库、图书馆等 。
05
信息检索的未来发展
信息检索技术的发展趋势
语义理解技术
随着自然语言处理技术的不断进步,信息检 索将更加注重对用户查询的语义理解,以提 高检索的准确性和相关性。
个性化检索
个性化检索技术将更加成熟,能够根据用户 的兴趣、偏好和行为习惯,为用户提供更加 精准和个性化的检索结果。
多模态检索
多模态检索技术将实现文本、图像、音频和 视频等多种媒体信息的融合检索,满足用户 对多媒体信息检索的需求。
自然语言处理
自然语言处理是信息检索中不可或缺的技术之一,它利用计算机对自然语言文本进行分析和处理,以 实现自然语言文本的自动识别和机器理解。
自然语言处理技术包括分词、词性标注、句法分析、语义分析等,这些技术能够将自然语言文本转换为 计算机可识别的格式,以便进行后续的信息检索和文本挖掘。
自然语言处理技术的应用范围广泛,例如在搜索引擎中实现自动纠错、自动完成、智能推荐等功能,以 及在智能客服中实现自动问答、智能回复等功能。
源。
网络信息检索阶段
随着计算机技术的发展,人们开始利用计算 机进行信息检索,出现了各种基于计算机技 术的检索工具和数据库。
智能信息检索阶段
随着人工智能技术的发展,智能信息检索逐 渐成为新的发展趋势,它能够更加智能地理 解用户需求,提供更加精准的信息服务。

信息检索基本知识

信息检索基本知识
第二章 信息检索基本知识
第三节 信息检索与检索系统
第三节信息检索与检索系统
• 1、信息检索 • 2、检索系统 • 3、检索系统的组织
1. 信息检索
• 信息检索(Iformation Retrieval):将信息按一 定的方式组织和存储起来,并根据信息用户的需 要找出有关的信息的过程和技术。
了解用户的 信息需求
如何提高查全率?
• • • • • 1.优先使用最简单常用的主题词; 2.逐渐减少不重要的检索词; 3.加用多个等同词,用“或”(OR、|)语法; 4.换用上位词; 5.增加检索途径
如何提高查准率?
• • • • • 1. 换用专指性更强的主题词; 2. 逐渐加用主题词; 3. 加用辅助词; 4. 利用词和网页的外部特征限制输出结果; 5. 观察不相关检索结果的特征,使用“减”(-) 语法排除; • 6. 使用下位词
信息检索 的技术或 方法
满足信息 用户的需 求
1.2、信息检索的对象-----你找谁?
文献
• 包括题录、文摘和全文。
数据 事实
• 数值或数据(包括数据、 图表、公式等)
• 某一客观事实为检索对 象,查找某一事物发生 的时间、地点及过程
信息检索的起源
• 信息检索起源于图书馆的参考咨询和文摘索引工 作。
按检索性质区分
• 定题检索:查找有关特定主题最新信息的检索, 又称为SDI检索。
▫ 特点是:只检索最新的信息,时间跨度小。
• 回溯检索:查找一段时期内有关特定主题信息的 检索,也称为追溯检索。
二、信息检索类型
• 按检索的信息形式区分
▫ 文本检索:查找含有特定信息的文本文献的检索, 其结果以文本形式反映特定信息. ▫ 多媒体检索:查找含有特定信息的多媒体文献的检 索,其结果以多媒体形式反映。

信息检索知识点

信息检索知识点

信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。

2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。

3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。

存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。

检索过程是存储过程的逆过程。

因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。

4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。

缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。

8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。

信息检索的基本知识

信息检索的基本知识

信息检索的基本知识
信息检索是一种重要的技术,它用于从大量的数据中提取所需信息。

以下是一些信息检索的基本知识:
•索引:信息检索的首要步骤是构建索引。

索引是一个按关键字组织的数据结构,用于快速定位和访问文档。

•关键字:关键字是进行信息检索的基本单位。

它们可以是单个词或短语,根据检索目的和搜索引擎的功能来确定。

•搜索引擎:搜索引擎是信息检索的核心工具。

它利用索引和算法来找到与用户查询相关的文档,并按相关性排序。

•查询:用户通过查询向搜索引擎提供信息需求。

查询可以是简单的关键字、短语,也可以是复杂的语句。

•相关性:搜索引擎根据文档与查询的匹配程度计算相关性。

相关性分数用于确定排名,从而决定返回给用户的搜索结果顺序。

除了以上基本知识,信息检索还涉及更多高级技术:
•倒排索引:倒排索引是一种常用的索引结构,它将关键字映射到包含这些关键字的文档列表中,以支持快速的搜索。

•词频和权重:搜索引擎通常根据关键字在文档中出现的频率和位置,以及其他因素来计算关键字的权重。

•自然语言处理:信息检索利用自然语言处理技术来理解用户查询和文档内容,以提高搜索效果。

•评估和优化:为了提供更好的搜索结果,搜索引擎需要不断评估和优化算法,以适应不断变化的用户需求和文档集合。

总结起来,信息检索是一门复杂而关键的技术,它在数字化时代具有重要意义。

了解信息检索的基本知识对于学习和使用搜索引擎、开发相关应用都非常有帮助。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3
—信息检索的基本知识
检索的一般程序→选择检索工具 I 书目、馆藏目录 提供线索的指示型 检索工具(二次文献) 索引 文摘 工具书指南 检索工具 词典 引语工具书 百科全书、类书、政书 传记资料 手册 机构名录 地理资料 统计资料 年鉴、表谱图册 政府文献
4
提供具体信息的参考 型检索工具(三次文献)
题名
即根据已知的书名、刊名、篇名按字顺排列规则在工具书中查找所需文献的途径, 一般情况下,大多索引类工具均提供按题名排列索引机制。题名是检索工具书的 主要途径,在西文索引工具中,一般使用著者和题名混合排列的形式,甚至不提 供篇名索引。
11
—信息检索的基本知识
检索的一般程序→确定检索入口 II
著者
即以著者姓名为检索点查找文献的途径。我国索引类工具书著者途径常常是辅助 检索途径,甚至有些索引工具书不提供著者索引。西文工具书中著者索引较为完 备。
信息检索可分为: 文献检索(Documents Retrieval)和信息检索(Information Retrieval); 手工检索和计算机检索。
2
—信息检索的基本知识
检索的一般程序→分析问题
问题的分类:问题的分类有助于确定相应的检索工具。一类是查找某一特定的文 献、或与某一主题、学科内容相关的文献,一般需要考虑使用检索类工具书(二 次文献);另一类是查找具体的事实,如统计数据、人名、地址、术语等。 分析:分析已知和预知的信息。进一步确定检索工具。 分析需求的主题内容:分析所需信息的学科性质、特点和水平层次,明确检索的 学科范围,学科范围越具体、越明确、就越利于检索。 广泛利用文献类型:因为目标文献涉及的类型很多,如报纸、图书、期刊、会议 论文、专利报告等,应确定需要哪一类文献。 选择合适的文献检索时间范围:确定所需文献信息的时间范围可以使得检索过程 更对快捷、准确。因为检索过程中所使用的工具的材料收集具有一定的时间性, 如书目、年鉴、索引等。
8
—信息检索的基本知识
检索的一般程序→选择检索工具 VI
机构名录
机构名录是一种系统编排的、有关组织机构概况的工具书,可提供诸如某个人或 公司的地址、联系方法、组织名称、业务概况、人事情况、机构历史和现状等。
百科全书
百科全书是荟萃一切门类或某一门类知识、以概要方式提供有关信息的多功能工 具书。它可以回答“何时”、“何地”、“如何”、“为何”等背景性知识,内 容详尽完备,查阅、检索功能都很突出。
7
—信息检索的基本知识
逐年提供某年度、某一领域信息的工具书,或者说是 相应年度内的信息汇编。年鉴包含的内容很丰富,从中可以得出专家对某一行业 的综述、分析、回顾和展望,了解最新的统计数据、企业状况、机构名录、重要 产品、大事记等。
手册
手册是汇集某一学科领域或业务部门专门知识的工具书,多是针对当前实践中的 需要,以简明扼要的方式提供具体、实用的资料,供随时翻检查阅,中文常以 “概览”、“指南”、“大全”等称呼;英文用Handbook和Manual表示。
—信息检索的基本知识
信息检索的基本知识
1
—信息检索的基本知识
信息检索
信息检索
信息检索是根据特定的需求,运用某种检索工具,按照一定的方法,寻找资料或 信息的过程。这种方法利用序化的信息系统和信息服务业提供的服务来满足个体 的信息需求。 从信息管理的角度来说,信息检索主要是通过分析、综合等手段进行信息加工后, 获取隐含在信息源中的知识的过程。
9
—信息检索的基本知识
检索的一般程序→选择检索工具 VII
表谱
传记工具书 地理资料 统计资料 类书、政书
10
—信息检索的基本知识
检索的一般程序→确定检索入口 I
一种可能包含所需要信息的检索工具确定以后,下一步应考虑怎样从中找到所需 信息。检索工具所提供的检索途径往往不止一种,使用者应根据“已知”信息特 征确定检索入口。一般来说,所有文献的特征分为两类:即外表特征(题名、著 者、序号等)和内容特征(分类、主题、关键词),因此检索入口途径也分为两 类。
索引是揭示文献出处、提供文献查考线索的检索工具,索引可分为篇目索引和内 容索引,篇目索引的主要作用是查阅报纸、期刊、会议录中的文章;内容索引一 般附在专著或年鉴、百科全书等工具书之后的书后索引,按主题、人名、地名、 事件、概念等内容要项编排。
文摘
文摘是一种既揭示文献外部特征、又通过摘录文献要点报道文献内容的检索工具。 指示型文摘侧重揭示文献的主题、研究方法、结论、用途和参考价值,不涉及具 体的内容;报导性的文摘比较详细的报导文献的主要内容、观点、方法、以及必 要的数据、图表和参考资料等。
6
—信息检索的基本知识
检索的一般程序→选择检索工具 IV
引语工具书
引语工具书的重要词语索引是一类广泛汇集名言佳句的工具书,给出引语的上下 文和出处。一般按照作者、主题、时期编排,利用这一类工具书,可以核对某一 词语,以求准确引用;可以查明某一特定引语的出处等。
字典、词典
字典、词典按编撰目的可以分为语文词典、专科词典和综合性词典(百科词典)。 一般语文词典提供词语的拼写、读音、含义、用法等;专科词典则汇集不同学科 的词汇,有的侧重语文角度对各种术语给予简略的解释,有的则偏重知识角度; 综合性词典兼有语文词典和专科词典的功能,可称为百科词典,从这类词典中既 可以查到普通的语文字词,也可以查到人、地、事等百科性内容。
书目
书目是指一批相关文献的记录,其基本功能是反映某一地区、某一时期在某一领 域中出版物的信息,书目可以是描述性的,提供诸如著者姓名、出版社、出版时 间、版本、价格等信息;亦可以是评论性的,对出版物的使用价值提出看法,发 挥指导阅读的作用。
5
—信息检索的基本知识
检索的一般程序→选择检索工具 III
索引
—信息检索的基本知识
检索的一般程序→选择检索工具 II
馆藏目录
馆藏目录是查找文献首先需要考虑的检索工具。读者目录是专供读者使用的目录, 承担着为读者揭示、识别、检索馆藏文献的任务,但只反映馆藏的一部分,读者 目录按揭示文献特征分为:题名目录、责任者目录、分类目录、主题目录等,目 前馆藏目录多以计算机目录来代替传统的卡片目录。
相关文档
最新文档