信息检索重点 来自人人
【精品】计算机信息检索重点
信息检索数据(Data):泛指所有描述事物的形貌、特性、状态或任何其他属性的数字、文字或符号.一般指原始,未处理过的数据。
信息(Information):1。
物质存在的一种方式。
一般指数据、消息中所包含的意义.可以使消息中所描述的事件的不定性减少。
2.是事物运动的状态与方式的反映。
知识(Knowledge):A、是在改造世界的实践中所获得的认识和经验的总和。
B、是人类的主观世界对客观世界概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述。
提供某种经过思考的判断和某种实验的结果.(信息是知识的原材料,知识是信息加工的抽象化产物.)情报(Information):钱学森:“情报是活化了的、激活了的知识”。
可以理解为是指传递着的有特定效用的知识或信息。
三要素:知识性、传递性、效用性文献(Literature):记录有知识的一切载体.三要素:载体(文献的外部形式,它是知识的包装或运载方式,常称之为媒体(media)。
)、知识(反映了文献的信息内容.)、记录(信息的一种人工编码,通过人工、机械以及声、光、电、磁等各种技术手段生成多种包含知识信息内容的符号,以一定的形态出现,形成各种媒体的文献类型。
)文献对人类文明进步具有重大意义:知识的积累、传播与创造研究成果的确认与评价信息环境及其认识:信息环境的变化,20世纪90年代中期前,书本时期-—--—手工检索,缩微时期-—--—缩微检索,20世纪90年代后期,光盘时期-—--—单机检索,网络初期-——--联机检索21世纪,网络兴盛—--——网络检索第一章信息检索原理一、信息检索的含义(掌握)广义:信息检索包括信息的存储过程和查找过程;狭义:仅指信息的查找。
二、信息检索的类型(一、)以检索内容划分(重点)1.文献信息检索凡是利用目录、文摘或索引等二次信息查找某一课题、某一著者、某一地域、某一机构、某一事物的有关信息以及这些信息的出处和收藏单位等,都属于文献信息检索范畴。
信息检索重点复习资料
信息检索重点复习资料第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:最早的信息检索主要依靠信息分类。
1手工检索2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型 1浏览型模型:扁平式模型、结构导向模型、超文本模型2检索型模型:结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS. 信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
信息检索的基本知识_OK
计算机检索系统的主要特点
检索速度快,能大大提高检索 效率,节省人力和时间。 采用灵活的逻辑运算和后组式 配方式 便于进行了多元概念检 索。 能远程检索。
8
⑵信息检索系统的类型
(续)
按著录和标引方式划分
①目录型检索系统:包括国家书目,联 合目录,馆藏目录
②题录型检索系统:它的著录对象是单 篇文献,因此具有加容易、报道量大、 出版迅速等特点,是查找最新文献线 索的重要工具。
2
一、信息检索原理(续)
1、信息的存储与检索
信息检索是指将信息按照一定的方式组织 和存储起来,并根据用户的需要,找出所
需信息的过程。广义的信息检索包括信息的 存储和检索两个过程,而狭义的信息检索 只包括后一个过程,即为处理解决各种问 题而查找
信息的存储过程就是按照主题词表或分类 表及使用原则对原始信息资源进行处理, 形成信息特征标识,为检索提供经过整序 的信息集合的过程。
第二章 信息检索的基本知识 本章主要内容:信息检索原理、 信息检索语言 、信息检索的基 本程序与信息检索的基本方法 询和文摘索引工作.从19世纪下半叶开 始发展,至20世纪40年代.索引和检索已 成为图书馆独立的工具和用户服务项 目。20世纪中叶以前,信息存储和传 播主要以纸质介质为载体,信息检索 活动也围绕着文献的获取和控制展开。
5
一、信息检索原理(续)
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
6
按信息处理手段划分有 (续)
②计算机检索系统。以称现代化 检索 系统,是用计算机技术、电子技 术、远程通讯技术、光盘技术、网络 技术等构成的存储 和检索信息的检索 系统。存储时,将大量的各种信息以 一定的格式输玉到系统中,加工处理 成可供检索的数据库。检索时,将符 合检索需求的提问式输入计算机,在 选项定的数据库中进行匹配运算,然 后将符合提问式的检索 结果按要求的 格式输出。
信息检索重点
1.信息检索(information retrieval) 定义(1)广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关的信息的过程和技术。
所以它的全称又叫信息存储与检索(information storage and retrieval).(2)狭义的信息检索:指广义的信息检索的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们的所说的信息查寻。
(information search)2.检索工具定义:检索工具是人们用来存储、报道和查找文献的工具。
因此,它具有存储和检索的功能。
存储是把分散、无序的文献,采用一定的检索语言使其集中,组织起来,成为有规律的检索系统,变成检索工具。
检索是人们按照有关检索语言,采用一定的方法和途径,检出自己所需的文献。
3.检索策略的定义陈光祚:所谓检索策略就是在弄清用户情报需求实质的前提下,选择检索途径、检索用词以及明确各词之间逻辑关系和查找步骤的科学安排。
赖茂生:所谓检索策赂,是指为实现检索目的而制定的全盘计划和方案,是对整个检索过程的谋划和指导。
4.信息资源:是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。
信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
填空一.检索工具的功能(1)报道功能。
(2)标识功能。
(3)辅助检索功能。
二.检索工具的类型1 按检索方法划分检索工具可以划分为手工检索和机械检索工具两大类型,机械检索工具主要是指计算机检索。
2 按收录范围划分检索工具可分为综合性检索工具、专业性检索工具、单一性检索工具3种。
综合性检索工具收录范围广,涉及多门学科。
专业性检索工具收录的范围仅限于某一学科领域。
单一性检索工具只收录某一特种类型的文献,但学科范围可广可窄。
3 按出版形式划分检索工具又可分为书本式、卡片式、磁带式和缩微制品等形式,书本式又包括书刊式、单卷式和附录式3种。
4 按收录文献的对象和揭示方式来划分⑴目录目录是一批图书或其他单独出版的资料的系统化记载及内容的揭示。
信息检索复习知识点
信息检索复习知识点1.信息(Information)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
* 信息的属性——客观存在性* 信息的作用——消除不确定性* 信息的形式——数据、消息等事实2.各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源3. 信息用户Information User信息的使用者即是信息用户。
使用的情况可以包括需要信息、接受信息和利用信息。
4. 信息需求Information Demand人们在社会实践活动中,为了解决各种实际问题,会产生对信息的需要,这种需要可表现为对信息的必要感和不满足感。
我们把意识到的信息需要定义为信息需求5. 信息检索Information Retrieval对信息用户而言,信息检索就是根据各自的目的和要求,选择恰当的信息资源,采用适当的检索手段、检索技术、检索方法,对所需要的信息进行查找、筛选和索取的过程或活动。
6. 信息素质:人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平。
* 信息意识* 信息能力* 信息道德7. 信息社会是以知识和信息为基础从而促进社会高速发展的一种社会形态。
8. 经济领域的特征a.劳动力结构出现根本性的变化,从事信息职业的人数与其它部门职业的人数相比已占绝对优势;b.在国民经济总产值中,信息经济所创产值与其它经济部门所创产值相比已占绝对优势;c.能源消耗少,污染得以控制;d.知识成为社会发展的巨大资源。
9. 社会、文化、生活方面的特征10.社会观念上的特征11当代信息环境特征描述* 信息超载严重信息超载又称信息泛滥或信息爆炸。
它是指在信息时代,伴随着科学技术的迅速发展,出现的数据爆炸、信息平庸化以及噪音化趋势,人们无法根据自己的需要和当前的信息能力选择并消化自己所需要的信息。
* 信息失衡明显所谓信息失衡是对由于各国经济水平、科技水平和其它多种相关因素的影响,不同国家、不同地区以及不同阶层的人群在信息占有水平以及利用程度上存在极大差距的描述。
《信息检索知识要点》课件
信息检索模型
信息检索模型的概念
描述信息检索过程和要素的数学模型。
向量空间模型
将文本表示为向量,并计算相似度的模型。
布尔检索模型
基于逻辑运算符进行检索的模型。
概率检索模型
使用概率理论建模的信息检索模型。
检索系统的组成
检索系统的架构
包括用户界面、索引构 建和检索处理。
文本预处理
对文本进行分词、停用 词过滤和词干化处理。
评价指标
召回率和准确率
衡量搜索结果的全面性和准确性。
F1值
综合考虑准确率和召回率的评价指标。
MAP和NDCG
评估排序质量的指标。
ROC曲线和AUC
评估分类模型性能的指标。
实践应用
搜索引擎的实现
利用信息检索技术构建 高效的搜索引擎。
知识图谱
利用信息检索技术构建 结构化的知识图谱。
情感分析
应用信息检索技术分析 文本中的情感倾向。
推荐系统
利用信息检索技术为用 户提供个性化的推荐服 务。
结语
- 信息检索的今天和明天:随着技术的不断发展,信息检索将在各个领域发挥 更重要的作用。 - 学习资源推荐:推荐几本经典的信息检索教材和学术论文。 - 问题与讨论:欢迎大家积极参与讨论,一起探讨信息检索的未来。
索引构建
建立倒排索引以加速搜 索过程。
检索处理
执行查询处理和相似度 计算。
相似度计算方法
1
余弦相似度
2
通过计算向量之间的夹角来度量相似性。
3
BM2 5算法
4
根据文档长度和词频进行相似度计在文档集合中的重要程度。
Jaccard相似度
通过计算交集与并集的比例来度量相似性。
信息检索重点知识
信息:信息是事物存在的方式,运动状态及其特征的反映,是事物发出的信号,消息信息的特征:载体依附性无线共享性永不枯竭性开发增值性应用时效性存在普遍性知识:知识是信息的升华和结果,系统化理论化的的信息就称为就称为知识文献:用一定的方式记录在一定的载体上的知识都称之为文献信息源:个人为满足信息的需要而获得信息来源称之为信息源信息源类型:①个人信息源②组织机构信息源③实物型信息源④文献信息源⑤电子型信息源①及时、新颖、传递迅速、但带有主观随意性,久传易出错②内部信息源,共管理人员分析③直观性强,信息量大,有一定隐蔽性④当今数量最大,利用率最高的信息资源⑤内容广泛、使用简便信息资源:即作为资源的信息。
信息资源的构成要素: 信息生产者,信息,信息技术。
文献信息源分为:图书期刊学位论文科技报告专利文献标准文献产品样本会议文献政府出版物零次文献:未经出版发行或者未进入社会交流的最原始的文献一次文献:以作者本人取得的成果为依据而创作的作文报告等公开发表或出版的各种文献二次文献:按照特定的目的进行筛选,即所谓用一定的检索工具进行过加工的文献三次文献:根据二次文献提供的线索,选用大量一次文献的内容,经过筛选分类综合和浓缩而再度出版的文献信息素养DY:能认识到何时需要信息和有效的搜索评估和使用所需要信息的能力医学信息素养内容:信息意识信息知识信息能力信息道德(DY以医学信息获取、评价和利用等处理能力为核心)信息检索DY:信息检索包括信息储存和信息获取两个过程,信息的存储:根据信息的外表和内部特征,按照一定的组织编排,使之成为有序化信息集合的过程。
信息的获取:根据特定的需要,运用组织好的检索系统和工具,将特定信息找出来的过程。
信息检索的类型:文献检索事实检索数据检索信息检索原理:是通过对大量分散无序的文献信息进行收集,加工,组织,存储,建立各种各样的检索系统。
并通过一定量的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效的获取和利用信息源。
信息检索重点整理
AI 《著者索引》BA/RRM《生物学文摘/报告、评论、会议》BP《英国药典》BNF《英国处方集》BIOSIS美国生物科学情报社CPI 会议论文索引CNKI中国知识基础设施工程中国期刊全文数据库CPI《会议论文索引》CA美国《化学文摘》CS《化学物质索引》CBA《中国生物学文献数据库》CASSI《化学文摘资料来源索引》DIALOG国际联机检索系统EM荷兰《医学文摘》GS《普通主题索引》GB 中国国家标准IPA《国际药学文摘》IM美国《医学索引》IPC《国际专利分类表》ISTP《科技会议录索引》ISO 国际标准化组织ISSN《国际标准连续出版物编号》ISBN《国际标准图书编号》KWI 《关键词索引》MeSH《医学主题词表》NF《美国处方集》NLM美国国立医学图书馆OI 生物体索引OCLC联机计算机图书中心PI 《专利索引》PUBMedNCBI开发制作的医学相关文献数据库免费使用来源premedline medline SCI《科学引文索引》通过引文分析衡量评价论文的学术水平或刊物的影响力高低。
USP《美国药典》WO 世界知识产权组织ScienceDirect (SD):Elsevier数据库Ovid高影响因子核心药学期刊全集美国四大报告:PB;AD;AEC/ERDA/DOE;NASA报告同族专利是指基于同一优先权文件,在不同国家或地区,以及地区间专利组织多次申请、多次公布或批准的内容基本相同或有所修改的一族专利。
其中最先得到批准的专利称为基本专利,也称原始专利。
和基本专利内容基本相同,在不同国家或地区内提出申请而得到批准的专利称为等同专利。
相关专利为与基本专利内容不完全相同,但有关联的专利,在专利种类代码后用Related表示。
1. 信息资源的类型(以加工程度划分):一次信息资源(会议论文、科技报告、学位论文、标准、档案、专利说明书);二次信息资源(书目、文摘、索引);三次信息资源(综述、百科全书、手册、词典,教科书)2.信息检索的类型:文献检索、事实检索、数据检索。
信息检索重点
一、信息检索四要素1、信息检索的前题:信息意识2、信息检索的基础:信息源3、信息检索的核心:信息获取能力4、信息检索的关键:信息利用二、信息基本特征:普遍性、客观性、扩散和传递性、增值性(创新)、可存贮性和可压缩性、可知性(信息能力)和共享性知识属性:意识性、信息性、实践性、继承性、渗透性情报属性:针对性、知识性、时间性、传递性、效用性信息、知识、情报的关系:信息经过人脑思维加工,即认识飞跃产生知识,情报属于知识的范畴。
广义的情报是信息的传递,因此,情报具有信息和知识两种性质。
三、按载体不同分为:口头信息源、实物信息源、文献信息源四、文献信息源:1、按出版形式不同可分为十种类型:图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准、产品资料、学位论文、技术档案2、按记录信息的材料可分为三种类型:纸印本文献、缩微型文献、机读型文献3、按加工深度不同可划分为四种:零次文献、一次文献、二次文献、三次文献四者之间的关系:从零次文献到三次文献,是一个从分散的原始文献加工整理系统化的过程。
零次文献是一次文献的素材,一次文献是基础,是检索的对象;二次文献是检索一次文献的工具;三次文献是一次文献的浓缩,是情报信息的重要来源。
五、信息检索系统类型:⑴根据检索目标和检出文献信息形式的不同:文献检索、数据检索、事实检索⑵根据具体检索手段不同:手工检索、机械检索六、检索步骤:分析研究课题确定检索范围和检索标识选定检索工具确定检索途径查找和获取原始文献七、信息检索的方法:⒈常用法:是利用检索工具查找文献的方法.⑴顺查法⑵倒查法⑶抽查法⒉追溯法:从已知的现有文献后所列参考文献入手,逐一追查原文,从这些原文后所列参考文献再逐一追查,不断扩检的查找方法⒊循环法:指追溯法常用法混合使用的方法。
八、信息检索的途径:⒈根据外表特征划分著者途径;书名、篇名、刊名途径;序号途径⒉根据内容特征划分分类途径(SA、Ei);主题途径(SA、Ei);分子式途径(CA)九、文献检索的一般步骤:1、分析研究课题2、确定检索范围与检索标示3、选择检索工具4、确定检索途径5、查找和获取原始文献检索途径与方式:初级检索:默认的检索方式高级检索:两种检索方式组合使用,如“篇名”和“著者”。
信息检索原理期末重点背诵知识点
信息检索原理期末重点背诵知识点信息检索1、信息检索概念:P12、信息检索的原理⼀整节内容要⾃⼰理解:P3-P4图1-1要掌握⽂献替代和⽂献整序的概念要掌握3、信息检索在历史上的不同表现:联机检索、光盘检索、⽹络检索的区别和特征:P6-P94、信息检索的模型概念:P95、布尔模型、向量空间模型、经典概率模型要理解并掌握各⾃的优缺点:P11-P126、信息检索系统的概念:P127、检索效果的评价指标:P15-P164个指标:查全率、查准率、漏检率、误检率掌握它们的含义并懂得计算8、⽹络检索的表达式:布尔逻辑检索、邻近检索、短语检索、截词检索的特点、区别和联系:P17-P219、信息检索的技巧要理解尤其是要掌握及时调整检索策略:P33-P3610、搜索引擎的概念:P3711、数据库知识,实验内容,特点12、引⽂的概念13、搜索引擎的分类:P40-41搜索引擎划分的类别以及元搜索引擎的概念要掌握12、CBR概念 P11312、多媒体信息检索的原理和⽅法:P110-P114其中要重点理解基于内容的多媒体信息检索的检索形式(可以结合课件)13、专利的概念:P12514、专利的类型:P126(理解⼀下各类型的区别)15、专利⽂献的概念:P12716、专利⽂献的类型:P127(理解⼀下各类型的区别)17、灰⾊⽂献的概念:P14718、会议⽂献的概念:P15819、科技报告的概念:P16320、查新的概念:P20021、科技查新的作⽤:P201(每⼀个⼩标题后⾯要⾃⼰展开⼀段)关于上课讲的那⼏个数据库⼤家⾃⼰看⼀下PPT,掌握⼀下。
以上纯属个⼈观点题型:名词解释:5*4=20简答题: 4*10=40论述题: 2*20=40考试时间:1⽉8⽇上午:9:00—11:001.信息检索的概念 (P1)信息检索有⼴义和狭义两重含义。
⼴义上说,信息检索是指将信息按照⼀定的⽅式组织和存储起来,并根据信息⽤户的需求查找相关信息的过程。
信息检索重点
一、信息检索四要素1、信息检索的前题:信息意识2、信息检索的基础:信息源3、信息检索的核心:信息获取能力4、信息检索的关键:信息利用二、信息基本特征:普遍性、客观性、扩散和传递性、增值性(创新)、可存贮性和可压缩性、可知性(信息能力)和共享性知识属性:意识性、信息性、实践性、继承性、渗透性情报属性:针对性、知识性、时间性、传递性、效用性信息、知识、情报的关系:信息经过人脑思维加工,即认识飞跃产生知识,情报属于知识的范畴。
广义的情报是信息的传递,因此,情报具有信息和知识两种性质。
三、按载体不同分为:口头信息源、实物信息源、文献信息源四、文献信息源:1、按出版形式不同可分为十种类型:图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准、产品资料、学位论文、技术档案2、按记录信息的材料可分为三种类型:纸印本文献、缩微型文献、机读型文献3、按加工深度不同可划分为四种:零次文献、一次文献、二次文献、三次文献四者之间的关系:从零次文献到三次文献,是一个从分散的原始文献加工整理系统化的过程。
零次文献是一次文献的素材,一次文献是基础,是检索的对象;二次文献是检索一次文献的工具;三次文献是一次文献的浓缩,是情报信息的重要来源。
五、信息检索系统类型:⑴根据检索目标和检出文献信息形式的不同:文献检索、数据检索、事实检索⑵根据具体检索手段不同:手工检索、机械检索六、检索步骤:分析研究课题确定检索范围和检索标识选定检索工具确定检索途径查找和获取原始文献七、信息检索的方法:⒈常用法:是利用检索工具查找文献的方法.⑴顺查法⑵倒查法⑶抽查法⒉追溯法:从已知的现有文献后所列参考文献入手,逐一追查原文,从这些原文后所列参考文献再逐一追查,不断扩检的查找方法⒊循环法:指追溯法常用法混合使用的方法。
八、信息检索的途径:⒈根据外表特征划分著者途径;书名、篇名、刊名途径;序号途径⒉根据内容特征划分分类途径(SA、Ei);主题途径(SA、Ei);分子式途径(CA)九、文献检索的一般步骤:1、分析研究课题2、确定检索范围与检索标示3、选择检索工具4、确定检索途径5、查找和获取原始文献检索途径与方式:初级检索:默认的检索方式高级检索:两种检索方式组合使用,如“篇名”和“著者”。
信息检索知识点范文
信息检索知识点范文信息检索是指从大量的信息中找到与用户需求相关的信息的过程。
以下是信息检索的一些重要知识点:一、信息需求分析:1.了解用户需求:包括明确用户的信息需求,了解用户的背景和需求的具体要求。
2.制定信息策略:确定的关键词、限定范围、排除冗余和无关信息的策略。
二、信息源:1.内部信息源:组织内部的数据库、档案等。
2.外部信息源:包括互联网上的网页、文档、图片等。
三、信息检索模型:1.自动索引:使用关键词或主题对文档进行描述和索引,并建立索引词表,方便用户检索。
2.布尔模型:将检索式表示为逻辑表达式,利用逻辑运算符对检索词进行组合,实现精确的文档检索。
3.向量空间模型:通过计算文档和查询的向量空间相似度,将文档按相关性排序。
4.概率检索模型:通过统计分析文档和查询的概率模型,计算文档的相关性概率。
5.链接分析模型:根据页面之间的链接关系和链接的权重等信息来评估页面的相关性。
四、检索评价:1.检索精度:通过计算检索结果的相关文档和非相关文档的比例,来评估信息检索系统的精确性。
2.检索效率:评估信息检索系统执行查询的速度和资源消耗程度。
3.检索一致性:评估系统在连续多次查询时的稳定性和一致性。
五、信息检索技术:1.关键词:通过输入关键词进行检索,系统会返回与关键词相关的文档。
2.高级:包括利用限定符进行、布尔逻辑、通配符等。
3.相关性反馈:根据用户的反馈信息,调整检索结果的排序,提高检索的准确性。
4.语义分析:通过对查询语句和文档的语义进行分析,找到语义上的相关性。
5.分布式检索:将索引和查询分发到多个节点上进行检索,提高速度和可靠性。
六、信息检索系统的应用:1. 网络引擎:例如Google、百度等,为用户提供互联网上的信息服务。
2. 文献检索系统:用于科研人员查找相关文献,例如PubMed、IEEE Xplore等。
3.图像检索系统:通过图像的内容特征进行检索,例如相似图片、人脸识别等。
4.音乐、视频检索系统:通过音乐或视频的特征进行检索,例如识别歌曲、相似视频等。
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
最新第2章信息检索基本知识ppt课件
布尔逻辑运算符优先级
• 布尔运算符优先级比较
–有括号时:括号内的先执行; –无括号时:NOT > AND > OR
• 例:检索“唐宋诗歌”的有关信息。 – 关键词:唐、宋、诗歌; – 检索表达式:
• (唐 OR 宋)AND 诗歌; • 唐 AND 诗歌 OR 宋 AND 诗歌; – 错误表达式: • 唐 OR 宋AND诗歌; • 唐 AND 宋AND诗歌; • 唐 OR 宋OR诗歌; • 唐AND 宋OR诗歌;
3、事实检索
是以具体事项为检索内容的信息检索。
(二)按是否使用检索工具划分 1、直接检索
就是指利用一次文献进行检索,这是以前比较常用的一 种查找方法。所花时间多和精力大,检出文献少。
2、间接检索
就是指利用各种检索工具获得文献线索,再根据线索去 查找原始文献线索的方法。
(三)按信息检索手段划分 1、传统信息检索
一、检索工具的功能
1、报道功能 2、存储功能 3、检索功能
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。 2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类录 2、文摘 3、索引
目索文录引摘:::是把是按一一照种种某或著种多录明种文白文献 题易献录懂中和的具内顺有容序检摘编索要排意的义检文的索献特 工清征具单分。或别清著册录,、通排常序以并一注 如个明:完出人大整处复的以印资出供料版查单检位的或工收具 藏书单。位索为引著的录基的本组基织本单单 元位是。条目,每个条目一般 如由:序《全号国、新书标目识》或索引词、 注释《社、科出新书处目等》 若干环节
2、三者提供的资料不同: 目录提供某一方面较成熟系统的知识,索引、文摘提供相对分散 的资料线索。
信息检索重点
信息的基本概述一信息:1.信息的特征(5个普遍性与客观性、依存性与传递性、可知性与共享型、可扩充性与可压缩性、时效性与滞后性)2.数据信息、知识、文献、情报、智慧DIKW模型看截图3.信息检索的概念与本质(匹配过程)本质:是用户的信息需求和信息集合的匹配过程,进而满足用的信息需求的过程二信息资源(定义信息资源是人类在认识世界和改造世界过程中产生、整理、记录的有用信息的集合)1.信息资源的类型按时间的产生顺序先导信息资源、即时信息资源、滞后信息资源按传播形式口头信息资源、文献信息资源、实物信息资源按载体形式书写型、印刷型、缩微型、视听型、数字型按出版形式(十大科技情报源)图书、期刊、会议文献、学位论文、专利文献、科技报告、标准文献、技术档案、产品资料、政府出版物按加工深度(零次一次,二次)一次文献知识的首次固化期刊论文、标准、报告、文献等:是依据作者本人的科研成果而撰写的首次记录科研成果的原始文献二次文献检索工具题录,目录,书录,文摘,索引:是对分散的无组织的一次文献进行加工整理、压缩、提炼、简化、整理的产物三次文献直接提供答案百科全书,词典,手册:对大量一次文献经过综合、分析、提炼撰写而成零次文献实验数据,观察记录,手稿等:是形成一次文献之前的信息、知识、情报、即未公开记录或未公开与社会的最原始的文献,或没有正式的发表的文字材料信息资源的特点能够重复使用、具有整合性、具有流动性、共享性、实效性、动态性、不可分性、支配性信息资源的作用可以减少物质与能量的作用,从而极大提高社会劳动生产率,有利于实现国民经济的可持续发展。
信息资源已经成为了当今社会的核心资源。
信息资源的开发利用,可有效降低社会的运营成本三信息社会(概述与内容包括哪三类资源)信息素养的三个层次:基础性、自我满足性、自我实现性信息素养(IL)(定义美国图书馆协会:具有信息素养的人能够知道什么时候需要信息,能够有效的识别、获取、评价、和利用所需要的信息)信息素养的内涵:信息意识对信息的敏感程度,有效发现信息需求,是人们产生信息需求,形成信息动机和兴趣的动力和源泉信息知识信息的基本知识(相关理论、知识与方法),信息技术和知识(信息技术原理)等信息能力获取、理解、处理、表达、评价、利用、创新等信息法律与道德(又称信息伦理)了解利用信息所涉及的经济、法律和社会问题,合理、合法地获取和利用信息第二章信息检索绪论一信息检索概述信息检索概念广义:存储和查询将信息按一定的方式组织和存储,并根据信息用户需求查找所需信息的过程侠义:查询从信息集合中查询信息用户所需信息的过程(仅指从已经存贮的具有检索功能的信息集合中查询出所需要的信息的过程)信息检索原理信息需求与信息集合:匹配检索者将检索提问式与存储与检索系统的文献标引词进行匹配对比,取得一致性即为最符合要求的结果信息检索类型信息检索内容对象数据、事实、文献信息检索组织方式全文、超文本、超媒体信息检索的手段手工与计算机信息检索步骤6个分析课题明确需求、选择检索工具或数据库、确定检索方法、确定检索途径、查找文献检索、获取原始文献。
信息检索的途径、方法和步骤
定特有特的的定关义发课点时该展题::期课阶。是文题它段此根献 的适很 法据信 文合清 能研息 献于晰 快究的 信检的 速课方 息索、 、题法 最某某 有的。 可一一 效实使 能学事 地际用 出科物 检需该 现研出 索要方 或究现 到,法 最高频 某利的 多潮率 一用前 出很在 课检提 现明某 题索是 的显一 的工用 时的阶 文具户 间、段 献检必段某很信索须。一突息某清专出,个楚业
文献检索的进行。
5.2.2 外表特征途径
外表特 征途径
题名途径 责任者途径 机构名称途径 编号途径
其他途径
责任者途径
编 其题机号 他名构途途名径径称途径
责 息 任 检 个 根 表 该 具 名 编的括申论有过会题 来 题号编图请文些议特任 的 者 索 人 据 的 机 中 称名 查 名途号书号存检索殊者 途 、 文 作 机 文 构 的 检途 找 包途径来、取索引IS途 径 专 献 者 构 献 的 团 索B径是检专号工等径 文 括N径 。 利 信 名 信 学 体 文索找根索利等具。号是 献 书到据文号。还是文发息称息术著献引、所文 献 、 编根的刊连根献明,检情和者的、需献 信 标 有续据途名据责人主索况科索途团文信 息 准 一出文径称已任、要该,研引径体献息 的 编 些版信出途 号 特知者专利机以成提。作献,、物息版径 、 殊文包利用构了果供I者信文论S。或。 报 索S献括申作出解。了索如发这 告 引N息献文号责个请者版和检由引引布些 合 ,的信名、文时号 同 可任人人索或统索机、专题息称索给码 号 以者责等引发计工构专利引出包 和 通名的、来任。、利、查 利 个者权找 用 人、人文 责 目团索献 任 录体引信 者 、责等。 专利名称、标准名称等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、信息资源的类型(以加工程度划分):一次信息资源;二次信息资源;三次信息资源。
2、信息检索的方法:常规法;顺查法;倒查法;抽查法。
3、信息检索的途径:题名途径;责任者途径;号码途径;分类途径;主题途径;其他。
4、检索效果的评价查全率是指被检出的相关文献量与系统文档中实有的相关文献量之间的比率。
它是衡量信息检索系统收录内容及其用户检索结果的完整程度的指标。
R=被检出相关文献量/相关文献总量=(a/a+c)*100%查准率是指检出的相关文献量与检出文献总量之间的比率。
它是衡量信息检索系统收录内容及用户检索结果精确度的尺度。
P=被检出相关文献量/被检出文献总量=(a/a+b)*100%影响因素:①影响查全率的因素:所选检索词不符合检索系统所用的词表规范;检索词专指性太强;相关词数量不够;信息数据库选择不当;没有将同义词作为检索词。
②影响查准率的因素:检索词的专指度不够;检索词选择不规范。
提高查全率方法:①准确把握检索对象及目的,选择合适的数据库。
②降低检索词或分类号的专指度。
③更多地采用学科分类途径来扩大检索范围。
④减少逻辑“与”及逻辑“非”的使用。
⑤增加逻辑“或”及截词检索技术的使用。
⑥不限定检索对象的文献类型、时间段、文种等。
⑦注意同义词的合理使用,适当使用近义词扩检。
提高查准率的方法:①准确把握检索对象及目的,选择合适的数据库。
②提高检索词或分类号的专指度。
③更多地采用专用名词及特性检索的途径。
④选择逻辑“与”及逻辑“非”的使用。
⑤减少或不采用逻辑“或”及截词检索技术的使用。
⑥限定检索词出现的字段及在段落、文句中的位置。
⑦限定检索对象的文献类型、时间段、文种及其它特征。
5、计算机信息检索系统计算机检索,就是利用计算机对信息进行存贮和检索,包括信息的存贮过程和信息的检索过程。
存贮过程:把分散的信息进行搜集、整理、分析、标引,以描述信息内容及特征,输入到计算机中,建立相应的数据库。
计算机信息检索的制定:①分析检索课题;②检索系统和数据的选择;③确定检索词;④拟定检索提问式;⑤编排具体的检索程序。
检索过程:将用户的需求转化为检索系统可识别的提问标识,并与系统内信息进行比对,将满足用户需求的信息输出给用户。
计算机检索的基本过程分为三个阶段:①提出问题阶段——用户需求分析与构造检索式;②检索阶段——将用户需求与数据库进行比对,查找所需信息;③结果输出于反馈阶段——对输出结果不满意,则调整检索策略与检索式,继续检索。
计算机检索的特点:检索速度快;信息量大、内容更新快;检索点多、检出率高;能充分达到资源共享的目的;能满足多元检索的需求;服务方式灵活。
计算机检索系统的构成:①逻辑组成:指计算机信息检索系统所包含的功能模块或子系统及其相互关系。
包括:数据源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、系统用户接口子系统、提问处理子系统。
②物理组成:主要包括硬件部分、软件部分、数据库。
计算机检索的类型:①按检索设备及工作方式分类——脱机检索、联机检索、光盘检索、网络检索;②按检索内容分类——文献检索、数值检索、事实检索、全文检索;③按计算机检索提供的服务方式分类——定题检索、回溯检索、日常检索。
6、参考工具书由前言(序)、凡例、目录、正文、辅助索引和附录六部分组成。
7、《中华人民共和国药典》最新版2010年,每五年编辑出版一次。
2000年版,一部:收载中药材、中药成方制剂共992种。
二部:收载化学药品、抗生素、生化药品、放射性药品、生物制品、共1699种。
2005年版,增加三部:收载生物制品。
除《中国药典》外,还有中华人民共和国卫生部颁布的药品标准,收载未入中国药典的药品品种。
8、《默克索引》组成:①目次表,②著录格式的注释说明,③缩写表,④正文,⑤附表。
其中附表包括:化学文摘登录号,治疗范围和生物学活性索引,分子式索引,名称索引,附录。
著录格式,教材P35.9、《中国药学文摘》采用自编分类体系,总体分成12大类,70个小类。
索引:①主题索引,②外文药名索引。
检索方法:可通过分类、主题和外文药名等途径检索。
10、美国《化学文摘》CA1907年第一版,每期按五大部分80小类顺序排列,综述文献、期刊论文、技术报告、会议论文、档案资料、学位论文,其中综述文献列在最前面。
期刊论文著录格式:⑴130:248995v ⑵Calculation of the Hydrodynamic Contributi-on to Peak Asymmetry in High-performance Liquid Chromat-ography Using the Equilibrium-Dispersive Model. ⑶Stanley, Brett J.; Savage, Theresal.; Geraghty, Jennifer J.⑷(Department of Chemistry, California State University, San Bemardino, CA, 92407-2397, USA). ⑸Anal. Chem.⑹1998, 70(8), 1610-1617⑺(Eng), ⑻American Chemical Society. ⑼The present investigation…(1)卷号:文摘号;(2)论文题目:黑体字,一律用英文;(3)作者姓名全称:姓在前,名在后,不同作者之间用分号隔开,其顺序与原文相同;(4)作者单位和地址(放在括号内);(5)期刊名称(斜体,缩写,全称可查资料来源索引);(6)出版年,卷(期),起始页码;(7)原文语种;(8)出版机构 (出版者);(9)摘要正文。
专利文献的著录格式:⑴ 130:250629x ⑵Photographic print material containing cubical-grain silver iodochloride emulsion. ⑶Chen, Benjamin The-kung;Edwards, James lawrence; Lok, Roger; Ehrlich, Sanford Howard⑷(Eastman Kodak Co., USA) ⑸U.S. US 5,726,005 ⑹(Cl.430-567; G03C1/035),⑺10 Mar 1998, ⑻US ⑼Appl. 362,283,22 ⑽Dec 1994; ⑾38 pp.. (12)(Eng).(1)卷号:文摘号;⑵专利文献名称 (黑体);⑶专利发明者;⑷专利权人(个人或机构);⑸专利国或专利组织及专利号;⑹国际专利分类号(美国专利还包括美国专利分类号); (7)专利批准日期;(8)专利优先国(如无此项,优先权属于专利所在国);(9)专利申请号; (10)专利申请时间;(11)专利说明书总页数;(12)语种。
CA索引系统:期索引;卷索引。
每半年为一卷,共26期。
同族专利是指基于同一优先权文件,在不同国家或地区,以及地区间专利组织多次申请、多次公布或批准的内容基本相同或有所修改的一族专利。
其中最先得到批准的专利称为基本专利,也称原始专利。
和基本专利内容基本相同,在不同国家或地区内提出申请而得到批准的专利称为等同专利。
相关专利为与基本专利内容不完全相同,但有关联的专利,在专利种类代码后用Related表示。
CA中的各种文献类型代号: B—图书,如:B869408h; P—专利,如:P505235d ;R—综述,如:R354563y ;Pr—与化学物质制备有关,如:Pr2345j; cat—催化信息; ret—反应信息。
Hill系统编排原则:含碳化合物,先排C,再排H,其他元素按字顺排列,如乙炔C2H2;不含碳化合物,按分子式元素符号的字顺排列,如Al(OH)3,其排列为AlH3O3;;酸、醇、有机胺的金属盐类,按其母体名称排列,如:苯乙酸钠C8H7O2Na,应先查苯乙酸C8H8O2,然后在苯乙酸Benzeneacetic acid【103-82-2】下查找sodium salt【114-70-5】;聚合物和加成物以单体化合物排入分子式索引。
11、美国《生物学文摘》著录项目:文摘号、作者、文献出处、文种、标题名、文摘正文、著者所在单位和通信地址。
生物体索引进化分类系统:界、门、纲、目、科、属、种。
12、《科学引文索引》SCI通过引文分析衡量评价论文的学术水平或刊物的影响力高低。
13、专利专利的定义:一、专利权,由国家授予的对某项发明创造的独占支配权,申请专利就是申请授予这种权利;二、专利发明,取得专利权的发明创造,引进专利就是引进受专利保护的优秀发明创造;三、专利文献,查专利就是查找记载发明创造内容的专利说明书和其他专利文献。
专利具备的三个基本条件:新颖性;创造性;实用性。
专利的终止和无效:发明专利的期限为20年;实用新型专利权和外观设计专利权的期限为10年,均自申请日期起算。
专利的种类:发明专利;实用新型专利;外观专利。
国际专利分类表的构成:部、大类、小类、大组或小组。
14、标准文献标准的分类(按使用范围分):国际标准;区域性标准;国家标准;企业标准;专业标准;部标准。
标准号的构成:标准号+序号+制定(修订)年份15、美国四大报告:PB报告;AD报告;AEC/ERDA/DOE报告;NASA报告。
16、光盘检索:CD-ROM单机检索;CD-ROM联机检索;CD-ROM网络检索。
17、论文格式前置部分:题名、目录、作者、摘要、关键词。
主体部分:引言、正文。
18、综述格式:题目、前言、主体部分、结语、参考文献。
19、缩写BA《生物学文摘》; BA/RRM《生物学文摘/报告、评论、会议》; BP《英国药典》; BNF 《美国处方集》;CA美国《化学文摘》;CBA《中国生物学文献数据库》;CNKI中国知识基础设施工程;CPI 《会议论文索引》;CS化学物质索引; DIALOG国际联机检索系统;EM荷兰《医学文摘》;GS普通主题索引;IPA《国际药学文摘》; IM美国《医学索引》;IPC《国际专利分类表》;ISTP《科技会议录索引》;MeSH《医学主题词表》;NF《美国处方集》;NLM美国国立医学图书馆;OCLC国际联机检索系统;SCI《科学引文索引》;USP《美国药典》。
20.布尔逻辑检索布尔逻辑检索是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以检索出所需信息的方法。
其常用运算符有逻辑与、逻辑或、逻辑非。
逻辑与:用“AND” 或者“*”来表示相交关系。
如:A and B 表示检索结果要同时含有A和B所代表的检索词,用于缩检。
逻辑或:用“OR”或者“+”来表示并列关系。
如A OR B 表示检索结果要含有检索词A或者检索词B或者同时含有检索词A和B,用于扩检。