信息检索1(2)
【苏教版信息科技】七年级上册第二单元第1课《信息检索的原理》教案
(3)比较筛选信息:对比多个来源,选择最准确、全面的内容。
(4)阅读并理解内容:仔细阅读,确保理解信息的含义和背景。
(5)总结归纳信息:整理搜集的信息,形成清晰的大运河知识框架。
三、做一做
1、尝试列出使用那些关键次可以更好的搜索大运河有关的信息。
四、想一想
1、信息搜集与索引建立
(1)网页蜘蛛:自动搜集网页信息,构建搜索引擎的“知识库”。
(2)索引数据库:整理网页信息,建立快速检索的“地图”。
2、检索与结果返回
(1)关键词检索:用户输入关键词,触发搜索引擎的查找机制。
(2)相关度排序:根据内容匹配度,对检索结果进行排序。
(3)返回结果:展示最匹配的网页信息,满足用户需求。
3、全文搜索引擎的基本工作过程
五、议一议
1、搜索引擎在哪些环节使用了算法?
(1)网页信息收集:算法帮助搜索引擎确定哪些网页应该被收集。
(2)建立索引:算法对收集到的信息进行分类和整理,形成索引数据库。
(3)检索与排序:算法根据用户输入的关键词,在索引数据库中快速检索,并按照相关度对结果进行排序。
2、为什么使用同样的关键字,不同搜索引擎的结果不同?
(1)算法差异:不同搜索引擎使用不同的算法来评估网页与关键词的相关性。
(2)数据来源:搜索引擎可能从不同的网站或数据库中获取信息,导致结果不同。
(3)用户偏好:有些搜索引擎会根据用户的搜索历史或偏好进行结果调整。
2信息检索的基本方法(一)
SCIENTIFIC SOLUTIONS
• 查找美国信息资源管理政策的有关文献 美国 and 信息资源管理 and 政策
• 含有草莓、香草和巧克力三种口味中任何一种的冰 淇淋
草莓 or 香草 or 巧克力
• 查找互联网有关的信息资源 • 互联网 or 因特网 or 万维网
SCIENTIFIC SOLUTIONS
SCIENTIFIC SOLUTIONS
4 截词检索(Truncation/Wildcat)
• 有时被称为通配符 • 前截词 • *ology→geology,sociology,psychology,archaeology, biology……
• 中间截词
• wom?n→ woman,women
SCIENTIFIC SOLUTIONS
检索词和运算符号合在一起的式子就是检索式 例子 寻找武汉大学校庆的资料 校庆 and 武汉大学(*)
高等教育 * 中国
湖南 or 湖北(+) 移动学习 + 泛在学习
大学 not 武汉大学 玉米——甜玉米
SCIENTIFIC SOLUTIONS
• 同时含有草莓、香草和巧克力三种口味的冰淇淋 • 草莓 and 香草 and 巧克力 • 用and链接的检索词越多,结果越少
• (nN) • Wuhan (1N) university
• Wuhan (1N) university— • 还可检出university of wuhan ,university
in wuhan……
SCIENTIFIC SOLUTIONS
3 短语检索(Phrase Search, Exact Search)
含有草莓或香草但不含巧克力口味的冰淇淋
信息检索作业1作业2答案
单选题:(共30道试题,每题2分)1.在CAJ-CD规范中,符号“J”表示的参考文献类型是()A.专著B.论文集C.报纸文章D.期刊文章正确答案:D2.三次文献包括()A.目录B.索引C.文摘D.综述正确答案:D3.被称为“研究文献的文献”的是()A.一次文献B.二次文献C.三次文献D.零次文献正确答案:C4.述评主要提供的是()A.一次文献B.二次文献C.三次文献D.零次文献正确答案:C5.部首法作为印刷版工具书的主要排检方法,首创于()。
A.《中华大字典》B.《说文解字》C.《康熙字典》D.《字汇》正确答案:B6.三次文献具有的特点是()A.原创性B.检索性C.分散性D.参考性正确答案:D7.下列哪项工具书不是资料性工具书()A.类书B.百科全书C.年鉴D.索引正确答案:D8.电子化的检索工具是以()的形式出现的。
B.资料库C.电子版D.印刷版正确答案:A9.循环衍生法的具体内容不包括()A.定义衍生法B.语素衍生法C.语音衍生法D.语境衍生法正确答案:C10.在CAJ-CD规范中,符号“CD”表示的参考文献类型是()A.磁带B.磁盘C.光盘D.期刊文章正确答案:C11.主要用来解释语词的意义、概念、用法的工具书是()。
A.类书B.字典C.词典D.百科全书正确答案:C12.“民用!!建设”中的两个叹号代表嵌入的字数是()。
A.2个B.4个C.0—1个D.0—2个正确答案:D13.网页时间是指()A.网页最终修改的时间B.网页生成的时间C.网页浏览的时间D.网页初次修改时间正确答案:B14.高级检索的检索特点是()。
A.组配检索、清晰检索、限定检索B.清晰检索、限定检索、模糊检索C.组配检索、清晰检索、模糊检索D.组配检索、模糊检索、限定检索正确答案:D15.下列哪项工具书不是参考性工具书。
()A.手册B.图录D.年鉴正确答案:C16.一次文献具有的特点是()A.原创性B.检索性C.综合性D.参考性正确答案:A17.手册的基本特点是()。
2017第二讲(1)-信息检索概述 二
6. 输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的 记录以及相应的字段(全部字段或部分字段),将结果显 示在屏幕上、存储到磁盘或直接打印输出,网络数据库检 索还可以提供电子邮件发送,整个检索完成。
第三节 检索效果的评价
• 检索效率 检索效率是衡量检索效果好坏的指征,一般通 过查全率和查准率两方面来反映。 查全率:指系统在进行某一检索时检索出的相关文 献与系统文献库中的相关文献总量之比率。 查准率:指系统在进行某一检索时,检索出的相关 文献量与检索出的文献总量之比率。 与查全率和查准率相对应的指标是漏检率和误检率。
检索效果的评价公式
查全率=被检出相关文献量/相关文献总量 =(a/a+c)×100%
例如:查有关“雷尼替丁的含量测定”的文献
运用布尔逻辑技术的检索式可写成: 雷尼替丁 AND 含量测定
其作用是缩小检索范围,提高查准率。
逻辑或:是一种具有概念并列关系的组配
用OR(or)或 +算符表示 A OR B:表示让系统查找含有检索词A或B,或同时包 括检索词A和检索词B的信息。
如:查有关 “维生素C”的文献 (“维生素C”: vitamin C 又称 L-ascorbic acid抗坏血酸)
例: 自行车(模糊) 扩展概念:脚踏车、单车等
精确检索
也称精确匹配或完全匹配,结果中包含与检索词完全相同的内容。
提示
目前计算机数据系统除了提供专业检索要 写检索表达式检索外,更多的会提供其他 检索途径如基本检索、高级检索等,其检 索界面以检索输入框及检索条件限定框的 格式让用户根据已知条件一步步构建检索 表达式来检索文献(构建原理是一致的)
trace elements not zone 微量元素 not 锌
信息检索-简答题(整理)较全版本
四、简答1. 简述信息组织、存储与检索的关系。
答:信息组织、存储与检索三者是不可分割的。
信息检索是通过信息存取系统(即检索工具)来实现的,任何一种信息存取系统都包括信息存储子系统和信息检索子系统,它们是同一事物中既相互对立又相互联系、互为依存的两个方面,而信息存取系统的建设,需要信息组织。
信息组织在信息资源开发中具有重要的地位,在信息管理中具有承上启下的作用,它是建立信息系统的重要条件,是信息存储与检索的基础。
所以,三者是不可分割的。
2. 简述信息存储的含义及作用。
答:信息存储是指通过多种形式记录和排序信息的过程。
它包含三层含义:一是将所采集的信息按照一定规则记录在相应的信息载体上;二是将这些载体按照一定的特征和内容性质组织成系统有序的、可供自己或者他人检索的集合体;三是应用计算机等先进的技术和手段,提高信息存储的效率和信息利用水平。
存储子系统的建设,要求根据一定的原则记录和描述信息或知识载体的内容与形式特征,然后按特征序化成各类信息集合并组织成系统。
信息存储部分是揭示信息特征、整序信息、建设系统的过程。
只有经过记录、描述与组织序化的知识集合,才能提供有效的信息检索。
因此,信息存储是基础,信息检索是目的。
3.文献的概念及分类4.什么是文献类型标识符,在什么情况下使用如何使用答:文献类型标识符:标识各种文献类型的符号。
使用范围:仅在含有各种文献类型的目录及其他检索工具中使用。
使用方法:著录在正题名后面,并用中括号“[ ]”括起来。
5.目录:是图书、期刊或其他单位出版物外表特征的揭示与报道。
它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。
6.信息检索语言7.追溯法:8.文献信息资源9.信息的概念是什么信息有哪些特征10.影响查全率和查准率的因素有哪些11试比较分类语言与主题词语言分类语言是运用概念划分的原理,以分类号为标识,将各种概念按学科性质加以划分和排列,用以分门别类地、系统地组织信息的一种检索语言,它又可以分为体系分类语言和组配分类语言以及混合分类语言。
1-2信息检索的概念和类型
2020/5/17
7
3、按照存贮文献的时间进行的划分
3、1 Selective Dissemination of Information:它是预 先把用户需要的有关文献存贮在计算机的存贮器中,定 期按用户提问要求从存贮器中检索出用户所需要的最新 文献,发给用户,使用户能定期得到所刻发出信
而接收者可以在晚一些时刻才收到该信息;发
信者必须发出一切可能的信息,而接受者必须有某种检索装
置以便从大量发送的信息中筛选出适合自己需要的信息。
Mooers coined the terms "information retrieval" and descriptors"
Mooers was an early advocate of the use of intellectual property
law, including copyright and patents, to protect computer
programming languages.
3
二、信息检索的类型
4、2 Inverted File Retrieval:它是将顺排文档再按主题 词、分类号、文献名称、作者等检索途径编排成一个索 引系统,这个索引系统称之为倒排文档。检索时,先查 倒排文档,然后再从顺排文档中抽出文献内容。
2020/5/17
9
1-2 信息检索的概念和类型
一、信息检索的概念 二、信息检索的类型
2020/5/17
1
一、信息检索的概念
信息检索1-2
•
•
不足:须借助相应设备阅读,投入较大。
• 5) 网络型 主要是指互联网上所有机读文献,从本质上而言, 仍属于电子型。 优点:无所不包,数量巨大,查找方便,共享程 度高。 缺点:必须依赖于相应的设备和通信线路,内容 庞杂、无序、良莠不齐。
• (2)按文献出版类型划分
图书 期刊 报纸 科技报告 会议文献 专利文献 学位论文 标准文献等
2.1 信息检索的原理
Information Retrieval
• 广义的信息检索包含信息的存储和检索两个过程。
• 狭义信息检索:依据一定方法,从已经组织好的 有关量信息集合中,查出特定的相关信息的过 程。
信息检索包括存储和检索两个方面。 A .信息存储的过程 ①信息采集:根据一定的规则收集信息。 ②信息标引、著录: 对信息的内容特征和形式特 征进行揭示和描述。 • ③编制检索工具或建立检索系统。 • • • •
• 2)期刊 • 指有固定名称、定期 或不定期连续出版的出 版物。
• • • •
期刊特点: 出版周期短 内容新颖 能及时反映国内外各学 科领域的发展动态。
•
识别期刊的主要依据有期刊名称, 期刊出版的年、卷、期,国际标准 检索期刊常用字段 刊号等。 公开正式出版发行的期刊: 国际标准刊号(ISSN) 国内统一刊号(CN) 据统计,科技 人员所获取信 息的65%以上 来源于期刊, 它是十分重要 和主要的信息 源和检索对象。
信息资源类型
信息资源 潜在信息资源 现实信息资源
体载信息资源 文献信息资源 实物信息资源
网络信息资源
口语信息资源
1.2.1文献信息资源
• 文献信息资源是指以文献为载体的信息资源。
• • • • •
一填空题〖每空23分〗江南大学图书馆与档案馆
一、填空题〖每空2-3分,〗1 信息检索是指,的过程。
2文献中,ISBN指。
3中国图书馆分类法按性质进行分类和系统排列。
《中国图书馆分类法》共有五部分个大类。
其中工业技术入大类。
4科技文献的主要出版类型有、、、、等。
5 江大馆藏中可以检索到中文期刊全文的数据库有、、。
6江大馆藏中可以检索到中外文图书全文的数据库有、、。
7 江南学大图书馆购买的馆藏电子数据库中可以检索到中文学位论文的数据库有、。
8 美国《工程索引》数据库是收录学科领域的文献检索工具,属次文献数据库。
9检索语言包括、两大部分。
其中主题语言包括、、等。
10 分类号TP3、H316、TS、Q3、TP313、N 、O6中存在上、下位关系的是和。
11计算机检索中常用的布尔逻辑算符是、、,需要检索词A和检索词B都出现在被检出的文献记录中,这时需要使用的逻辑算符是。
12文献信息检索的全过程包括文献信息的和两个过程。
13按照信息检索内容的不同,将信息检索分为文献信息检索、事实信息检索和三种类型。
14 GB3793.83是代表文献的编号。
15 逻辑算符“OR”(或)常用于同义词间的组配,以提高检索效率中的率。
16 CN140532A是代表文献的编号。
17描述信息内容特征的检索语言有、等。
18位置算符是用来表达各检索词之间的关系。
(四年级用)。
19解决“何物”(what)、“何人”(who)、“何地”(where)、“何时”(when)、之类问题的最好的起点是利用参考工具书中的。
20主题词选择中应特别注意选词的专指性,一般使用和的名称做主题词。
21 ISSN号指。
22 江南大学购买的文献数据库中,二次文献库有及等。
23 文献检索的基本方法包括法、法、法。
24 著名的美国四大报告指、、和报告。
(四年级用)25 特种文献指、、等类型文献。
二、选择题〖每空2分,〗1、万方数据资源系统可以检索的文献类型是()A 标准文献B 期刊C 学位论文D 以上都有2 主题检索语言分规范和非规范主题检索语言两类。
信息检索第一章
会议文献的特征:(a)一般带有会议特征的词,如 Conference(会议)、Congress(大会、集会);(b)有主 办会议的机构特征,如Society(团体)、Association (协 会);(c)有会议文献类型的特征,如会前出版的Paper (论文),会后出版的Proceedings(会议录)等等。根据 这些特征,可以判定上述文献来源于会议文献。 • 如: Range-free localization using dynamic hop size computation in wireless sensor networks Tay, Jeffrey H.S. (Department of Computer Science, National University of Singapore); Chandrasekhar, Vijay R.; Seah, Winston K.G. Source: 2006 IEEE International Conference on Industrial Informatics, INDIN'06, 2006 IEEE International Conference on Industrial Informatics, INDIN'06, 2007, p 126-131
二、信息检索的作用
• 1.有利于减少课题的重复研究、提高科 研成功率 • 2.有助于节约时间、提高科研效率 • 3. 是科学决策的必要前提。 • 4.有利于培养复合性、开拓性人才
• • • •
1. 科研中--为科研开路 2 .生产中--新产品开发的向导 3 . 技术贸易中--引进技术的参谋 4 .针对大学生,还要学会利用文献跟踪学 术动态、寻找科研课题、撰写毕业论文、 科技论文,申请专利。
信息检索的途径方法和步骤(一)
信息检索的途径方法和步骤(一)信息检索是一种获取所需信息的方法,在现代社会中具有重要的意义。
但是大众对于信息检索的途径方法和步骤并不十分了解。
本篇文章将为大众介绍信息检索的途径方法和步骤。
一、信息检索的途径方法信息检索主要有以下几种途径方法:1.搜索引擎搜索引擎是一个查找互联网上信息的工具,如百度、谷歌等。
通过输入关键词,搜索引擎可以快速地为用户提供大量的相关信息。
搜索引擎可以通过关键词、网站、时间、地区等多种方式进行筛选和过滤,并且可以生成高质量的搜索结果。
2.数据库检索数据库检索是一种通过在特定领域内搜索相关信息来获取所需知识的方法,比如学术论文、专利信息、图书资料等。
用户可以在特定的数据库中输入关键词进行检索,获得非常精确的信息。
3.图书馆检索图书馆是搜集各种图书、资料和文献的场所,用户可以通过访问图书馆特定的书目目录、索引、书目检索等工具进行图书检索。
此外,图书馆还提供复印和扫描服务,让用户更为方便快捷地获取所需信息。
4.专家咨询针对特定的问题,用户可以向相关领域的专家进行咨询。
通过专业人士的分析、解答和帮助,用户可以获得更加深入和准确的答案。
二、信息检索的步骤信息检索需要遵循一定的步骤,以下是几个主要步骤:1.明确所需信息在信息检索前,用户需要明确所需信息的类型、方向、深度、广度和关键词。
2.选择正确的途径方法在确定所需信息后,用户需要选择适合自己的途径方法。
对于不同的信息需求,用户可以采用不同的方法进行检索。
3.搜索关键词在进行信息检索时,用户要输入准确合理的关键词,以获得更加精确的信息结果。
4.筛选信息结果用户需要通过多元化的选择和增加检索条件的方式进行筛选和过滤。
筛选时,用户需要结合自己的需求和途径方法合理地选取符合自己需求的信息。
5.获取相关细节信息在获得了所需的信息结果后,用户还需要进一步获取相关细节信息和补充材料。
这有助于用户深化对所需信息的理解和实际运用。
以上是信息检索的途径方法和步骤。
文献检索与科技写作考试题库
1. 信息检索(判断题):1)广义的信息检索是指将信息按照一定的方式组织和储存起来,并根据需要找出所需特定信息的过程;2)狭义的信息检索是指将从信息源中查找所需特定信息的过程。
3)分为三大类:文献检索、数据检索、事实检索。
2. 文献检索方法:1)常用法:利用文摘、题录等各种检索工具查找文献的方法,有顺查法、逆查法、抽查法。
2)追溯法:利用文献末尾所列的参考文献逐一跟踪查找的方法。
3)循环法:先利用检索工具查出有用的文献,再利用这些文献所附参考文献追溯查找。
3. 文献检索的内容特征途径(判断题):1)分类途径:以分类号作为检索标识。
特点是检索的系统性强、检全率高。
适合族性检索。
《中国图书馆分类法》的分类表组成:基本部类、基本大类、简表、详表和辅表。
2)主题途径:以主题词(关键词)作为检索标识,特点是检准率高。
适合于专指性强的特性检索。
4. 文献检索策略:文献检索策略是进行文献检索的具体方案。
检索课题分析检索课题:①所属学科、主题内容;②确定文献类型;③检索深度;④年代;⑤语种选择检索工具(数据库):原则:储存内容,检索途径、报道时差、专业特点确定检索途径:根据已知条件选择主题途径、分类途径、著者途径、序号途径等选择检索方法:①常用法;②追溯法;③循环法实施检索策略,浏览初步检索结果。
调整检索策略,实施并输出检索结果。
索取原始文献。
查找文献线索索取原始文献检索结束分析检索课题查找文献线索5. 科技文献分类:·按科技文献外在的物质形态分类:1)印刷型:铅印、油印和胶印等。
2)微缩型:通过现代技术手段将所需文献缩小复制到胶片等材料上。
3)机读型:计算机可读型文献,磁带磁盘等。
4)声像型:唱片、录音带、录像带、光盘、幻灯片和科技影片等。
·按科技文献的加工深度分类:1)零次文献:一次文献的素材;2)一次文献:文献的基本形式,检索的对象;3)二次文献:检索一次文献的工具;4)三次文献:对一次与二次文献分析研究的成果。
信息检索课程内容 (1)
教学参考,学习资料)
B.查询词的主题关联与简练
例如,查找“小学三年级关于时间的名人名言”
检索词:时间,名言
C.根据网页特征选择查询词
例如,免费下载《檀香刑》。
检索词:intitle:《檀香刑》免费下载
1)布尔逻辑检索
空格、“+”——逻辑与
“吉林省旅游资源”
2.访问检索需要的文献,找到文献后,可提交馆际互借或文献传递申请获取全文。
简介
CASHL是中国高校人文社会科学文献中心(China Academic Social Sciences and Humanities Library)英文翻译的缩写,中文名称为开世览文。它是在教育部的统一领导下,本着“共建、共知、共享”的原则、“整体建设、分布服务”的方针,为高校哲学社会科学教学和研究建设的文献保障服务体系,是全国唯一的人文社会科学文献收藏和服务中心。CASHL的宗旨是组织若干所具有学科优势、文献资源优势和服务条件优势的高等学校图书馆,有计划、有系统地引进和收藏国外人文社会科学文献资源,采用集中式门户平台和分布式服务结合的方式,借助现代化的网络服务体系,为全国高校、哲学社会科学研究机构和工作者提供综合性文献信息服务。
注:无论简单检索、高级检索,都可实现跨库检索
4.检索结果分析
分组排序
5.检索结果获取
免费浏览阅读器下载获取目录
6,阅读器使用
caj、pdf阅读器,复制、粘贴转换成word文档
练习题(小学教育)
1.查找我校赵慧君教授2010年以来发表的论文。
2.查找初等教育的核心期刊有哪些?
3.查找中小学教育核心期刊《中小学管理》/《课程·教材·教法》/《外国中小学教育》/《现代中小学教育》2015年以来收录的论文有哪些?
1-2 信息检索基础知识2014
逻辑或:OR
• 符号:OR或+,又称“或者”或“或含” • 表示检索词A或检索词B只要任意一个(或同 时)出现在文章中,文章即可命中。 • 其作用是扩大检索范围,提高查全率。
逻辑非:NOT
• 符号:NOT或-,又称“非”或“不含”
• 检出的文章中必须包含检索词A但不能包含检
索词B。即在含有检索词A的文献中去除含有
举例:
以下是图书馆图书分类法经济类的片段: F 经济 F7 经济贸易 F71 国内经济贸易 F72 中国国内经济 F720 方针政策及其阐述 F721商业经济体制和组织 F721.1 国有商业企业 F721.2 供销合作社、集体商业 F721.4私人商业 其中,F721.2的上位类号为 F721 ,它的含义 为 商业经济体制和组织,F721.1与F721.2之间为 同位类 关 系。私人商业所属的中国图书馆图书分类法大类号和 类名是 F经济 。
叙词
• • • 叙 词:是经过规范化处理的,以基本概念为基 础的表达信息内容的词和词组,也叫受控词。 使用叙词的优点:选择宽广的概念,查全率高, 避免由于同义词、近义词的存在而产生的漏检。 缺点:使用词表,带有间接性,且非专业人员很 难掌握;由于受控语言被限制在预先制定的概念 或类目内,不能表示新的概念;词量有限,影响 查准率。
第3节 信息检索技术
本节重点
• • 重点掌握布尔逻辑算符的含义及组配方法 难点:各种算符的混合组配
第3节 信息检索技术
计算机检索式(逻辑表达式):
检索词+有关算符
1、布尔逻辑检索
2、位置检索
3、短语检索
4、截词检索
5、字段限定检索
2.3.1 信息检索技术:布尔逻辑检索
布尔逻辑检索(boolean logic)
信息检索技术[1]
基本检索技术
search skill
信息检索技术[1]
1.检索算符 2.检索策略 3.检索评价
信息检索技术[1]
检索算符
1、布尔检索 AND(默认、空格、+、all of these words) OR(必须大写,关键词1、关键词2,|,/,any of these words) NOT(-, none of these words) NEAR
《中图法》共五大部类,二十二个大类,53,811个类目 和通用类目)。 部类
大类(一级类目)
二级类目
三级类目
四级类目
五级类目
…
中图法8种复分表
信息检索技术[1]
《中图法》五大部类
马克思主义、列宁主义、毛泽
哲学 宗教
社会科学 自然科学
综合性图书
信息检索技术[1]
《中图法》结构
1)类目结构
文献。
信息检索技术[1]
(2)限制符 在一些检索系统中,提供一类表示文献类型、文种
等的限制符号,放在检索式的右边,起到约束检索结 限制符的使用和字段检索一样,也要遵循所选检
库的规定。 如在DIALOG系统中: /ENG ---要求在英语出版物中检索 /NONENG---要求在非英语出版物中检索 /1998:2000----要求在1998--2000年的出版物 Chess/PAT---表示检索结果只要chess这一主题的
信息检索技术[1]
后缀代码(suffix code),对应基本索引(basic index),反映文献
段代码放在检索词之后,并用“/”号连接。
另一种则是反映形式特征的检索字段,如:作者、文献类型、语种、
前缀代码(prefix code),往往是用于表达文献外部特征的字段,即一些
信息检索技术(1)
第十三页,共61页。
截词符用来对检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方 法,通常用(chánɡ yònɡ) “?”或者“*”来表示。 截词方式: 按截断的位置来分共有三种:后截断、中间截断、前截断; 按截断的字符数量来分:有限截词(limited truncation)、无限截词(unlimited truncation)。 平时用得较多的是后截断(无限截词和有限截词)和中间截断(仅允许有限截词)。 (1)后截断 后截断即前方一致检索,是最常用(chánɡ yònɡ)的检索技术。将截词符放在一个词干 的后边,以表示其后可有无限或有限个字符。
第七页,共61页。
(2)逻辑(luó jí)“或”:用“OR”或“+”表示
在检索中,你也可以用逻辑“或”(OR)连接关键词。检索 式(A OR B )可以检索到包含A或者B或者A和B同时出现的文 献。OR最好用于针对一个(yī ɡè)概念的同义词检索。很显然, 使用OR可以扩大检索范围。
第八页,共61页。
第二十三页,共61页。
信息检索的基本(jīběn)流程
分析(fēnxī)检索要求 选择(xuǎnzé)数据库
确定检索词
修改检索式Biblioteka 不满意第二十四页,共61页。
构成检索式
第十一页,共61页。
图(a)
图(b)
图(c)
第十二页,共61页。
1.2 截词算符( truncation )
Comput*er
截词符就是用一个符号来代替单词的一部分或某个字母。截词符只用于英文检 索(jiǎn suǒ)。 截词检索(jiǎn suǒ)的作用是减少检索(jiǎn suǒ)词的输入而保 证相关检索(jiǎn suǒ)概念的涵盖,同时也方便解决语言文字拼写方面的差异 (如美式英语和英式英语),避免漏检。这样可以扩大检索(jiǎn suǒ)范围, 提高查全率,节省检索(jiǎn suǒ)时间。 看看下面这些例子:
出版专业实务-初级2020版-第一章-信息检索
东汉许慎编《说文解字》,首创部首编排法 是GB/T 13418-1992确认的汉子排序规则之一
(二)常用排检方法
4. 四角号码法
是GB/T 13418-1992确认的汉子排序规则之一 多用于编排汉语古籍索引
简称“中图法”
5. 中国图书馆分类法
是中华人民共共和国成立后编制的一种具有代表性的大型综合性图书分类法 5个基本部类、22大类
如《全国总书目》《全国报刊索引》
分经、史、子、集四部
6. 四部分类法
《四库全书总目》是四分法的典范
是我国古代图书分类的主要方法
第三节 数字化信息检索(一)是目前全球最大的中文搜索引擎 支持布尔逻辑检索、字段限制检索、短示和繁简中文查询等
一、网络检索工具
截词符号多用“?”或*
四、计算机检索技术与网络信息检索技巧
4. 限制检索 1. 选择核实的检索词
(二)网络信息检索技巧
2. 利用布尔逻辑运算符 3. 使用短语检索进行精确匹配
4. 利用高级检索
第四节 出版工作常用信息的检索方法
(1)利用“正史”艺文志、经籍志
(2)利用政书艺文志、经籍考
1. 古代著述的检索
2. 专业性百科全书:《社会科学百科全书》《中国文学百科全书》《世界历史百科全 书》《科学技术百科全书》《中国烹饪百科全书》《化工百科全书》等
3. 地域性百科全书:《北京百科全书》《黑龙江百科全书》《潮汕百科全书》等
是我国第一部现代大型综合性百科全书
1. 《中国大百科全书》
全书条目按条目标题的汉语拼音字母顺序排列
(二)百科全书的编排方式
条目之间靠参见系统相互联系,交叉而不重复
释文有长至十几万字的,也有仅百余字
大型百科全书的索引往往单独编为一卷或多卷
信息检索第1单元信息检索基础知识
第一节 信息存储的基本程序与方法
五、信息的存储
分类: 手工信息检索系统和计算机信息检索系统
发展: 手工信息检索系统 计算机信息检索系统
信息检索基础知识 C_Zhangyh
一、信息检索的概念
广义的信息检索,包括: 各类信息检索系统的建设(信息存储) 特定信息的检索(信息检索)
信息检索基础知识 C_Zhangyh
4 2020/5/12
第一节 信息存储的基本程序与方法
一、信息检索的概念
信息存储就是利用检索语言对文献信 息进行标引,形成文献标识并输入检 索系统,为检索者提供有规律的检索 途径。
四、信息的描述(著录与标引)
信息著录与标引的标准格式: 1、传统著录 2、机读目录(MACR) 3、元数据著录(Metadata)
信息检索基础知识 C_Zhangyh
18
2020/5/12
第一节 信息存储的基本程序与方法
五、信息的存储
信息存储:将经过加工处理的信息资源 按照一定的方式记录在相应的信息载体 上,组织成系统化的检索系统。
信息素养 == 信息意识 + 信息检索能力
信息检索基础知识 C_Zhangyh
8 2020/5/12
第一节 信息存储的基本程序与方法
二、信息组织
概念:对大量的信息进行收集,并对其 进行组织和控制,使之有序化。
实质:无序信息流——有序信息流 内容:信息筛选、信息描述、信息存储
信息检索基础知识 C_Zhangyh
存储:原始文献 --- 文献标识.存储 --- 检索工具
信息检索基础知识 C_Zhangyh
19
2020/5/12
第一节 信息存储的基本程序与方法
五、信息的存储
信息检索名词解释
1)信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。
狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。
相当于我们所说的信息查询(information search)。
2)零次文献:也叫灰色文献,未经公开发表或未交流于社会的文献。
如私人笔记,设计草图、实验记录、文章草稿、会议记录、书信文书、以及档案等。
其主要特点是内容新颖,但不成熟,不公开交流,难以获得。
3)一次文献(Primary Document): 以著者本人的研究或研制成果为依据而创作或撰写的文献,习惯上称做原始文献。
如期刊论文、科技报告、专利说明书、会议论文、学位论文等。
体现创作性。
其主要特点是内容新颖丰富,叙述具体详尽,参考价值大,但数量庞大、分散。
4)二次文献(Secondary Document):就是检索工具。
是将大量分散的无组织的一次文献经浓缩,整序的加工整理,编辑成目录、题录、文摘、索引等检索工具或数据库。
如文摘,目录、索引等。
它有存贮、检索、报道的功能。
体现高度的浓缩性。
其主要功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文献信息。
二次文献具有汇集性、工具性、综合性、交流性等特点。
5)三次文献(Tertiary Document):在一、二次文献的基础上,经过综合分析而编写出来的文献,如专题述评、动态综述、学科年度总结,进展报告以及数据手册、百科全书等参考工具书。
三次文献是情报研究的产物和成果。
具有很强的的综合性。
总之,一次文献(创造性),二次文献(有序化),三次文献(高度浓缩,提炼,再创造)。
6)以上四个级别的文献中,零次文献由于没有进入出版、发行和流通这些渠道,收集利用十分困难,一般不作为我们利用的文献类型。
信息检索课程内容 (1)
万方数据库资源系统是建立在因特网上的大型科技、企业信息平台,目前基本内容被整合为数字化期刊、科技信息、企业服务三个子系统。数字化期刊分为中国医学会系列杂志、大学学报、学术理论类期刊、技术实用类期刊、科学普及类期刊和英文版期刊六个系列。包括医药卫生、工业技术、农业科学、基础科学、社会科学、经济财政、教科文艺、哲学政法8大类100多个类目5000多种期刊,实现全文上网,从2001年开始,数字化期刊已囊括我国专业检索所有科技统计源期刊和重要社科核心类期刊。
宗旨:建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。
资源概况:集成高校所有资源,整合图书馆纸本馆藏、电子馆藏和相关网络资源,包括中外文图书、中外文期刊、中外文学位论文和特藏资源等,使读者在海量的图书馆资源中通过一站式检索(e读),查找所需文献,并能获取全文。
例:“laser(1w)printer”
“laser printer”、“laser color printer”
near算符:
(N) ,表示两个词在命中结果中相邻,词序可颠倒。
例:“computer(N)network”
“computer network”、“network computer”
(nN),表示两个词之间最多可夹入n个词,词序可颠倒。
网址:
读秀.2.检索方式
知识搜索
图书检索:简单检索、高级检索、分类浏览
论文(期刊论文、学位论文、报纸文章、会议论文)检索:简单检索、高级检索
3.文献获取
直接下载
文献传递
4.阅读器的使用
超星阅读器
1.简介
方正阿帕比技术有限公司推出的,电子图书、数字报纸、工具书库、年鉴库、图片库、外经贸库等六个频道。电子图书是数字内容资源的核心部分,包括250万册可供全文阅读的电子图书,400万册可供条目检索的电子图书,其中外文图书5000多种,民国期刊20000多期,中医古籍2000余册,国学要览80000余册,内容丰富的同时应用领域也非常广泛。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
甲骨 树皮 竹简 丝帛 等
纸介质 手写 雕刻印刷 活字排版 激光照排技术
感光材料为载 体 缩微胶卷 缩微平片
磁性或塑性材 料为载体 磁盘版 光盘版 联机版 网络版
缩微型
印刷型
信息按 载体类 型分
电子型
视听型
磁性或感光 材料为载体 唱片、录音 带、电影片、 录像带等
按载体类型分
一、按载体形式划分
(1)印刷型: 载体:纸张 记录手段:手写、打字、印刷和复印等 优点:便于直接阅读,使用方便 缺点:较笨重、存储密度低,不便于加工、整理和收藏。 此类型文献有:期刊、图书等 (2)缩微型: 载体:感光材料 记录手段:缩微照相 优点:存储密度较大、体积小、便于收藏保存、便于远距离传递 缺点:缺点是不能直接阅读,需借助缩微阅读机才能阅读 此类型文献有:缩微胶卷、缩微胶片等
(3)视听型(声像型) 载体:磁性和感光材料 记录手段:借助于特殊的机械装置(如复录机、摄像机、录像机等)直 接记录声音、图像 优点:直观、生动 缺点:制作成本较高,需要借助于一定的设备才能阅读 此类型文献有:唱片、录音带、录像带、幻灯片、电影片、多媒体资 料等 (4)电子型(数字型) 载体:光、电、磁介质 记录手段:利用计算机进行存储 优点:存储密度高,,出版周期短、易更新,传递信息迅速,存取速 度快,可以融文本、图像、声音等多媒体信息于一体,信息共 享性好、易复制,识别和提取易于实现自动化 缺点:需借助计算机等先进技术设备才能阅读 此类文献有:电子图书、电子期刊、联机数据库、网络数据库、光盘数据库
二、按加工层次分:
一次文献(Primary Document):
通常是指原始制作,即作 者以本人的研究成果为基本素材而创作(或撰写)的文献。 检索的目标 如期刊论文、科技报告、会议论文、专利说明书
二次文献(Secondary Document):是指文献情报工作者对
一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文 献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。二次文 献的重要性在于可以帮助人们查找一次文献。 检索的手段
人类最初是依靠自身来记录和传递知识的,但因 受自身条件的限制,无法将信息传递至远方和后世。 文献的产生,使信息的记载和传递形成一个飞跃。
文献构成三要素
文献由三个要素构成,知识、载体、记录方式三位 一体不可分割。
内容 形态 构成文献的 重要手段
信息、知识、文献的关系
知识
信息
文献
本课程所涉及的信息主要 为文献信息
信息检索原理
检索系统将用户的请求与信息集合中的信 息进行匹配运算,再将命中信息反馈给用户。
信息检索类型
按检索对象的性质划分:事实检索、数据 检索、文献检索 按检索方式划分:手工检索和计算机检索 计算机检索又包括联机检索、光盘检索和 网络检索。
联机检索
联机检索是指用户利用计算机终端,通过通信 线路或网络,在联机中心的数据库中获取信息。 特点 同时检索多个数据库、数据质量高、检索机与 主机是主仆关系、对检索人员要求高、而且检 索需要的费用高。
分类检索语言
按照学科范畴及知识之间的关系列出类目,并 用数字、字母符号对类目进行标识的一种语言 体系,也称分类法。
目前常用的分类法有《中国图书馆图书分 类法》(简称中图法)、 《美国国会图书馆 分类法》、 《杜威分类法》、 《国际专利分 类表》。
分类语言用于检索信息的特点
具有等级结构,便于扩大和缩小检索范围 用分类号做检索标识,不存在文种的限制 分类表中的类目不能随时变化,不能及时反映新的 学科技术,边缘交叉学科只能从学科门类进行检索 隶属于一个门类下,造成漏检
如目录、题录、文摘、索引、各种书目数据库
三次文献(Tertiary Document):是指利用二次文献,选用
一次文献内容,经综合,分析和评述后形成的指南性文献。
如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目
检索的对象+检 索的工具
文献结构示意图
原始文献 (一次文献) 文献整理 重组、浓缩
普遍认同的一个概念-- 信息普遍存在于自然界、人类社会和思维领域中, 它是客观世界中各种事物变化和特征的反映, 是客观事物之间相互作用和联系的表征, 是客观事物经过感知或认识后的再现。
信息的特性
客观性 传递性 时效性 转换性 共享性
知识(knowledge)的概念
知识是人们对客观事物存在和运动规律的认识, 是经过人脑加工处理过的系统化了的信息。 人们对事物由表及里、由现象到本质、由感性 到理性的认识深化,便形成了知识。知识是人类经 验和智慧的总结,是人们科学地认识世界、改造世 界的力量。
信息检索基础知识
本将主要内容
信息及相关概念 信息的分类 信息检索 信息检索语言
信息及相关概念
信息(Information)的概念
信息论的创始人克劳德· 香农(Claude E. Shannon)从通信系统理论的角度把信息定义为: 信息是用来消除不确定性的东西 。 控制论的创始人、美国科学家维纳(N. Wiener) 对信息的含义做了进一步的阐述 :信息是人们 在适应外部世界并使这种适应反作用于外部世 界的过程中,同外部世界进行互相交换的内容 的名称 。 中国学者钟义信对信息的解释:信息是事物运 动的状态与方式,是物质的一种属性 。
中图法简表
中国图书馆分类法样例
索书号举例
F123.16/W61 F123.16-2/Z24/2 F123.17/Z89/(2) F123.2/L66-2 F12/Y30
主题检索语言
由主题词汇构成,即将自然语言中的名词术语 经过规范化后直接作为信息标识,揭示主题概 念之间的关系。 主题语言表达的概念比较准确,具有专指 性,不同的专业领域或不同的数据库(一般为 外文数据库)有自己的主题词表。
文献信息的分类
信息的外延是一个纷繁的体系。按照 不同的标准和方法有不同的分类形式
文献分类总示意图
文献信息
按加工层次分 按出版类型分
一次信息 二次信息 三次信息
按 载 体 类 型 分 印刷型 缩微型 视听型 电子型
图书 期刊 会议论文 学位论文 专利文献 标准文献 科技报告 技术档案 政府出版物 产品样本
信息检索语言
1.检索语言的概念和作用
检索语言是信息存储与检索过程中用于描述信 息特征和表达用户信息提问的一种专门语言。
检索语言是人与计算机对话的基础。检索时的匹 配运算就是通过检索语言的匹配来实现的。存储信息 时,赋予信息特征标识,如题名、作者、分类号等; 检索信息时,用检索语言表达用户的需求。
知识的存在形式
1、存在于人脑记忆中 2、存在于实物中 3、用文字、图形、符号、代码、声频、视频 等技术手段记录在一定载体上的知识。 其中第三种形式称作文献
文献(literature、document)的概念
《中华人民共和国国家标准· 文献著录总则》给文献 下的定义是:“文献是记录有知识的一切载体”。
光盘检索
用光盘作为信息存储介质的数据库。 分为单机检索和局域网内的联机光盘检索。
网络信息检索
用户在自己的客户端上,通过互联网和浏览器界面对网络 信息进行检索。 特点
数据库分布式存储,数量多,信息量大;由于超文本语传输 协议,提供了大量相关链接; 内容向多媒体发展,不仅有文本,还有图像、声音等; 数据库更新速度快; 检索功能强,索引多,易学易懂;但目前各数据库检索界面 和检索技巧不尽相同,给使用者造成不必要的麻烦; 检索环境宽松,检索费用比联机检索低很多。 (网络信息检索也包括通过网络进行的数据库检索)
形成 检索 语言 和 名称 规范 形成
文献信息 输入 标识 (检索项)
检 索 输出 系 统
检 索 结 果
检索 分析 检索 选用 提问 课题 信息
检索提问 检索 标识 (检索词)
检索过程
信息检索的概念
将信息按照一定的方式组织和存储起来,并 根据用户的需求找出有关信息的过程。 广义的信息检索包括存储和检索两个过 程,狭义的信息检索就是指用户查找出所需 信息的过程。EI中的词表来自能《中国图书馆图书分类法》
1999年推出了第四版,共分5大部类22个基本大类。 22个基本大类是在5在部类的基础上第一次划分得 到的,称为一级类目,分别对应一个英文字母; 从基本大类起,再连续划分3次,得到二级、三级、 四级类目。 采用汉语拼音字母和数字相结合的方式对图书 进行分类,是目前国内各公共图书馆和高校图书馆 普遍使用的图书分类法,我馆藏书也是按照该分类 法进行排架。
检索举例
查找我馆馆藏中“英语”方面的2004年以 来出版的图书的藏书情况
2.检索语言的分类
自然语言
从信息内容本身自动抽取的。如题名、关键词、文 摘、作者所在机构等。
人工语言
根据检索的需要由人工规定的,采用规范词或代码 来专指某个概念或网罗与之相应的概念。可以将同义 词、近义词、相关词、多义词及缩略词规范在一起, 由人工控制,包括分类检索语言和主题检索语言。
二次文献
三次文献
书目 题录 索引 文摘
词典 名录 指南 手册 年鉴
评述 论文 丛集 百科全书
信息检索
检索过程分析
表达需求
检索者
检索系统
反馈结果
信息源(大量信息) 充分标注(检索语言) 可检索(检索技术、规则等) 可显示(屏幕显示或打印) 信息之间的连接等
信息存储与检索过程图
存储过程
标引 文献 分析 文献 著录 信息 信息 特征