第二讲 网络信息检索基本方法
第二讲网络信息检索基本方法
Exercise 2:
❖ 查找华中科技大学罗俊院士1999年以来发表的文章? ❖ AU=Luo Jun AND(CS= Huazhong Univ* )AND
PY>=1999 ❖ 查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。 ❖ “The legislation of human cloning” or human clone
【实例】在OCLC中输入communication n satellite;
④nN ( Near N)算符
❖ 表示两个检索词之间可以插入 n 个词并且词序可以颠 倒
❖ 表达式:A(nN)B:AB两词靠近,次序可变,中间 最多可加n个词。
【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、source w2 law
❖ 运算优先级顺序为NOT、AND、OR,可以用括号“( )”改变它们的运算顺序。 如A and (B or C),检索顺序为先B或C,然后再与A
实例:
❖ 【实例】在搜索引擎中输入“电视台-中央电视 台”,查询结果不包含“中央电视台”。
逻辑算符举例
①查找关于“动物保护”的文献: ❖ “动物 AND 保护”
②查找有关冬虫夏草的文献: ❖ “冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: ❖ “energy not nuclear”(energy - nuclear)
④检索西红柿种植技术的相关文章: ❖ (西红柿+番茄)*(种植+栽培+培育)
网络信息检索基本方法2
三、开放存取仓储
2)开放存取仓储的类型
(1)学科仓储是按照学科领域进行组织的开放存 取仓储,以arXiv为代表。 arXiv是最早、最大和最成 功的学科仓储,在物理学领域内有相当高的知名度和权 威性。学科仓储原来主要用于自然科学领域,随着因特 网的发展,现在社会科学领域也纷纷建立了学科仓储, 如,认知科学领域的CogPrint和经济学领域的RePEc。
二、开放存取期刊
2)开放存取期刊举要 (1)开放存取期刊目录( Directory of Open Access Journals,简称
DOAJ ,http : //) 由瑞典兰德大学图书馆(Lund University Libraries)、开放社会协会 (the Open Society Institute,OSI)与学术出版与学术资源联盟 ( The Scholarly Publishing and Academic Resources Coalition, SPARC ) 联合整理的OA期刊目录。DOAJ创立于2003年5月,其目的有两个: 一是增 加开放获取期刊的显示度,方便使用开放获取期刊;二是促进开放获取期 刊的使用, 增加开放获取期刊的影响力。其目标是收录涵盖所有学科和 语种的OA期刊。 截止2012年10月,DOAJ 收录的开放获取期刊已达到8,285种,数据库 收录论文915,800篇。其中4,108种期刊提供全文检索,占收录期刊的 49.6%。该系统收录的均为学术性、研究性的同行评议或经编辑部严格审 核的期刊,具有免费、全文、高质量的特点,并完全允许用户阅读、下载、 复制、传播、打印、检索或链接全文,对学术研究有很高的参考价值。收 录主题主要包括: 农业及食品科学、美学及建筑学、生物及生命科学、经 济学、化学、地球及环境科学、一般主题、健康科学、历史及考古学、语 言及文学、法律及政治学、数学及统计学、哲学及宗教学、物理及天文学、 一般科学、社会科学、工程学等17 种主题。
网络信息检索第二课
(2)Internet的发展阶段
1985年,美国国家科学基金会(NSF)规划建立了15个超级计
算中心及国家教育科研网,用于支持科研和教育的全国性规模的计算 机网络NSFNET,并以此作为基础,实现同其他网络的连接。 NSFNET成为Internet上主要用于科研和教育的主干部分,代替了 ARPANET的骨干地位。
第四代:分类细致精确(jīngquè)、数据全面深 入、更新及时的主题搜索。
14
精品PPT
搜索引擎的原理(yuánlǐ)
搜索引擎 (search engine) 并不是真正搜索互联网,它搜索的实际上 是预先整理好多个网页(wǎnɡ yè)索引数据库。
图 2-1 搜索引擎基本结构
15
精品PPT
搜索引擎的工作(gōngzuò)过程
5
精品PPT
A类网络地址:最高位为0,网络地址字段的长度仅仅为7位,主机地 址长度24个位,001.hhh.hhh.hhh---127.hhh.hhh.hhh,每个A类网 络地址包括(bāokuò)1600多万台主机,可以用于大型网络。
6
精品PPT
B类网络地址:最高两位为10,分别为网络地址字段和主机地址分配了 14个和16个二进制位,128.001.hhh.hhh---191.254.hhh.hhh,每个B类 网络地址包括(bāokuò)6万多台主机,适用于中等规模的网络。
其特点是由系统先将网络资源信息系统地归类,用户可以清晰方 便地查找到某一类信息,用户只要查询该搜索引擎的分类体系,层 层深入即可。
比较适合于查找综合性、概括性的主题概念,或对检索准确度 要求较高的课题。
不足之处在于搜索范围(fànwéi)比以全文为主的搜索引擎的范围 (fànwéi)要小得多,加之这类搜索引擎没有统一的分类体系,用户对 类目的判断和选择直接影响到检索效果,同类目之间的交叉,又导 致许多内容的重复,类目太细,用户无所适从。
网络信息检索途径和方法
网络信息检索方法与途径作为知识经济时代不可缺少的工具,因特网正将全世界丰富的信息资源带到我们每个人的面前。
可以说,人们所需要的信息绝大多数都可在因特网上获得,而且大多数都可以免费获得,关键在于能否准确地找到。
用户若想花最少的时间和金钱,获得网络上丰富的信息,掌握一定的检索方法和技巧必不可少。
图书馆作为信息的集散地,在网络的影响下纷纷向着电子化、数字化、网络化方向发展,为了使更多的读者充分利用图书馆资源并实现资源共享,众多图书馆建立了馆藏机读目录数据库并提供网络服务。
目前。
网上有6000多个电子图书馆,包括美国国会图书馆在内的600多所著名公共图书馆、大学图书馆及4000多个学术机构的馆藏机读书目数据库,通过网络对外开放,它可以完全不受时间、距离的限制,这也是在网络环境下的图书馆优于传统图书馆的地方。
网络的开放性及交互性使得网上有很多动态性很强的信息,如网上新闻、政策法规、通告、会议消息、论文集、研究成果、产品消息、广告、BBS等,这些网上动态信息都是网络信息资源的重要组成部分。
网络信息检索是一种基于超文本方式的信息查询方式,超文本查询是以结点为单位组织各种信息,一个结点是一个“信息块”。
在信息的组织上采用网状结构,结点之间通过关系链加以链接,构成表达特定内容的信息网络。
网络信息检索策略设计遵循快、准、全及低成本的原则,以实现检索策略最优化。
与传统信息检索相比,网络信息检索具有如下特点:(1)具备网状链拉结构。
能够按照不同查询条件链接结构,按照不同查询条件链接点信息,以供浏览、查询,具有较强的索引功能。
(2)信息丰富。
结点媒体多样化,每个结点都能集成文本、图形、图像、声音、视频、动画等多种媒体,并能用多窗口图形界面予以表现。
(3)导航能力强。
可引导读者在复杂的网络信息图中漫游而不至于迷失方向。
用户可以利用导航机制了解其所在网络图中的位置。
(4)良好的编辑功能。
包括修改、增加、删除结点和链接的能力,对结点内的信息也具有良好的编辑能力,可以进行多窗口编辑。
第二章信息检索
位置运算
同句检索: 要求参加检索运算的两个检索词必须在同一自然 句中出现。
位置运算符: (S)--sentence
同字段检索:对同句检索条件进一步放宽,可以使用同字段 检索。
为了保证信息能存得进、取得出,就必须使信息存储所依 据的规则与信息检索时所依据的规则尽量做到一致。
提问(检 索)语言
匹配
信息标 识语言
信息检索的基本原理
信息处理人员
用户
信息分析、著录、标引
检索语言
信息需求分析
信息的表示
数据库 匹配比对 输出检索结果
检索提问
三、信息检索的类型
按信息检索的内容,信息检索可分为:
逆查法:也叫倒查法,与顺查法相反,是利用所选定 的检索工具,按照由新到旧、由近及远、由现在到过去的 逆时序逐年前推查找,直至满足课题要求为止的查检方法。
这种方法多用于新课题、新观点、新理论、新技术的 检索,检索的重点在近期信息上,只需查到基本满足需要 时为止。倒查法的目的是要获得某学科或研究课题最新或 近一段时间内所发表的文献或研究进展状况。此方法省时, 查得的信息有较高的新颖性,但查全率不高。
2、题名途径 通过文献的题名来查找, 包括文献的篇名、书名、 刊名等。
第三节 信息检索途径
3、分类途径 按学科分类体系来检索文 献。这一途径是以知识体 系为中心分类排检的,较 能体现学科系统性,反映 学科与事物的隶属、派生 与平行的关系。
4、主题途径 通过反映文献资料内容的主 题词来检索文献,便于用 户对某一问题、某一事物 和对象作全面系统的专题 性研究。
2017第二讲(1)-信息检索概述 二
6. 输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的 记录以及相应的字段(全部字段或部分字段),将结果显 示在屏幕上、存储到磁盘或直接打印输出,网络数据库检 索还可以提供电子邮件发送,整个检索完成。
第三节 检索效果的评价
• 检索效率 检索效率是衡量检索效果好坏的指征,一般通 过查全率和查准率两方面来反映。 查全率:指系统在进行某一检索时检索出的相关文 献与系统文献库中的相关文献总量之比率。 查准率:指系统在进行某一检索时,检索出的相关 文献量与检索出的文献总量之比率。 与查全率和查准率相对应的指标是漏检率和误检率。
检索效果的评价公式
查全率=被检出相关文献量/相关文献总量 =(a/a+c)×100%
例如:查有关“雷尼替丁的含量测定”的文献
运用布尔逻辑技术的检索式可写成: 雷尼替丁 AND 含量测定
其作用是缩小检索范围,提高查准率。
逻辑或:是一种具有概念并列关系的组配
用OR(or)或 +算符表示 A OR B:表示让系统查找含有检索词A或B,或同时包 括检索词A和检索词B的信息。
如:查有关 “维生素C”的文献 (“维生素C”: vitamin C 又称 L-ascorbic acid抗坏血酸)
例: 自行车(模糊) 扩展概念:脚踏车、单车等
精确检索
也称精确匹配或完全匹配,结果中包含与检索词完全相同的内容。
提示
目前计算机数据系统除了提供专业检索要 写检索表达式检索外,更多的会提供其他 检索途径如基本检索、高级检索等,其检 索界面以检索输入框及检索条件限定框的 格式让用户根据已知条件一步步构建检索 表达式来检索文献(构建原理是一致的)
trace elements not zone 微量元素 not 锌
第二讲 网络信息资源检索
宽带应用领域
网络电视 宽带电影
网上多媒体 娱乐 实时通讯 与交流
网络游戏
网络多媒体 课堂
1.3 Internet 的互联原理
(1)通信的保证机制——TCP/IP协议 (2)地址的标识技术——IP地址和域名DN (3)运作的基本模式——客户机/服务器系统 (4)URL(网址)
(1)TCP/IP协议
•用户可通过有名或匿名连接方式对远程服务器进行访 问,查看和索取需要的文件。用户可将本地文件上载 (upload)给远程主机,更多情况是从远程主机上下载 (download)文件。(包括文本、图像、声音、多媒体、 软件或数据文件等)
(3)远程登录(Telnet)
是指本地计算机通过 Internet访问远程计算机上的硬 件资源、软件资源和信息资源 的过程。 随着 www的普及,Telnet已少 有使用。
查询检索器
定期搜集信息
利用能够从互联网上自动收集网页的 Spider系统程序,自动访问互联网,并沿着任 何网页中的所有URL爬到其它网页,重复这过 程,并把爬过的所有网页收集回来。 搜索引擎在搜索网站时,总是更为全面 和经常地搜索常用的网站(例如用户经常点击 和带有许多链接的网站)
建立索引数据库
HTTP (Hyper Text Transfer Protocol)
超文本传输协议: HTTP是Web客户机和 服务器用于在网上传输、 响应用户请求的协议。 就是告诉浏览器去访问 使用HTTP的Web页。
第二节 搜索引擎的使用技巧
2.1 搜索引擎的工作原理
搜索引擎的英译名为Search Engine,是收录网页 全文索引的数据库。指通过网络搜索软件或网站登陆 等方式,将互联网上大量网站的页面收集到本地,经 过加工处理而建库,从而能够对用户提出的各种查询 作出响应,提供用户所需的信息。 搜索引擎也不能真正理解网页上的内容,它只能机 械的匹配网页上的文字 至少由三部分组成: 爬行器(定在网页标题中: intitle:
计算机的信息检索技术有哪些详解信息检索的基本原理与方法
计算机的信息检索技术有哪些详解信息检索的基本原理与方法信息检索是指通过计算机技术,从大量数据中快速找到所需信息的过程。
随着互联网的普及和信息爆炸的时代,信息检索技术的重要性日益突出。
本文将详解信息检索的基本原理与方法,以及常见的信息检索技术。
一、信息检索的基本原理信息检索的基本原理是通过索引和检索两个步骤实现的。
首先,在建立索引的阶段,将待检索的数据进行预处理,提取出关键词和相关信息,并建立索引文件。
索引文件包含了每个文档中所有的关键词及其所在位置的信息。
其次,在检索的阶段,用户输入检索词,系统根据索引文件快速定位到相关文档,并将其返回给用户。
二、信息检索的方法1. 布尔检索法布尔检索法是最早的信息检索方法之一,它通过逻辑运算符(例如AND、OR、NOT)将用户检索词与索引文件中的关键词进行匹配,从而找到满足要求的文档。
这种方法简单直接,但需要用户具有一定的逻辑思维能力。
2. 向量空间模型向量空间模型将文档表示为向量,并利用向量之间的相似度进行检索。
在该模型中,每个文档可以看作是一个向量,而检索词也可以转换为向量。
通过计算文档向量与检索向量之间的相似度,可以确定与用户需求最匹配的文档。
3. 概率检索模型概率检索模型基于信息检索的概率理论,利用检索词在文档中出现的概率和文档的相关性进行检索。
常见的概率模型包括贝叶斯模型和语言模型。
这种方法能够更准确地计算文档与检索词的相关性,提高检索结果的质量。
4. 自然语言处理技术自然语言处理技术在信息检索中起着重要的作用。
通过对自然语言的分析和理解,能够更好地理解用户查询的意图,并将其转化为机器可理解的形式。
常见的自然语言处理技术包括词法分析、句法分析和语义分析。
三、常见的信息检索技术1. 网页搜索技术网页搜索技术是信息检索中最常见的应用之一。
通过搜索引擎,用户可以快速找到互联网上的相关信息。
网页搜索技术常用的算法包括页面排名算法(例如PageRank算法)和关键词匹配算法(例如倒排索引)。
信息检索的基本办法和基本技术
一种信息检索。其检索结果是基本事实。如某个人或某个组织 的基本情况,某一件事发生的时间、地点、过程等。
文献、事实、数据检索关系图
2、 按信息组织方式划分
(1) 全文检索 是指检索系统中存储的是整篇文章或整本书。 检索时,用户可以根据自己的需要从中获取有关的文章、段、 句、节等信息,还可以进行各种频率统计和内容分析。
(2) 超文本检索 是指信息在系统中的组织方式不同而言的。 从组织结构上看,超文本的基本组织元素是节点和节点间的逻 辑联接链。与传统文本的线性顺序不同,超文本检索强调中心 节点之间的语义联接结构。其检索模式是“哪里”到“什么”。
(3) 超媒体检索 是对超文本检索的补充。其存储对象超出了 文本范畴,融入了静、动态图像(形)以及声音等多种媒体信 息。信息的存储结构从单维发展到多维,存储空间范围在不断 扩大。
3、按使用不同的工具和手段划分
(1)手工检索 是指人们通过手工的方式来存储和 检索信息,其使用的检索工具主要是书本式、卡片式 的信息系统,如目录、索引、文摘等。
(2)计算机检索 是指人们在计算机检索网络或终 端上,使用特定的检索指令、检索词和检索策略,从 计算机检索系统的数据库中检索出所需要的信息的过 程,其检索是在人机的协同作用下完成的。
第二章 信息检索的基本方法和基本技术
第一节 现代信息检索的概念与类型
一、信息检索概念
信息检索(广义):是从任何信息集合中识别 和获取所需信息的过程及其所采取的一系列 方法和策略。它包括存储与检索两个方面。
信息检索(狭义):即从检索工具和检索系统 中查找出所需信息的过程。
二、 现代信息检索的类型
1、 按存储和检索内容划分
最新第2章-信息检索基本方法精品文档
例:wom?n :woman、women …
③ $ 截一个字母 或 0个字母
例:Hof$man* :Hofman、Hoffman、 Hoffmann、Hoffmanova …
位置算符
① N —— 表示两词相邻,顺序可以颠倒 ② W —— 表示两词相邻,但顺序不能颠倒 ③ SAME —— 表示两词必须出现在同一句子
从属和并列关系实例:
B 哲学
B0 哲学理论 B1 世界哲学 B2 中国哲学
B20 唯物主义与唯心主义(总论) B21 古代哲学 B22 先秦哲学(公元前221年) B23 秦汉、三国晋、南北朝哲学(公元前221年~公元589年) B24 隋、唐、宋、元、明、清哲学(589年~1840年) B25 近代哲学(1840年~1916年) B26 现代哲学(1919年~ ) B27 马克思主义哲学在中国的传播与发展
等同关系——同义词/近义词
• 异形同义词 • 缩写和全称 • 商品名、俗名、学名 • 化学物质名称和化学物质表达式 • 英文同根词
3. 逻辑非——A NOT B;A-B
• 用以排除不希望出现的检索词 • 用以缩检,提高查准率
AB
如果两个关系紧密的检索词同在一检索 逻辑中,对其中一个使用NOT逻辑会导 致含另一个词的文献也被排除。
论包装材料及其包装 技术入此)
T 工业技术
TS 轻工业、手工
业
TS0 一般性问题
TS09 包装装璜技
术
2.3 主题法
主题法——是指直接以表示文献或信息 主题的语词作标识,提供字顺检索途径 ,并主要采用参照系统揭示词间关系的 标引和检索文献的方法。
主题法——主题语言
主题语言——由受控的自然语言语词直 接表达主题概念,按词语字顺排列主题 概念,主要用参照系统显示概念之间关 系的标引语言。
网络信息检索的方法与策略
网络信息检索的方法与策略随着互联网的普及和发展,信息化时代的到来,网络信息已经成为人们获取信息和知识的主要渠道,而信息检索技能也逐渐成为了人们必备的基本技能。
网络信息检索可以帮助我们快速准确地找到需要的信息,提高我们的工作和学习效率。
但是,网络信息检索也需要一定的方法和策略,本文将从以下几个方面介绍网络信息检索的方法与策略。
一、确定搜索关键词网络信息检索的第一步是确定搜索关键词。
搜索关键词是我们检索信息的重要依据,只有正确选择关键词,才能得到准确的搜索结果。
在选择关键词时,我们要根据所要求的信息内容,从多方面考虑,尽可能的综合考虑,选择与其相关的词汇。
同时也可以尝试使用相关性搜索,即相似或相关的词汇,以得到更加精细的搜索结果。
二、选择搜索引擎网络搜索引擎是我们在网络中检索信息的主要工具,它可以帮助我们快速地找到与我们想要查询的信息相关的网站和资料。
目前,市面上有许多搜索引擎可供选择,如谷歌、百度、搜狗等,不同的搜索引擎有着各自的优缺点和特点,我们要根据实际需要选择合适的搜索引擎。
三、使用高级搜索网络搜索引擎大多数提供了高级搜索的功能,通过高级搜索,我们可以更加准确、快速地找到所需的信息。
高级搜索可以根据我们的需求,调整搜索结果的时间、格式、语言、位置、网站等多个维度,以得到更加符合我们需求的搜索结果。
四、查看搜索结果在查看搜索结果时,我们要根据所需信息的重要性和优先级,仔细查看每个搜索结果的标题和简介,以决定进一步查看详细信息的必要性和关注度。
同时,我们要注意排除一些与自己搜索内容无关的信息和广告等。
五、筛选和整理信息在通过搜索引擎获取到需要的信息后,我们还需要对这些信息进行筛选和整理,以便更好地使用和管理。
筛选和整理的重点是抓取有用的信息,剔除无用信息。
可以将信息进行分类、整理,制定个人信息管理系统,新近信息有计划地进行整理和更新。
六、保持持续学习网络信息检索是一个不断学习和提高的过程,我们需要始终保持学习的态度和意识,定期学习和了解新的搜索技巧和方法,以逐步提高自己的搜索能力和效率。
网络信息检索方法
网络信息的检索方式网络信息检索方式指网络信息检索系统或数据库在检索首页界面或网页的各个不同检索区上设置的检索人口的总称。
检索方式有:简单检索、复合检索、高级检索、分类(浏览)检索、导航检索、专家检索等。
1.简单检索(SimPle Search) 也有称初级检索、自由词检索、基本检索。
指在数据库首页的检索词输入框(或称查询提问框)内输入一个单词或词组,提交检索工具查询的一种检索方式。
这是最基本的检索方式。
2.复合检索(Combine Search) 也称布尔逻辑组配检索(Bo01ean Search),或简称组配检索。
复合检索指在任意字段情况下在检索式输入框内输入复合逻辑检索式提交检索工具查询的一种检索方式。
3.高级检索(Advanced Search) 高级检索指在已设定的高级检索窗口中输入多个检索词,运用逻辑组配关系,查找同时满足多个检索条件的数据,在高级检索界面上一次性实现本应多次检索的结果的一种检索方式。
4.目录检索(Category Search)(或称分类检索) 有些检索工具,如雅虎、万方,提供分类目录检索。
目录检索是指目录按类名分类,每类又分若干子类目,层层逐级展开,最后点击末级类名,显示网页名链接和简短内容摘要,点击链接,显示相关网页内容(如雅虎),或显示该类的文献记录(如万方、维普)。
5.导航检索(NaVigation Search)或称浏览检索(Browse Search) 导航检索与目录检索相似,指在系统设置的导航区内按检索树格式逐级展开和进行浏览选择的检索方式。
导航检索有学科分类导航检索和刊名导航检索。
分类导航检索在选择到分类未级时会显示该类的全部文献记录。
刊名导航则在按刊名分类或字顺查到所需刊名时会显示该刊年份和期号,在选定期号后即会显示该期的目录,以供选择某文的题录、文摘或全文,如维普。
6.专家检索(Expen Search) 指系统在检索页面上设置一个较大的提问框供用户输入检另策略。
信息检索第2讲
信息检索原理及方法
信息检索概述
第一节
一、信息检索的含义 信息检索通常是信息用户为处理解决各种 问题而查找、识别获取相关的事实、数据、 知识的活动及过程。完整的信息检索,还包括 信息的存储。由此可知,信息检索的全过程 应包括两个主要的方面:
1)信息的标引和存储过程 对大量无序的信息资源进行标引处理, 使之有序化,并按科学的方法存储,组 成检索工具或检索文档,即检索系统的 组织过程。 2)信息的需求分析和检索过程 分析用户的信息需求,利用已组织好 的检索系统,按照系统提供的方法与途 径检索有关信息,即检索系统的应用过 程。
• 二、信息检索效率 • 信息检索效率是研究信息检索原理的是评 价一个检索系统性能优劣的质量标准,它始终 贯穿信息检索和信息存储的全过程。衡量检索 效率的指标有查全率、查准率、漏检率、误检 率、响应时间等。目前,人们通常主要以查全 率和查准率这两个指标来衡量。
1、查全率 利用检索系统进行某一课题检索时,检索出的相 关信息量(w)与该系统信息库中存储的相关信息量(x) 的比率称为查全率(R),用公式可表示为: R=
2、为人们更新知识、实现终生学习提供路 径 在当代社会,人们需要终生学习,不断 更新知识,才能适应社会发展的需求。
掌握信息检索的方法与技能,是形成合理知 识和更新知识的重要手段,是做到无师自通、 不断进取的主要途径。
2.1.2 信息检索类型
信 息 检 索 类 型
文献信息检索
依检索内容划分
数据信息检索 事实信息检索
•
• •
2、计算机检索系统
计算机检索系统又称现代化检索系统,是用计 算机技术、电子技术、远程通信技术、光盘技术、 网络技术等构成的存储和检索信息的检索系统。 • 按使用的设备和采用的通信手段,可分为联机 检索系统、光盘检索系统和网络检索系统。
信息检索的基本方法和基本技术
分为标题词、元词、叙词和关键词。
(3) 代码语言
是指对事物的某方面特征,用某种代码系统来表 示和排列事物概念,从而提供检索的检索语言。如化学 分子式。
按照表达文献的特征划分:
(1)表达文献外部特征的检索语言——题名、责任者、 文献编号等。
(2) 超文本检索 是指信息在系统中的组织方式不同而言的。 从组织结构上看,超文本的基本组织元素是节点和节点间的逻 辑联接链。与传统文本的线性顺序不同,超文本检索强调中心 节点之间的语义联接结构。其检索模式是“哪里”到“什么”。
(3) 超媒体检索 是对超文本检索的补充。其存储对象超出了 文本范畴,融入了静、动态图像(形)以及声音等多种媒体信 息。信息的存储结构从单维发展到多维,存储空间范围在不断 扩大。
(1) 文献信息检索 即查找出用户所需文献线索或原文
的检索。其检索结果是文献信息。如查找某一研究课题一定年
限内的有关文献,或对一项发明创造进行文献查新等。
(2) 数据信息检索 是指查找出用户所需特定数据、公
式或图表形式的检索。其检索结果是数据信息。如查找某一数 据、公式、图表、价格,某种物质的化学分子式,某种设备的 型号与参数等。数据检索是一种确定性检索。
3、综合法 综合法又称为分段法或交替法,是顺查
法、倒查法、抽查法与追溯法交替使用的 一种方法。这种方法既利用检索工具检索 文献,又利用文献后边的参考文献进行追 溯,两种方法交替使用,直到结果满意为 止。
(二)信息检索的途径
1、分类途径 2、主题途径 3、著者途径 4、其它途径
四、信息检索的程序
(3) 事实信息检索 是指以特定的事实作为检索对象的
最新第2章信息检索基本知识ppt课件
布尔逻辑运算符优先级
• 布尔运算符优先级比较
–有括号时:括号内的先执行; –无括号时:NOT > AND > OR
• 例:检索“唐宋诗歌”的有关信息。 – 关键词:唐、宋、诗歌; – 检索表达式:
• (唐 OR 宋)AND 诗歌; • 唐 AND 诗歌 OR 宋 AND 诗歌; – 错误表达式: • 唐 OR 宋AND诗歌; • 唐 AND 宋AND诗歌; • 唐 OR 宋OR诗歌; • 唐AND 宋OR诗歌;
3、事实检索
是以具体事项为检索内容的信息检索。
(二)按是否使用检索工具划分 1、直接检索
就是指利用一次文献进行检索,这是以前比较常用的一 种查找方法。所花时间多和精力大,检出文献少。
2、间接检索
就是指利用各种检索工具获得文献线索,再根据线索去 查找原始文献线索的方法。
(三)按信息检索手段划分 1、传统信息检索
一、检索工具的功能
1、报道功能 2、存储功能 3、检索功能
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。 2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类录 2、文摘 3、索引
目索文录引摘:::是把是按一一照种种某或著种多录明种文白文献 题易献录懂中和的具内顺有容序检摘编索要排意的义检文的索献特 工清征具单分。或别清著册录,、通排常序以并一注 如个明:完出人大整处复的以印资出供料版查单检位的或工收具 藏书单。位索为引著的录基的本组基织本单单 元位是。条目,每个条目一般 如由:序《全号国、新书标目识》或索引词、 注释《社、科出新书处目等》 若干环节
2、三者提供的资料不同: 目录提供某一方面较成熟系统的知识,索引、文摘提供相对分散 的资料线索。
第二讲 网络信息检索基本方法PPT资料63页
②(nW) 算符
❖ 表示两个检索词之间插有n个词,但顺序不能颠倒。 ❖ 表达式: A(nW)B AB两词靠近,次序为A先B后,中间最多
可加n个词。 ❖ 举例:communication(2w)satellite,只检索出
网络信息检索 基本方法
网络信息检索的基本技术 网络信息检索的基本途径 网络信息检索基本步骤
信息检索过程的实质:
计算机将检索提 问词
文献记录标引词
MACTH
一、网络信息检索的基本技术
1.布尔逻辑检索(boolean logic)
逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索 标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。 主要运算符有 “和(and,*)”、“或(or,+)”、“非(not,-)”。
④检索西红柿种植技术的相关文章: ❖ (西红柿+番茄)*(种植+栽培+培育)
Exercise1:
❖ 查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
❖ Goolge的默认运算符就是逻辑“与”,用空格、 “AND”和“+”都表示,而逻辑“非”只能用“-”而 不能用“NOT”表示。
学生奖学金与竞赛信息
/web/membership/students/scholarshipsawardscont ests/SAG_homepage.html
第2章 信息检索的基本方法2016
缺点:
1、通常不适合族性检索,查全率比分类号低 2、由于很规范,非专业人士难以掌握
信息检索的基本方法
2.1 信息检索的基本原理 2.2 检索途径 2.3 检索语言
2.3.1 分类法
中国图书分类法
国际专利分类法
2.3.2 主题法
2.4 检索方法
2.3.1 检索语言—分类法
反馈
信息检索的基本方法
2.1 信息检索的基本原理 2.2 检索途径 2.3 检索语言
分类法 主题法
2.4
2.4.1 数据库检索的基本流程 检索方法 2.4.2 检索技术 2.4.3 课题检索步骤
引文法
从一篇高质量的 文献出发 ……
Cited References
2003
Times Cited
越查越新
2003
2004
越查越旧
2001
2000
1998
课题如何起 源、 修正、变 迁、发展。
Related Records
该课题的演变、 最新进展。
2004
越查越深
1993
Citing
1999 1994
第2章:信息检索的基本方法
主讲人:盛 芳 Email:shengfang@ 电 话: 67791306 地 址: 图文信息中心535室
信息检索的基本方法
2.1 信息检索及其基本原理 2.2 检索途径 2.3 检索语言
2.3.1 分类法
中国图书分类法
国际专利分类法
详细著录文献的外部特征和内容特征。
具有既定的检索标识。
必须根据标识的顺序,系统科学地排列文
献、使其成为一个有机的整体。 提供多种检索途径。
网络信息检索的方法与特点
一、搜索引擎的概念 Search Engine
搜索引擎是用来对网络信息资源管理和检索的一系 列软件,是一种在Internet上查找信息的工具。
搜索引擎是一种用于帮助Internet用户查询信息的搜索 工具,是Internet网络上的信息检索系统,它以一定的 策略在Internet中搜集、发现信息,对信息进行理解、 提取、组织和处理,并为用户提供检索服务,从而起到 信息导航的目的。
NEXT
1、根据信息检索方式分类: 分类搜索引擎、关键词搜索引擎、混合搜索引擎
2、根据信息覆盖
3、根据搜索范围分类: 独立搜索引擎、集成搜索引擎
NEXT
五、常用搜索引擎简介
1、主要中文搜索引擎 2、主要英文搜索引擎 3、各具特色的专用搜索引擎
二、搜索引擎的构成及工作原理
信息资源搜集
各记录链接
用
访问
户
搜索
检
引擎
索 策 略
用户 接口
摘要信 息反馈
搜索引擎本地的 摘要信息数据库
各万维 网站点
资源
详细信息反馈
NEXT
搜索引擎有两个主要的功能: 1、收集网络信息资源,对其进行
索引并建立数据库。 2、提供网络的信息导航与检索服
务(主要的功能)。
德、美、日三家共建的世界著名的国际联机检索系统 之一;目前有220多个数据库;化学化工信息和专利 信息是该系统的特色。
现有70多个网络数据库,涉及:生命科学、水科学与 海洋学、计算机科学、材料科学、航空航天及社会科 学、人文科学等。
网络资源下载工具介绍
Flashget BT 迅雷 电驴emule 其它专用下载工具 (支持断点续传,建议大型文件借助以上工具,
NEXT
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
截词检索与截词检索算符
无限截断——同根词检索
后截断
如:physic*
Physic physics
physicst physicalism
也称“右截”
有限截断——单复数
如:physic??
Physic physics
physicst
前截断— —同根词检 索
computer
如:*computer
我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检 索出的文献更确切地符合用户要求,提高查准率。
①(W)—WITH算符
表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或 者是逗号。 【实例】在OCLC中输入communication w satellite;
②wN (with N)算符
LOGO
第二讲
2010-9-13
网络信息检索基本方法
【目的与要求】 掌握布尔逻辑检索等网络信息检索的基本技术。 熟悉网络信息检索的途径和步骤。
【重点】 布尔逻辑语言、邻近检索、截词检索
【难点】 邻近检索
影响信息检索质量的因素
信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐) 检索软件对信息检索的影响(不同的搜索引擎,数据库系统) 用户水平对信息检索的影响
6. 区分大小写检索(case-sensitive)
china--china,China,CHINA China—China Windows, windows
7. 模糊检索(fuzzy search)
又称概念检索(相关检索) 。当我们输入一个检索词时,搜索引擎不仅反馈 包括了该关键词的网址,同时也发来与关键词意义相近的内容。 如 “检索”, 查找,寻找, 找寻, 找一找……. 如 “土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、 “洋芋”等含义相近或相关的内容。 现在大多数搜索引擎都有这种功能,只不过模糊程度不同。
2.词组检索(phrase search)
通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形 式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精 确检索”(exact search)。 例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能 分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖 息地保护、动物资源保护等形式。
⑤(F)——Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同 一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。
⑥(S)算符
(S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。
“左截”
microcomputer minicomputer
中截断——用 于中美拼写不同 和单复数
如:m?n
man men
特别提示:“*”、“?”的比较 “*”,无限截词,代表0-无数个字符如regard*, 代表 regard, regarding, regardless等。 “?”,有限截词,代表0-1个字符,如library?,library, librarys。
运算优先级顺序为NOT、AND、OR,可以用括号“( 如A and (B or C),检索顺序为先B或C,然后再与A
)”改变它们的运算顺序。
实例:
【实例】在搜索引擎中输入“电视台-中央电视 台”,查询结果不包含“中央电视台”。
逻辑算符举例
①查找关于“动物保护”的文献: “动物 AND 保护”
大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在 特定的范围中,如: 标题(title) 图像(image) 文本(text) 统一资源定位符(url) 网站(site) 链接(link)
举例:url: Link: site:
Exercise 2:
查找华中科技大学罗俊院士1999年以来发表的文章? AU=Luo Jun AND(CS= Huazhong Univ* )AND PY>=1999
查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。
“The legislation of human cloning” or human clone and legislat* and LA=English and PY=2002
查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
Goolge的默认运算符就是逻辑“与”,用空格、 “AND”和“+”都表示,而逻辑“非”只能用“-”而 不能用“NO “与”。 在ISI Web of Knowledge平台上,逻辑算符 “AND”、“NOT”、“OR”不区分大小写,但不支 持以“*”、“-”、“+”代替。 在Science Direct中,逻辑“非”是用“AND NOT” 表示,而不是我们常用的“NOT”。
表示两个检索词之间插有n个词,但顺序不能颠倒。
表达式: A WN B AB两词靠近,次序为A先B后,中间最多可 加n个词。
【实例】在EBSCO中输入communication w3 satellite;
③N(Near)算符
N( Near)表示两个检索词可以互换顺,二者之间只能间隔 连字符、空格或者是逗号。 表达式:A N B :AB两词靠近,次序可变。 【实例】在OCLC中输入communication n satellite;
8.自然语言检索(natural language search)
即直接采用自然语言中的字、词、句进行提问式检索, 同一般口语一样。 智能检索 Could you please give me some information on English literature? 这种智能检索也是搜索引擎发展的趋势。
3. 邻近检索(proximity search)
又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特 定位置关系
文献记录中词语的相对 次序或位置不同,所表 达的意思可能不同
同样一个检索表达式 中词语的相对次序不 同,其表达的检索意 图也不一样 Eg:“粉末的 掺合与颜料包 装”
布尔逻辑运算符和词组 检索虽然能有效的扩大 和缩小检索范围,但 无法对检索词之间的 相对位置进行限制
思考:比较3个检索式检索结果的不同
“Information retrieval”/TI
Information AND retrieval /TI
Information(F) retrieval
不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 检索方式主要有:限定字段检索和限定范围检索 (1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。
①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊 名(JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese
Science Direct用双引号“”表示宽松短语检索,标点符号、连 字符、停用字等会被自动忽略,如检索式为“heart attack”会 检出包含“heart attack”和“heart-attack”的检索结果。
在该数据库中,精确检索是用“{}”表示。
邻近检索有时又被称为位置算符检索。 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系, 从而使检索出的文献更确切地符合用户要求,提高查准率。 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面 以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也 是如此。
4.截词检索(truncation/wildcat)
截词检索又称部分一致检索,是指在检索标识中保留相同的部分, 用相应的截词符代替可变化部分。检索中,计算机会将所有含有相 同部分标识的记录全部检索出来。截词符用“?”或“*”标识。
截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理 词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不 同形式等。
②查找有关冬虫夏草的文献: “冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: (西红柿+番茄)*(种植+栽培+培育)
Exercise1:
网络信息检索的基本技术
网络信息检索 基本方法
网络信息检索检索过程的实质:
计算机将检索提 问词
MACTH
文献记录标引词
一、网络信息检索的基本技术
邻近检索
基本技术
1.布尔逻辑检索(boolean logic)
逻辑检索是一种比较成熟、较为流行的检索技术,现代 的情报检索系统大多都采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布 尔逻辑运算符(boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、 表达某一主题概念的检索单元(或检索 标识)组配成一个具有复杂概念的检索式,以满足课题 检索的要求。 主要运算符有 “和(and,*)”、“或(or,+)”、“非 (not,-)”。