第二讲 网络信息检索基本方法

合集下载

第二讲网络信息检索基本方法

第二讲网络信息检索基本方法
organization methods for effective retrieval” ❖ 只需要在同一个字段中
Exercise 2:
❖ 查找华中科技大学罗俊院士1999年以来发表的文章? ❖ AU=Luo Jun AND(CS= Huazhong Univ* )AND
PY>=1999 ❖ 查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。 ❖ “The legislation of human cloning” or human clone
【实例】在OCLC中输入communication n satellite;
④nN ( Near N)算符
❖ 表示两个检索词之间可以插入 n 个词并且词序可以颠 倒
❖ 表达式:A(nN)B:AB两词靠近,次序可变,中间 最多可加n个词。
【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、source w2 law
❖ 运算优先级顺序为NOT、AND、OR,可以用括号“( )”改变它们的运算顺序。 如A and (B or C),检索顺序为先B或C,然后再与A
实例:
❖ 【实例】在搜索引擎中输入“电视台-中央电视 台”,查询结果不包含“中央电视台”。
逻辑算符举例
①查找关于“动物保护”的文献: ❖ “动物 AND 保护”
②查找有关冬虫夏草的文献: ❖ “冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: ❖ “energy not nuclear”(energy - nuclear)
④检索西红柿种植技术的相关文章: ❖ (西红柿+番茄)*(种植+栽培+培育)

网络信息检索基本方法2

网络信息检索基本方法2

三、开放存取仓储
2)开放存取仓储的类型
(1)学科仓储是按照学科领域进行组织的开放存 取仓储,以arXiv为代表。 arXiv是最早、最大和最成 功的学科仓储,在物理学领域内有相当高的知名度和权 威性。学科仓储原来主要用于自然科学领域,随着因特 网的发展,现在社会科学领域也纷纷建立了学科仓储, 如,认知科学领域的CogPrint和经济学领域的RePEc。
二、开放存取期刊
2)开放存取期刊举要 (1)开放存取期刊目录( Directory of Open Access Journals,简称
DOAJ ,http : //) 由瑞典兰德大学图书馆(Lund University Libraries)、开放社会协会 (the Open Society Institute,OSI)与学术出版与学术资源联盟 ( The Scholarly Publishing and Academic Resources Coalition, SPARC ) 联合整理的OA期刊目录。DOAJ创立于2003年5月,其目的有两个: 一是增 加开放获取期刊的显示度,方便使用开放获取期刊;二是促进开放获取期 刊的使用, 增加开放获取期刊的影响力。其目标是收录涵盖所有学科和 语种的OA期刊。 截止2012年10月,DOAJ 收录的开放获取期刊已达到8,285种,数据库 收录论文915,800篇。其中4,108种期刊提供全文检索,占收录期刊的 49.6%。该系统收录的均为学术性、研究性的同行评议或经编辑部严格审 核的期刊,具有免费、全文、高质量的特点,并完全允许用户阅读、下载、 复制、传播、打印、检索或链接全文,对学术研究有很高的参考价值。收 录主题主要包括: 农业及食品科学、美学及建筑学、生物及生命科学、经 济学、化学、地球及环境科学、一般主题、健康科学、历史及考古学、语 言及文学、法律及政治学、数学及统计学、哲学及宗教学、物理及天文学、 一般科学、社会科学、工程学等17 种主题。

网络信息检索第二课

网络信息检索第二课

(2)Internet的发展阶段
1985年,美国国家科学基金会(NSF)规划建立了15个超级计
算中心及国家教育科研网,用于支持科研和教育的全国性规模的计算 机网络NSFNET,并以此作为基础,实现同其他网络的连接。 NSFNET成为Internet上主要用于科研和教育的主干部分,代替了 ARPANET的骨干地位。
第四代:分类细致精确(jīngquè)、数据全面深 入、更新及时的主题搜索。
14
精品PPT
搜索引擎的原理(yuánlǐ)
搜索引擎 (search engine) 并不是真正搜索互联网,它搜索的实际上 是预先整理好多个网页(wǎnɡ yè)索引数据库。
图 2-1 搜索引擎基本结构
15
精品PPT
搜索引擎的工作(gōngzuò)过程
5
精品PPT
A类网络地址:最高位为0,网络地址字段的长度仅仅为7位,主机地 址长度24个位,001.hhh.hhh.hhh---127.hhh.hhh.hhh,每个A类网 络地址包括(bāokuò)1600多万台主机,可以用于大型网络。
6
精品PPT
B类网络地址:最高两位为10,分别为网络地址字段和主机地址分配了 14个和16个二进制位,128.001.hhh.hhh---191.254.hhh.hhh,每个B类 网络地址包括(bāokuò)6万多台主机,适用于中等规模的网络。
其特点是由系统先将网络资源信息系统地归类,用户可以清晰方 便地查找到某一类信息,用户只要查询该搜索引擎的分类体系,层 层深入即可。
比较适合于查找综合性、概括性的主题概念,或对检索准确度 要求较高的课题。
不足之处在于搜索范围(fànwéi)比以全文为主的搜索引擎的范围 (fànwéi)要小得多,加之这类搜索引擎没有统一的分类体系,用户对 类目的判断和选择直接影响到检索效果,同类目之间的交叉,又导 致许多内容的重复,类目太细,用户无所适从。

网络信息检索途径和方法

网络信息检索途径和方法

网络信息检索方法与途径作为知识经济时代不可缺少的工具,因特网正将全世界丰富的信息资源带到我们每个人的面前。

可以说,人们所需要的信息绝大多数都可在因特网上获得,而且大多数都可以免费获得,关键在于能否准确地找到。

用户若想花最少的时间和金钱,获得网络上丰富的信息,掌握一定的检索方法和技巧必不可少。

图书馆作为信息的集散地,在网络的影响下纷纷向着电子化、数字化、网络化方向发展,为了使更多的读者充分利用图书馆资源并实现资源共享,众多图书馆建立了馆藏机读目录数据库并提供网络服务。

目前。

网上有6000多个电子图书馆,包括美国国会图书馆在内的600多所著名公共图书馆、大学图书馆及4000多个学术机构的馆藏机读书目数据库,通过网络对外开放,它可以完全不受时间、距离的限制,这也是在网络环境下的图书馆优于传统图书馆的地方。

网络的开放性及交互性使得网上有很多动态性很强的信息,如网上新闻、政策法规、通告、会议消息、论文集、研究成果、产品消息、广告、BBS等,这些网上动态信息都是网络信息资源的重要组成部分。

网络信息检索是一种基于超文本方式的信息查询方式,超文本查询是以结点为单位组织各种信息,一个结点是一个“信息块”。

在信息的组织上采用网状结构,结点之间通过关系链加以链接,构成表达特定内容的信息网络。

网络信息检索策略设计遵循快、准、全及低成本的原则,以实现检索策略最优化。

与传统信息检索相比,网络信息检索具有如下特点:(1)具备网状链拉结构。

能够按照不同查询条件链接结构,按照不同查询条件链接点信息,以供浏览、查询,具有较强的索引功能。

(2)信息丰富。

结点媒体多样化,每个结点都能集成文本、图形、图像、声音、视频、动画等多种媒体,并能用多窗口图形界面予以表现。

(3)导航能力强。

可引导读者在复杂的网络信息图中漫游而不至于迷失方向。

用户可以利用导航机制了解其所在网络图中的位置。

(4)良好的编辑功能。

包括修改、增加、删除结点和链接的能力,对结点内的信息也具有良好的编辑能力,可以进行多窗口编辑。

第二章信息检索

第二章信息检索
(nN):表示算符两侧的检索词之间允许插入0-n个实词或系统禁用词, 两词词序可变。 如: 智能机器人(3N)控制,可检出“智能机器人控制”,“..控制 算法对智能机器人的影响”等
位置运算
同句检索: 要求参加检索运算的两个检索词必须在同一自然 句中出现。
位置运算符: (S)--sentence
同字段检索:对同句检索条件进一步放宽,可以使用同字段 检索。
为了保证信息能存得进、取得出,就必须使信息存储所依 据的规则与信息检索时所依据的规则尽量做到一致。
提问(检 索)语言
匹配
信息标 识语言
信息检索的基本原理
信息处理人员
用户
信息分析、著录、标引
检索语言
信息需求分析
信息的表示
数据库 匹配比对 输出检索结果
检索提问
三、信息检索的类型
按信息检索的内容,信息检索可分为:
逆查法:也叫倒查法,与顺查法相反,是利用所选定 的检索工具,按照由新到旧、由近及远、由现在到过去的 逆时序逐年前推查找,直至满足课题要求为止的查检方法。
这种方法多用于新课题、新观点、新理论、新技术的 检索,检索的重点在近期信息上,只需查到基本满足需要 时为止。倒查法的目的是要获得某学科或研究课题最新或 近一段时间内所发表的文献或研究进展状况。此方法省时, 查得的信息有较高的新颖性,但查全率不高。
2、题名途径 通过文献的题名来查找, 包括文献的篇名、书名、 刊名等。
第三节 信息检索途径
3、分类途径 按学科分类体系来检索文 献。这一途径是以知识体 系为中心分类排检的,较 能体现学科系统性,反映 学科与事物的隶属、派生 与平行的关系。
4、主题途径 通过反映文献资料内容的主 题词来检索文献,便于用 户对某一问题、某一事物 和对象作全面系统的专题 性研究。

2017第二讲(1)-信息检索概述 二

2017第二讲(1)-信息检索概述 二

6. 输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的 记录以及相应的字段(全部字段或部分字段),将结果显 示在屏幕上、存储到磁盘或直接打印输出,网络数据库检 索还可以提供电子邮件发送,整个检索完成。
第三节 检索效果的评价
• 检索效率 检索效率是衡量检索效果好坏的指征,一般通 过查全率和查准率两方面来反映。 查全率:指系统在进行某一检索时检索出的相关文 献与系统文献库中的相关文献总量之比率。 查准率:指系统在进行某一检索时,检索出的相关 文献量与检索出的文献总量之比率。 与查全率和查准率相对应的指标是漏检率和误检率。
检索效果的评价公式


查全率=被检出相关文献量/相关文献总量 =(a/a+c)×100%
例如:查有关“雷尼替丁的含量测定”的文献
运用布尔逻辑技术的检索式可写成: 雷尼替丁 AND 含量测定
其作用是缩小检索范围,提高查准率。
逻辑或:是一种具有概念并列关系的组配
用OR(or)或 +算符表示 A OR B:表示让系统查找含有检索词A或B,或同时包 括检索词A和检索词B的信息。
如:查有关 “维生素C”的文献 (“维生素C”: vitamin C 又称 L-ascorbic acid抗坏血酸)
例: 自行车(模糊) 扩展概念:脚踏车、单车等
精确检索
也称精确匹配或完全匹配,结果中包含与检索词完全相同的内容。
提示
目前计算机数据系统除了提供专业检索要 写检索表达式检索外,更多的会提供其他 检索途径如基本检索、高级检索等,其检 索界面以检索输入框及检索条件限定框的 格式让用户根据已知条件一步步构建检索 表达式来检索文献(构建原理是一致的)
trace elements not zone 微量元素 not 锌

网络信息的检索方法

网络信息的检索方法
• 例:要了解中央电视台《开心辞典》节目的 答题规则,可访问: /program/happygame/
使用搜索引擎
• 利用分类目录或关键字,在在特定的搜索引擎中 查找所需信息 • 例:要了解火星的相关信息,可访问新浪搜索引 擎,在其分类目录中,搜索“科学技术->天文-> 日月行星”,或直接运用关键词“火星”进行搜 索
2.2.1 网络信息检索的方法
讲述人:.. 学号: ..
动动手:
• 目前世界上濒危动物华南虎的数 量是多少? • 查阅其相关资料,并找出答案。
网络信息检索的发展趋势
• 互联网的繁荣,给检索工作带来了一个全新的发展 空间,信息检索的对象已从过去相对封闭,由独立 数据库集中管理的信西内容扩展到如今开放、动态、 更新更快、分布广泛、管理松散的网络内容;网络 信息检索从一开始的一般人难以学会的标准化检索 发展到现在,已经成为简单的、大众化的实用工具。
查询在线数据库
• 利用网上的在线数据 库进行查询 • 例;要了解中国能源 经济状况,可访问中 国科学院科学数据库: http://www/
注意:
这里的一些术语,如 “网络实名”、“关 键
词”,可通过网络信息 检索的方法进行深入 的了解。
任务
• 保护野生动物之宣传大作战
• 继续检索相关信息,并将已得到 的信息加以整理后制作相关ppt, 以呼吁人们保护野生动物 • 要求:三种检索方法配合使用,展“目前世界上濒危动物 华南虎的数量是多少”知识竞赛。注意进行方式的优化 和信息的筛选,做好分析和比较,并详细记录检索过程。 根据表2-6,分析这些方法的差异性及其各自的优势。
网络信息检索的方法
直接访问网页
使用搜索引擎 查询在线数据库
直接访问网页

第二讲 网络信息资源检索

第二讲 网络信息资源检索

宽带应用领域
网络电视 宽带电影
网上多媒体 娱乐 实时通讯 与交流
网络游戏
网络多媒体 课堂
1.3 Internet 的互联原理
(1)通信的保证机制——TCP/IP协议 (2)地址的标识技术——IP地址和域名DN (3)运作的基本模式——客户机/服务器系统 (4)URL(网址)
(1)TCP/IP协议
•用户可通过有名或匿名连接方式对远程服务器进行访 问,查看和索取需要的文件。用户可将本地文件上载 (upload)给远程主机,更多情况是从远程主机上下载 (download)文件。(包括文本、图像、声音、多媒体、 软件或数据文件等)
(3)远程登录(Telnet)
是指本地计算机通过 Internet访问远程计算机上的硬 件资源、软件资源和信息资源 的过程。 随着 www的普及,Telnet已少 有使用。
查询检索器
定期搜集信息
利用能够从互联网上自动收集网页的 Spider系统程序,自动访问互联网,并沿着任 何网页中的所有URL爬到其它网页,重复这过 程,并把爬过的所有网页收集回来。 搜索引擎在搜索网站时,总是更为全面 和经常地搜索常用的网站(例如用户经常点击 和带有许多链接的网站)
建立索引数据库
HTTP (Hyper Text Transfer Protocol)
超文本传输协议: HTTP是Web客户机和 服务器用于在网上传输、 响应用户请求的协议。 就是告诉浏览器去访问 使用HTTP的Web页。
第二节 搜索引擎的使用技巧
2.1 搜索引擎的工作原理
搜索引擎的英译名为Search Engine,是收录网页 全文索引的数据库。指通过网络搜索软件或网站登陆 等方式,将互联网上大量网站的页面收集到本地,经 过加工处理而建库,从而能够对用户提出的各种查询 作出响应,提供用户所需的信息。 搜索引擎也不能真正理解网页上的内容,它只能机 械的匹配网页上的文字 至少由三部分组成: 爬行器(定在网页标题中: intitle:

计算机的信息检索技术有哪些详解信息检索的基本原理与方法

计算机的信息检索技术有哪些详解信息检索的基本原理与方法

计算机的信息检索技术有哪些详解信息检索的基本原理与方法信息检索是指通过计算机技术,从大量数据中快速找到所需信息的过程。

随着互联网的普及和信息爆炸的时代,信息检索技术的重要性日益突出。

本文将详解信息检索的基本原理与方法,以及常见的信息检索技术。

一、信息检索的基本原理信息检索的基本原理是通过索引和检索两个步骤实现的。

首先,在建立索引的阶段,将待检索的数据进行预处理,提取出关键词和相关信息,并建立索引文件。

索引文件包含了每个文档中所有的关键词及其所在位置的信息。

其次,在检索的阶段,用户输入检索词,系统根据索引文件快速定位到相关文档,并将其返回给用户。

二、信息检索的方法1. 布尔检索法布尔检索法是最早的信息检索方法之一,它通过逻辑运算符(例如AND、OR、NOT)将用户检索词与索引文件中的关键词进行匹配,从而找到满足要求的文档。

这种方法简单直接,但需要用户具有一定的逻辑思维能力。

2. 向量空间模型向量空间模型将文档表示为向量,并利用向量之间的相似度进行检索。

在该模型中,每个文档可以看作是一个向量,而检索词也可以转换为向量。

通过计算文档向量与检索向量之间的相似度,可以确定与用户需求最匹配的文档。

3. 概率检索模型概率检索模型基于信息检索的概率理论,利用检索词在文档中出现的概率和文档的相关性进行检索。

常见的概率模型包括贝叶斯模型和语言模型。

这种方法能够更准确地计算文档与检索词的相关性,提高检索结果的质量。

4. 自然语言处理技术自然语言处理技术在信息检索中起着重要的作用。

通过对自然语言的分析和理解,能够更好地理解用户查询的意图,并将其转化为机器可理解的形式。

常见的自然语言处理技术包括词法分析、句法分析和语义分析。

三、常见的信息检索技术1. 网页搜索技术网页搜索技术是信息检索中最常见的应用之一。

通过搜索引擎,用户可以快速找到互联网上的相关信息。

网页搜索技术常用的算法包括页面排名算法(例如PageRank算法)和关键词匹配算法(例如倒排索引)。

信息检索的基本办法和基本技术

信息检索的基本办法和基本技术
(3) 事实信息检索 是指以特定的事实作为检索对象的
一种信息检索。其检索结果是基本事实。如某个人或某个组织 的基本情况,某一件事发生的时间、地点、过程等。
文献、事实、数据检索关系图
2、 按信息组织方式划分
(1) 全文检索 是指检索系统中存储的是整篇文章或整本书。 检索时,用户可以根据自己的需要从中获取有关的文章、段、 句、节等信息,还可以进行各种频率统计和内容分析。
(2) 超文本检索 是指信息在系统中的组织方式不同而言的。 从组织结构上看,超文本的基本组织元素是节点和节点间的逻 辑联接链。与传统文本的线性顺序不同,超文本检索强调中心 节点之间的语义联接结构。其检索模式是“哪里”到“什么”。
(3) 超媒体检索 是对超文本检索的补充。其存储对象超出了 文本范畴,融入了静、动态图像(形)以及声音等多种媒体信 息。信息的存储结构从单维发展到多维,存储空间范围在不断 扩大。
3、按使用不同的工具和手段划分
(1)手工检索 是指人们通过手工的方式来存储和 检索信息,其使用的检索工具主要是书本式、卡片式 的信息系统,如目录、索引、文摘等。
(2)计算机检索 是指人们在计算机检索网络或终 端上,使用特定的检索指令、检索词和检索策略,从 计算机检索系统的数据库中检索出所需要的信息的过 程,其检索是在人机的协同作用下完成的。
第二章 信息检索的基本方法和基本技术
第一节 现代信息检索的概念与类型
一、信息检索概念
信息检索(广义):是从任何信息集合中识别 和获取所需信息的过程及其所采取的一系列 方法和策略。它包括存储与检索两个方面。
信息检索(狭义):即从检索工具和检索系统 中查找出所需信息的过程。
二、 现代信息检索的类型
1、 按存储和检索内容划分

最新第2章-信息检索基本方法精品文档

最新第2章-信息检索基本方法精品文档
② ?仅且必须截一个字母
例:wom?n :woman、women …
③ $ 截一个字母 或 0个字母
例:Hof$man* :Hofman、Hoffman、 Hoffmann、Hoffmanova …
位置算符
① N —— 表示两词相邻,顺序可以颠倒 ② W —— 表示两词相邻,但顺序不能颠倒 ③ SAME —— 表示两词必须出现在同一句子
从属和并列关系实例:
B 哲学
B0 哲学理论 B1 世界哲学 B2 中国哲学
B20 唯物主义与唯心主义(总论) B21 古代哲学 B22 先秦哲学(公元前221年) B23 秦汉、三国晋、南北朝哲学(公元前221年~公元589年) B24 隋、唐、宋、元、明、清哲学(589年~1840年) B25 近代哲学(1840年~1916年) B26 现代哲学(1919年~ ) B27 马克思主义哲学在中国的传播与发展
等同关系——同义词/近义词
• 异形同义词 • 缩写和全称 • 商品名、俗名、学名 • 化学物质名称和化学物质表达式 • 英文同根词
3. 逻辑非——A NOT B;A-B
• 用以排除不希望出现的检索词 • 用以缩检,提高查准率
AB
如果两个关系紧密的检索词同在一检索 逻辑中,对其中一个使用NOT逻辑会导 致含另一个词的文献也被排除。
论包装材料及其包装 技术入此)
T 工业技术
TS 轻工业、手工

TS0 一般性问题
TS09 包装装璜技

2.3 主题法
主题法——是指直接以表示文献或信息 主题的语词作标识,提供字顺检索途径 ,并主要采用参照系统揭示词间关系的 标引和检索文献的方法。
主题法——主题语言
主题语言——由受控的自然语言语词直 接表达主题概念,按词语字顺排列主题 概念,主要用参照系统显示概念之间关 系的标引语言。

网络信息检索方法

网络信息检索方法

网络信息的检索方式网络信息检索方式指网络信息检索系统或数据库在检索首页界面或网页的各个不同检索区上设置的检索人口的总称。

检索方式有:简单检索、复合检索、高级检索、分类(浏览)检索、导航检索、专家检索等。

1.简单检索(SimPle Search) 也有称初级检索、自由词检索、基本检索。

指在数据库首页的检索词输入框(或称查询提问框)内输入一个单词或词组,提交检索工具查询的一种检索方式。

这是最基本的检索方式。

2.复合检索(Combine Search) 也称布尔逻辑组配检索(Bo01ean Search),或简称组配检索。

复合检索指在任意字段情况下在检索式输入框内输入复合逻辑检索式提交检索工具查询的一种检索方式。

3.高级检索(Advanced Search) 高级检索指在已设定的高级检索窗口中输入多个检索词,运用逻辑组配关系,查找同时满足多个检索条件的数据,在高级检索界面上一次性实现本应多次检索的结果的一种检索方式。

4.目录检索(Category Search)(或称分类检索) 有些检索工具,如雅虎、万方,提供分类目录检索。

目录检索是指目录按类名分类,每类又分若干子类目,层层逐级展开,最后点击末级类名,显示网页名链接和简短内容摘要,点击链接,显示相关网页内容(如雅虎),或显示该类的文献记录(如万方、维普)。

5.导航检索(NaVigation Search)或称浏览检索(Browse Search) 导航检索与目录检索相似,指在系统设置的导航区内按检索树格式逐级展开和进行浏览选择的检索方式。

导航检索有学科分类导航检索和刊名导航检索。

分类导航检索在选择到分类未级时会显示该类的全部文献记录。

刊名导航则在按刊名分类或字顺查到所需刊名时会显示该刊年份和期号,在选定期号后即会显示该期的目录,以供选择某文的题录、文摘或全文,如维普。

6.专家检索(Expen Search) 指系统在检索页面上设置一个较大的提问框供用户输入检另策略。

计算机信息检索基础

计算机信息检索基础

4. 短语检索符 (phrase)


检索符
“ ”
用于检索固定短语或专有名词 在短语或专有名词前后加双引号,系
统将其按词组对待,不再将其分割按
单词检索。
示例
“4-methoxy-salicylaldehyde”(4-甲 氧基水杨醛) “文科文献信息检索”
运算符小结

计算机信息检索技术是用户信息需求和文 献信息集合之间的匹配比较技术。
示例

胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性 (不要 cagA ,vagA)
(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌)not (cagA or vagA)
布尔逻辑的运算可以进行同类项的合 并。 如:A*B+A*C=A*(B+C) 然而,在使用布尔逻辑时,必须 注意以下几条交换规则: A*B=B*A A+B=B+A A-B≠B-A
2. 截词检索


以符号取代检索词(中、尾)的部分字符,从而 检出相同词干和相同词根的词。 截词包括后截、中截、前截等。用?作为截词符 (有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 又如 computer?——以computer词干开头的 词 可以检索出:computer、computers、
理能力来实现信息的存储与检索。
一、 计算机信息检索原理

计算机信息检索:用户利用数据库获取所 需信息的过程。
即:计算机将输入机检系统的用户提问标识 (检索词)与已存贮在系统中数据库内的 文献特征标识(标引词)进行匹配比较, 凡符合给定的比较原则和逻辑运算条件者 即为命中文献。

信息检索第2讲

信息检索第2讲
第二章
信息检索原理及方法
信息检索概述
第一节
一、信息检索的含义 信息检索通常是信息用户为处理解决各种 问题而查找、识别获取相关的事实、数据、 知识的活动及过程。完整的信息检索,还包括 信息的存储。由此可知,信息检索的全过程 应包括两个主要的方面:
1)信息的标引和存储过程 对大量无序的信息资源进行标引处理, 使之有序化,并按科学的方法存储,组 成检索工具或检索文档,即检索系统的 组织过程。 2)信息的需求分析和检索过程 分析用户的信息需求,利用已组织好 的检索系统,按照系统提供的方法与途 径检索有关信息,即检索系统的应用过 程。
• 二、信息检索效率 • 信息检索效率是研究信息检索原理的是评 价一个检索系统性能优劣的质量标准,它始终 贯穿信息检索和信息存储的全过程。衡量检索 效率的指标有查全率、查准率、漏检率、误检 率、响应时间等。目前,人们通常主要以查全 率和查准率这两个指标来衡量。
1、查全率 利用检索系统进行某一课题检索时,检索出的相 关信息量(w)与该系统信息库中存储的相关信息量(x) 的比率称为查全率(R),用公式可表示为: R=
2、为人们更新知识、实现终生学习提供路 径 在当代社会,人们需要终生学习,不断 更新知识,才能适应社会发展的需求。
掌握信息检索的方法与技能,是形成合理知 识和更新知识的重要手段,是做到无师自通、 不断进取的主要途径。
2.1.2 信息检索类型
信 息 检 索 类 型
文献信息检索
依检索内容划分
数据信息检索 事实信息检索

• •
2、计算机检索系统
计算机检索系统又称现代化检索系统,是用计 算机技术、电子技术、远程通信技术、光盘技术、 网络技术等构成的存储和检索信息的检索系统。 • 按使用的设备和采用的通信手段,可分为联机 检索系统、光盘检索系统和网络检索系统。

信息检索的基本方法和基本技术

信息检索的基本方法和基本技术
是以自然语言的字符为字符,以名词术语为基本词 汇,用一组名词术语作为检索标识的一类检索检索语言 。
分为标题词、元词、叙词和关键词。
(3) 代码语言
是指对事物的某方面特征,用某种代码系统来表 示和排列事物概念,从而提供检索的检索语言。如化学 分子式。
按照表达文献的特征划分:
(1)表达文献外部特征的检索语言——题名、责任者、 文献编号等。
(2) 超文本检索 是指信息在系统中的组织方式不同而言的。 从组织结构上看,超文本的基本组织元素是节点和节点间的逻 辑联接链。与传统文本的线性顺序不同,超文本检索强调中心 节点之间的语义联接结构。其检索模式是“哪里”到“什么”。
(3) 超媒体检索 是对超文本检索的补充。其存储对象超出了 文本范畴,融入了静、动态图像(形)以及声音等多种媒体信 息。信息的存储结构从单维发展到多维,存储空间范围在不断 扩大。
(1) 文献信息检索 即查找出用户所需文献线索或原文
的检索。其检索结果是文献信息。如查找某一研究课题一定年
限内的有关文献,或对一项发明创造进行文献查新等。
(2) 数据信息检索 是指查找出用户所需特定数据、公
式或图表形式的检索。其检索结果是数据信息。如查找某一数 据、公式、图表、价格,某种物质的化学分子式,某种设备的 型号与参数等。数据检索是一种确定性检索。
3、综合法 综合法又称为分段法或交替法,是顺查
法、倒查法、抽查法与追溯法交替使用的 一种方法。这种方法既利用检索工具检索 文献,又利用文献后边的参考文献进行追 溯,两种方法交替使用,直到结果满意为 止。
(二)信息检索的途径
1、分类途径 2、主题途径 3、著者途径 4、其它途径
四、信息检索的程序
(3) 事实信息检索 是指以特定的事实作为检索对象的

最新第2章信息检索基本知识ppt课件

最新第2章信息检索基本知识ppt课件

布尔逻辑运算符优先级
• 布尔运算符优先级比较
–有括号时:括号内的先执行; –无括号时:NOT > AND > OR
• 例:检索“唐宋诗歌”的有关信息。 – 关键词:唐、宋、诗歌; – 检索表达式:
• (唐 OR 宋)AND 诗歌; • 唐 AND 诗歌 OR 宋 AND 诗歌; – 错误表达式: • 唐 OR 宋AND诗歌; • 唐 AND 宋AND诗歌; • 唐 OR 宋OR诗歌; • 唐AND 宋OR诗歌;
3、事实检索
是以具体事项为检索内容的信息检索。
(二)按是否使用检索工具划分 1、直接检索
就是指利用一次文献进行检索,这是以前比较常用的一 种查找方法。所花时间多和精力大,检出文献少。
2、间接检索
就是指利用各种检索工具获得文献线索,再根据线索去 查找原始文献线索的方法。
(三)按信息检索手段划分 1、传统信息检索
一、检索工具的功能
1、报道功能 2、存储功能 3、检索功能
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。 2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类录 2、文摘 3、索引
目索文录引摘:::是把是按一一照种种某或著种多录明种文白文献 题易献录懂中和的具内顺有容序检摘编索要排意的义检文的索献特 工清征具单分。或别清著册录,、通排常序以并一注 如个明:完出人大整处复的以印资出供料版查单检位的或工收具 藏书单。位索为引著的录基的本组基织本单单 元位是。条目,每个条目一般 如由:序《全号国、新书标目识》或索引词、 注释《社、科出新书处目等》 若干环节
2、三者提供的资料不同: 目录提供某一方面较成熟系统的知识,索引、文摘提供相对分散 的资料线索。

第二讲 网络信息检索基本方法PPT资料63页

第二讲   网络信息检索基本方法PPT资料63页

②(nW) 算符
❖ 表示两个检索词之间插有n个词,但顺序不能颠倒。 ❖ 表达式: A(nW)B AB两词靠近,次序为A先B后,中间最多
可加n个词。 ❖ 举例:communication(2w)satellite,只检索出
网络信息检索 基本方法
网络信息检索的基本技术 网络信息检索的基本途径 网络信息检索基本步骤
信息检索过程的实质:
计算机将检索提 问词
文献记录标引词
MACTH
一、网络信息检索的基本技术
1.布尔逻辑检索(boolean logic)
逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索 标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。 主要运算符有 “和(and,*)”、“或(or,+)”、“非(not,-)”。
④检索西红柿种植技术的相关文章: ❖ (西红柿+番茄)*(种植+栽培+培育)
Exercise1:
❖ 查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
❖ Goolge的默认运算符就是逻辑“与”,用空格、 “AND”和“+”都表示,而逻辑“非”只能用“-”而 不能用“NOT”表示。
学生奖学金与竞赛信息
/web/membership/students/scholarshipsawardscont ests/SAG_homepage.html

第2章 信息检索的基本方法2016

第2章 信息检索的基本方法2016

缺点:
1、通常不适合族性检索,查全率比分类号低 2、由于很规范,非专业人士难以掌握
信息检索的基本方法
2.1 信息检索的基本原理 2.2 检索途径 2.3 检索语言
2.3.1 分类法
中国图书分类法
国际专利分类法
2.3.2 主题法
2.4 检索方法
2.3.1 检索语言—分类法
反馈
信息检索的基本方法
2.1 信息检索的基本原理 2.2 检索途径 2.3 检索语言
分类法 主题法
2.4
2.4.1 数据库检索的基本流程 检索方法 2.4.2 检索技术 2.4.3 课题检索步骤
引文法
从一篇高质量的 文献出发 ……
Cited References
2003
Times Cited
越查越新
2003
2004
越查越旧
2001
2000
1998
课题如何起 源、 修正、变 迁、发展。
Related Records
该课题的演变、 最新进展。
2004
越查越深
1993
Citing
1999 1994
第2章:信息检索的基本方法
主讲人:盛 芳 Email:shengfang@ 电 话: 67791306 地 址: 图文信息中心535室
信息检索的基本方法
2.1 信息检索及其基本原理 2.2 检索途径 2.3 检索语言
2.3.1 分类法
中国图书分类法
国际专利分类法
详细著录文献的外部特征和内容特征。
具有既定的检索标识。
必须根据标识的顺序,系统科学地排列文
献、使其成为一个有机的整体。 提供多种检索途径。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运算优先级顺序为NOT、AND、OR,可以用括号“( 如A and (B or C),检索顺序为先B或C,然后再与A
)”改变它们的运算顺序。
逻辑算符举例
①查找关于“动物保护”的文献: “动物 AND冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: (西红柿+番茄)*(种植+栽培+培育)
3. 邻近检索(proximity search)
又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特 定位置关系
文献记录中词语的相对 次序或位置不同,所表 达的意思可能不同
同样一个检索表达式 中词语的相对次序不 同,其表达的检索意 图也不一样 Eg:“粉末的 掺合与颜料包 装”
布尔逻辑运算符和词组 检索虽然能有效的扩大 和缩小检索范围,但 无法对检索词之间的 相对位置进行限制
③(N)(Near)算符
表示两个检索词为相邻关系,两个词之间不能插入任何词,但词序可 以颠倒。 表达式:A(N)B :AB两词靠近,次序可变。 举例:building (N) construction可检索出building– construction, construction building, constructionbuilding的记录
Exercise1:
查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
Goolge的默认运算符就是逻辑“与”,用空格、 “AND”和“+”都表示,而逻辑“非”只均表 示逻辑“或”。 在ISI Web of Knowledge平台上,逻辑算符 “AND”、“NOT”、“OR”不区分大小写,但不支 持以“*”、“-”、“+”代替。 在Science Direct中,逻辑“非”是用“AND NOT” 表示,而不是我们常用的“NOT”。
英语类
1. 听力特快 英语节目:空中美语、空中英语听力 2. 普特英语 3. 大耳朵英语网 每天都有听力更新,可以直接点击收听, 听英语广播时,在下面的原文可以划词,随时翻译, 网站会自动将所划得词加到生词本里。 每天的记单词、单词测试 4.旺旺英语
LOGO
第二讲
2010-9-13
常用的截词法
有左截、右截、中间截断和中间屏蔽4种形式,而目前用的较多的 是以下三种形式:
(1)前截词(左截)——同根词检索 *ology
(2)中间截词——用于中美拼写不同和单复数 输入wom?n,可检出woman,women colo?r 可检出的词为colour(英音)、color(美音)。 (3)后截词(词尾截词) Cat?,检出cat, cats(有限截断)——用于单复数 Cat*,检出Cat,Cats,catalog,catalogue, category……(无限截断)——同根词检索
我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检 索出的文献更确切地符合用户要求,提高查准率。
①(W)—WITH算符
表示两个检索词紧挨着,词序必须按此前后的顺序排列,顺序不能 颠倒,中间不能有其他词,但可以有空格和标点符号。也可以用() 表达式:A(W)B AB两词靠近,次序为A先B后。 举例:communication (w) satellite 或者 communication()satellite,只检索出communication satellite, communication - satellite的记录 需要特别提示的是: 词组检索与WITH算符有所不同,其间不允许有任何符号。例如: digital library,若用digital(w)library,检索结果中会出 现digital-library,而用“digital library”,则只会检出 digital library的记录。
思考:比较3个检索式检索结果的不同
“Information retrieval”/TI
Information AND retrieval /TI
Information(F) retrieval
不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 检索方式主要有:限定字段检索和限定范围检索 (1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。
①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊 名(JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese
⑤(F)——Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同 一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。
⑥(S)算符
(S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。
组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。
一般来说,数据库的记录基本包括下列字段: 题名(TI,title)、 关键词(KW,keyword)、 主题词(DE, descriptor)、 文摘(AB,abstract)、 全文(FT, Full text)、 作者(AU,author)、 作者机构(CS,Coporate Source) 期刊名称(JN,Journal)、 出版国(CO,Country)、 出版年份(PY,Publication Year)、 语种 (LA,Language)
IEEE可以为学生提供什么?
•需要参加IEEE国际会议的支助 •需要IEEE学生奖学金 •想参加IEEE论文竞赛或者创意大赛 •想和IEEE Fellow交流 •…
学生奖学金与竞赛信息
/web/membership/students/scholarshipsaward scontests/SAG_homepage.html
2.词组检索(phrase search)
通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形 式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精 确检索”(exact search)。 例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能 分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖 息地保护、动物资源保护等形式。
②(nW) 算符
表示两个检索词之间插有n个词,但顺序不能颠倒。
表达式: A(nW)B AB两词靠近,次序为A先B后,中间最多 可加n个词。
举例:communication(2w)satellite,只检索出 communication satellite、communicationsatellite,communication through satellite、 communication on the satellite词组的记录。
②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到 优化检索的方法。 不同的检索系统略有不同,常通过使用的有:“=、<= 、>=、<、 >、:” 等。 表达式:字段名=(<= 、>=、<、>、) 例如: PY>=1995 即限定出版年份为1995及以后的文献; PY=1996:2005即1996年至2005年的文章
④(nN)算符
表示两个检索词之间可以插入 n 个词并且词序可以颠倒 表达式:A(nN)B:AB两词靠近,次序可变,中间最多可加n 个词。
举例:information(1N)retrieval可检索出information retrieval , information and retrieval, retrieval of information的记录。 information(3N)retrieval,可检出information retrieval,retrieval information,retrieval of information,retrieval of law information,retrieval of Chinese law information等,retrieval和 information最多可插入3个词。
Science Direct用双引号“”表示宽松短语检索,标点符号、连 字符、停用字等会被自动忽略,如检索式为“heart attack”会 检出包含“heart attack”和“heart-attack”的检索结果。
在该数据库中,精确检索是用“{}”表示。
邻近检索有时又被称为位置算符检索。 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系, 从而使检索出的文献更确切地符合用户要求,提高查准率。 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面 以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也 是如此。
特别提示:“*”、“?”的比较 “*”,无限截词,代表0-无数个字符如regard*, 代表 regard, regarding, regardless等。 “?”,有限截词,代表0-1个字符,如library?,library, librarys。
相关文档
最新文档