武汉大学信息检索
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第11章 信息检索与信 息发布
信息检索与信息发布
重点内容
1. 信息检索的基本概念 2. 检索意愿的表达 3. 天网搜索引擎使用介绍 4. Yahoo使用方法简要介绍 5. 中国期刊网(CNKI)使用介绍 6. 信息发布方法介绍
第2|51页
一、信息搜索概述
信息搜索 检索信息的途径 常用信息检索系统类型 网络检索系统 具体信息搜索步骤
第5|51页
⑵ 信息
从客观上说,信息是指一切事物存在方 式和运动规律的表征,或我们对周围世 界的一种认识。有正确与错误之分。
总是看到太阳从东方升起,古代人想我们站 在一个平板上,太阳绕地球转;现代人想我 们站在地球上,地球绕着太阳转; 看到一块铁与一堆棉花,我们会认为铁一定 比棉花重,难道一小块铁比一火车棉花还要 重?
效果
第27|51页
3、截词检索
截词检索是预防漏检提高查全率的一种常用检 索技术,大多数系统都提供截词检索的功能。 截词是指在检索词的合适位置进行截断,然后 使用截词符进行处理,这样既可节省输入的字 符数目,又可达到较高的查全率。 尤其在西文检索系统中,使用截词符处理自由 词,对提高查全率的效果非常显著。 在截词检索技术中,较常用的是后截词和中截 词两种方法。如果按所截断的字符数目来分, 有无限截词和有限截词两种。 截词算符在不同的系统中有不同的表达形式, 需要说明的是并不是所有的搜索引擎都支持这 种技术。
第26|51页
词位检索举例说明
词序 关系 词序不能颠倒 W
1个空格或标点 符号 Nature(W) GAS Nature GAS 和 Nature-GAS 命中
词序可以颠倒 N
不能插入词 Wastewater(N) Treatment
Wastewater Treatment 和 Treatment Wastewater 命中
第16|51页
中央服务器、检索终 中央服务器、用户
检索方法较简单, 检索较灵活、方便, 及时性好,检索费 用和速度均低
优 点
缺 速度慢、效率 点
4.网络检索系统
网络检索工具所采用的技术分三类: 目录型搜索引擎 基于Robot的搜索引擎 元搜索引擎
第17|51页
目录型搜索引擎
早期的搜索引擎是把因特网中的资源服务器的地址收集 起来,由其提供的资源的类型不同而分成不同的目录, 再一层层地进行分类。人们要找自己想要的信息可按他 们的分类一层层进入,就能最后到达目的地,找到自己 想要的信息。信息大多面向网站。 目录浏览服务和直接检索服务。该类搜索引擎因为加入 了人的智能,所以信息准确、导航质量高,缺点是需要 人工介入、维护量大、信息量少、信息更新不及时。这 类搜索引擎的代表是:YAHOO, Open Directory,国内 最具代表性的是搜狐分类目录。 这是互联网早期的搜索引擎形式,现在仍然占有重要地 位。雅虎就是从一个单一的搜索引擎发展到现在有电子 商务、新闻信息服务、个人免费电子信箱服务等多种网 络服务…
www.yahoo.com www.lycos.com www.altavista.com www.infoseek.com
www.excite.com www.webcrawler.com
第15|51页
3. 常用信息检索系统类型
手工检索 计算机检索 光盘检索
计算机硬件、检索 据库、通讯网络
联机检索
第3|51页
1、信息搜索
Internet上的信息资源丰富得让人有点儿无所 适从,尤其是对刚刚踏入Internet网络世界的 生手,更是令人扑朔迷离,难以理出头绪。 有人比喻Internet上的信息就如同许多堆杂乱 无章的书籍,只是在每堆书籍上列出此堆书籍 中涉及的内容及书名,但要找到具体书籍则需 自己不辞劳苦地一一查找了。 无需置疑,Internet上众多的信息资源中肯定 有你所需的信息,若清楚信息的存放地址,通 过在线获取这些信息是快捷而便利的,但是主 要问题是如何找到这些信息。
第6|51页
⑶信息检索
信息检索是指将杂乱无序的信息有序化形 成信息集合,并根据需要从信息集合中查 找出特定信息的过程。
其实质是将用户的需求与信息集合内的信 息进行比较,如果匹配,信息就被查找出 来,否则就查不出来。
匹配有多种方式;完全匹配、部分匹配。
第7|51页
检索效果
查全率 查准率
R (Recall ratio) P (Precision ratio)
(2)确定信息源
确定信息源是很关键的一步。良好的开端是成 功的一半。若起点没有找准,搜索结果可能会 一无所获。
第21|51页
二. 检索意愿的表达
常用检索技术 用得多:布尔检索、词位检索 用得少:截词检索、限制检索
注:并不是每个检索系统都支持所有的 检索技术。
第22|51页
1、布尔检索
错误表达式:
第25|51页
2、词位检索
词位检索又称全文检索。它是一种可以不依赖叙 词表而直接使用自由词进行检索的一种技术。 这种检索技术增强了选词的灵活性,它采用位置 逻辑符进行组配运算,可弥补布尔检索技术造成 误检的不足。
在不同的检索系统中,词位检索算符的种类和表 达形式在不同的检索系统中并不完全相同,但根 本思路并没有什么大的区别,在使用时需要加以 注意。
布尔运算符:AND、OR、NOT
C B
举例:A是计算机书籍的集合、 B是论文的集合, 逻辑“与” “计算机”AND“论文” 得到的结果是“计算机论文”的集合
A
A
C
B
举例:A是计算机书籍的集合、 B是自动控制书源自文库的集合, 逻辑“或” “计算机”OR“自动控制” 得到的结果是“计算机”或“自动控制” 书籍的集合。
第28|51页
第14|51页
比较流行的搜索引擎
国内的有:
“北大天网” e.pku.edu.cn “新浪”WWW.SINA.COM.CN 雅虎中文 www.yahoo.com.cn 中国考网 www.chinatest.com 搜狐www.sohoo.com.cn 网易搜索 www.yeah.net
国外有:
第19|51页
元搜索引擎
这类搜索引擎没有自己的数据,它将用户 的查询请求同时向多个搜索引擎递交,将 返回的结果进行重复排除、重新排序等处 理后,作为自己的结果返回给用户。 这类搜索引擎的代表是WebCrawler,在实 际中应用的效果并不理想。
第20|51页
5.具体信息搜索步骤
(1)制定信息搜索策略
举例:A是计算机书籍的集合, 逻辑“非” NOT“计算机” 得到的结果是非“计算机”书籍的集合
第23|51页
A
C
B
举例:
检索“打印机驱动程序”
查询关键词:打印机、驱动程序 检索表达式:打印机 AND 驱动程序 查询关键词:微型计算机、微机 检索表达式:微型计算机OR 微机
查询关键词:笔记本、电脑 检索表达式:笔记本 NOT 电脑
在Internet上进行信息搜索时,建议采取以下策略: ①首先确定提供相关信息的优秀信息源; ②检查信息源所提供的信息粒度是否适中,所提供的信 息量是否合适。信息量太多,冗而杂,搜索不便,信 息量太少,则搜索不到足够的信息; ③研究信息源所提供的搜索命令及搜索方法,制定搜索 计划,然后开始进行搜索。
第13|51页
⑸搜索引擎
在信息社会,信息的有效和迅捷是成功的必要 条件。为了使用户尽快得到自己所需要的信息, 许多网站都提供了信息检索服务,国外称之为 “搜索引擎”。 用户要进行检索,必须提供查询条件,查询条 件要符合服务站点的检索规则。各站点的检索 规则不尽相同。大致可分为按布尔条件检索和 按内容检索两类。
由于这种方法的不可预见性,所以它 也许很有乐趣,但也许会一无所获。
第10|51页
⑵浏览(Browsing)
浏览就如同走进图书馆的书库,然 后在书架上直接翻看一样。
目前Internet上提供的Gopher服务 就是这种方法的电子等价物。WWW提 供的超文本方式可以看作是浏览的 一种特殊形式。
第11|51页
目前Internet上有许多资源指南。如
http://www.rpi.edu/Internet/Guides/decemj/icmc/toc3.htm1
它搜索了关于Internet各种技术、文化、组织、应用等大 量的信息指针。用户可利用这些指针进行资源引导。但是 应注意Internet上的信息变化极快,几乎每六个月就需对 这些信息进行更新,参照的资源指南可能已经过时。 Internet上提供了成千上万个信息源和各种各样的信息服 务,而且信息源和服务种类、数量还在不断、快速地增长。 对这些信息源和服务,由于时间、精力和财力限制,不可 能一一亲身尝试。上面提到的偶然发现和浏览两种方法虽 然在某些场合下十分有效,但有时花费时间、效益比可能 不会令人太满意,而使用搜索方法则可缩小查找范围,达 到事半功倍的效果。
第18|51页
基于Robot的搜索引擎
由大规模机器运行的程序按照某种策略自动地在 互联网中搜集和发现信息,由索引器为搜集到的 信息建立索引,并由检索器根据用户的查询输入 检索索引库,并将查询结果返回给用户。 服务方式是面向网页的全文检索服务。该类搜索 引擎的优点是信息量大、更新及时、毋需人工干 预,缺点是返回信息过多,可能有很多无关信息, 用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista, Excite, Infoseek, Inktomi, FAST, Lycos,,AlltheWeb, Ask Jeeves, Google; 国内最具代表性的是:百度,天网,OpenFind。
网络检索
组 纸质书刊、资 软件、信息存储数 端、检索软件、联机 终端、通讯网络、 料 成
数据库、通讯网络 网络数据库 直观,信息存 设备简单,检索费 检索范围广泛,检索 储与检索费 用低 检索入口少、 更新不够及时 较低 用低,检索技术容 速度快,检索功能强, 易掌握 及时性好 检索技术复杂,设备 要求高、检索费用昂 贵。
nW
n(n=0,1,2, 3…)个词 Laser(1W) Printer
Laser Printer和 Laser Color Printer和 Laser And Printer 命中
nN
关键 词间 插入
例子
n(n=0,1,2, 3…)个词
Wastewater(4N) Treatment Wastewater and air pollution Treatment和 Treatment Wastewater 命中
第24|51页
检索“微型计算机”方面的有关信息
检索“笔记本”方面的有关信息
布尔运算符优先级
布尔运算符优先级比较
有括号时:先括号内、后括号外; 无无括时:NOT > AND > OR 关键词:唐、宋、诗歌; 检索表达式:
例:检索“唐宋诗歌”的有关信息。
(唐 OR 宋)AND 诗歌; 唐AND诗歌 OR 宋AND诗歌; 唐 OR 宋AND诗歌; 结果:“梦回唐朝”、“唐王李世民”或“唐三彩”
第4|51页
⑴文献
文献是知识、载体和记录三要素构成,是记 录有知识的一切载体的总和。包括载体与知 识两部分。
远古时期的结绳记事:绳子+每个结表示的含义; 甲骨文时期:大动物的骨头、龟壳+记录的内容; 竹简时期:竹子+记录的内容; 纸张时代:书、手稿等+记录的内容; 现代:音像制品、电子出版物等+记录的内容。
第8|51页
2. 检索信息的途径
在Internet上查找信息的途径有很多 种,可大致分为以下几种:
① 偶然发现 ② 浏览(Browsing) ③ 搜索(Searching) ④ 通过资源指南(Resource Guide) ⑤ 搜索引擎
第9|51页
⑴偶然发现
这是在Internet中发现信息的原始方 法。当你在Internet上遨游之时,也 许会意外发现一些很有用的信息。
⑶搜索(Searching)
搜索就像通过索引或分类卡片来帮助查找 一样。 在Internet中有许多不同类型的搜索工具, 如WAIS、Archie、Veronia、Jughead等, 它们都有各自不同的搜索目的。 还有许多网点则提供给用户一种组合式的 搜索界面。
第12|51页
⑷通过资源指南
信息检索与信息发布
重点内容
1. 信息检索的基本概念 2. 检索意愿的表达 3. 天网搜索引擎使用介绍 4. Yahoo使用方法简要介绍 5. 中国期刊网(CNKI)使用介绍 6. 信息发布方法介绍
第2|51页
一、信息搜索概述
信息搜索 检索信息的途径 常用信息检索系统类型 网络检索系统 具体信息搜索步骤
第5|51页
⑵ 信息
从客观上说,信息是指一切事物存在方 式和运动规律的表征,或我们对周围世 界的一种认识。有正确与错误之分。
总是看到太阳从东方升起,古代人想我们站 在一个平板上,太阳绕地球转;现代人想我 们站在地球上,地球绕着太阳转; 看到一块铁与一堆棉花,我们会认为铁一定 比棉花重,难道一小块铁比一火车棉花还要 重?
效果
第27|51页
3、截词检索
截词检索是预防漏检提高查全率的一种常用检 索技术,大多数系统都提供截词检索的功能。 截词是指在检索词的合适位置进行截断,然后 使用截词符进行处理,这样既可节省输入的字 符数目,又可达到较高的查全率。 尤其在西文检索系统中,使用截词符处理自由 词,对提高查全率的效果非常显著。 在截词检索技术中,较常用的是后截词和中截 词两种方法。如果按所截断的字符数目来分, 有无限截词和有限截词两种。 截词算符在不同的系统中有不同的表达形式, 需要说明的是并不是所有的搜索引擎都支持这 种技术。
第26|51页
词位检索举例说明
词序 关系 词序不能颠倒 W
1个空格或标点 符号 Nature(W) GAS Nature GAS 和 Nature-GAS 命中
词序可以颠倒 N
不能插入词 Wastewater(N) Treatment
Wastewater Treatment 和 Treatment Wastewater 命中
第16|51页
中央服务器、检索终 中央服务器、用户
检索方法较简单, 检索较灵活、方便, 及时性好,检索费 用和速度均低
优 点
缺 速度慢、效率 点
4.网络检索系统
网络检索工具所采用的技术分三类: 目录型搜索引擎 基于Robot的搜索引擎 元搜索引擎
第17|51页
目录型搜索引擎
早期的搜索引擎是把因特网中的资源服务器的地址收集 起来,由其提供的资源的类型不同而分成不同的目录, 再一层层地进行分类。人们要找自己想要的信息可按他 们的分类一层层进入,就能最后到达目的地,找到自己 想要的信息。信息大多面向网站。 目录浏览服务和直接检索服务。该类搜索引擎因为加入 了人的智能,所以信息准确、导航质量高,缺点是需要 人工介入、维护量大、信息量少、信息更新不及时。这 类搜索引擎的代表是:YAHOO, Open Directory,国内 最具代表性的是搜狐分类目录。 这是互联网早期的搜索引擎形式,现在仍然占有重要地 位。雅虎就是从一个单一的搜索引擎发展到现在有电子 商务、新闻信息服务、个人免费电子信箱服务等多种网 络服务…
www.yahoo.com www.lycos.com www.altavista.com www.infoseek.com
www.excite.com www.webcrawler.com
第15|51页
3. 常用信息检索系统类型
手工检索 计算机检索 光盘检索
计算机硬件、检索 据库、通讯网络
联机检索
第3|51页
1、信息搜索
Internet上的信息资源丰富得让人有点儿无所 适从,尤其是对刚刚踏入Internet网络世界的 生手,更是令人扑朔迷离,难以理出头绪。 有人比喻Internet上的信息就如同许多堆杂乱 无章的书籍,只是在每堆书籍上列出此堆书籍 中涉及的内容及书名,但要找到具体书籍则需 自己不辞劳苦地一一查找了。 无需置疑,Internet上众多的信息资源中肯定 有你所需的信息,若清楚信息的存放地址,通 过在线获取这些信息是快捷而便利的,但是主 要问题是如何找到这些信息。
第6|51页
⑶信息检索
信息检索是指将杂乱无序的信息有序化形 成信息集合,并根据需要从信息集合中查 找出特定信息的过程。
其实质是将用户的需求与信息集合内的信 息进行比较,如果匹配,信息就被查找出 来,否则就查不出来。
匹配有多种方式;完全匹配、部分匹配。
第7|51页
检索效果
查全率 查准率
R (Recall ratio) P (Precision ratio)
(2)确定信息源
确定信息源是很关键的一步。良好的开端是成 功的一半。若起点没有找准,搜索结果可能会 一无所获。
第21|51页
二. 检索意愿的表达
常用检索技术 用得多:布尔检索、词位检索 用得少:截词检索、限制检索
注:并不是每个检索系统都支持所有的 检索技术。
第22|51页
1、布尔检索
错误表达式:
第25|51页
2、词位检索
词位检索又称全文检索。它是一种可以不依赖叙 词表而直接使用自由词进行检索的一种技术。 这种检索技术增强了选词的灵活性,它采用位置 逻辑符进行组配运算,可弥补布尔检索技术造成 误检的不足。
在不同的检索系统中,词位检索算符的种类和表 达形式在不同的检索系统中并不完全相同,但根 本思路并没有什么大的区别,在使用时需要加以 注意。
布尔运算符:AND、OR、NOT
C B
举例:A是计算机书籍的集合、 B是论文的集合, 逻辑“与” “计算机”AND“论文” 得到的结果是“计算机论文”的集合
A
A
C
B
举例:A是计算机书籍的集合、 B是自动控制书源自文库的集合, 逻辑“或” “计算机”OR“自动控制” 得到的结果是“计算机”或“自动控制” 书籍的集合。
第28|51页
第14|51页
比较流行的搜索引擎
国内的有:
“北大天网” e.pku.edu.cn “新浪”WWW.SINA.COM.CN 雅虎中文 www.yahoo.com.cn 中国考网 www.chinatest.com 搜狐www.sohoo.com.cn 网易搜索 www.yeah.net
国外有:
第19|51页
元搜索引擎
这类搜索引擎没有自己的数据,它将用户 的查询请求同时向多个搜索引擎递交,将 返回的结果进行重复排除、重新排序等处 理后,作为自己的结果返回给用户。 这类搜索引擎的代表是WebCrawler,在实 际中应用的效果并不理想。
第20|51页
5.具体信息搜索步骤
(1)制定信息搜索策略
举例:A是计算机书籍的集合, 逻辑“非” NOT“计算机” 得到的结果是非“计算机”书籍的集合
第23|51页
A
C
B
举例:
检索“打印机驱动程序”
查询关键词:打印机、驱动程序 检索表达式:打印机 AND 驱动程序 查询关键词:微型计算机、微机 检索表达式:微型计算机OR 微机
查询关键词:笔记本、电脑 检索表达式:笔记本 NOT 电脑
在Internet上进行信息搜索时,建议采取以下策略: ①首先确定提供相关信息的优秀信息源; ②检查信息源所提供的信息粒度是否适中,所提供的信 息量是否合适。信息量太多,冗而杂,搜索不便,信 息量太少,则搜索不到足够的信息; ③研究信息源所提供的搜索命令及搜索方法,制定搜索 计划,然后开始进行搜索。
第13|51页
⑸搜索引擎
在信息社会,信息的有效和迅捷是成功的必要 条件。为了使用户尽快得到自己所需要的信息, 许多网站都提供了信息检索服务,国外称之为 “搜索引擎”。 用户要进行检索,必须提供查询条件,查询条 件要符合服务站点的检索规则。各站点的检索 规则不尽相同。大致可分为按布尔条件检索和 按内容检索两类。
由于这种方法的不可预见性,所以它 也许很有乐趣,但也许会一无所获。
第10|51页
⑵浏览(Browsing)
浏览就如同走进图书馆的书库,然 后在书架上直接翻看一样。
目前Internet上提供的Gopher服务 就是这种方法的电子等价物。WWW提 供的超文本方式可以看作是浏览的 一种特殊形式。
第11|51页
目前Internet上有许多资源指南。如
http://www.rpi.edu/Internet/Guides/decemj/icmc/toc3.htm1
它搜索了关于Internet各种技术、文化、组织、应用等大 量的信息指针。用户可利用这些指针进行资源引导。但是 应注意Internet上的信息变化极快,几乎每六个月就需对 这些信息进行更新,参照的资源指南可能已经过时。 Internet上提供了成千上万个信息源和各种各样的信息服 务,而且信息源和服务种类、数量还在不断、快速地增长。 对这些信息源和服务,由于时间、精力和财力限制,不可 能一一亲身尝试。上面提到的偶然发现和浏览两种方法虽 然在某些场合下十分有效,但有时花费时间、效益比可能 不会令人太满意,而使用搜索方法则可缩小查找范围,达 到事半功倍的效果。
第18|51页
基于Robot的搜索引擎
由大规模机器运行的程序按照某种策略自动地在 互联网中搜集和发现信息,由索引器为搜集到的 信息建立索引,并由检索器根据用户的查询输入 检索索引库,并将查询结果返回给用户。 服务方式是面向网页的全文检索服务。该类搜索 引擎的优点是信息量大、更新及时、毋需人工干 预,缺点是返回信息过多,可能有很多无关信息, 用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista, Excite, Infoseek, Inktomi, FAST, Lycos,,AlltheWeb, Ask Jeeves, Google; 国内最具代表性的是:百度,天网,OpenFind。
网络检索
组 纸质书刊、资 软件、信息存储数 端、检索软件、联机 终端、通讯网络、 料 成
数据库、通讯网络 网络数据库 直观,信息存 设备简单,检索费 检索范围广泛,检索 储与检索费 用低 检索入口少、 更新不够及时 较低 用低,检索技术容 速度快,检索功能强, 易掌握 及时性好 检索技术复杂,设备 要求高、检索费用昂 贵。
nW
n(n=0,1,2, 3…)个词 Laser(1W) Printer
Laser Printer和 Laser Color Printer和 Laser And Printer 命中
nN
关键 词间 插入
例子
n(n=0,1,2, 3…)个词
Wastewater(4N) Treatment Wastewater and air pollution Treatment和 Treatment Wastewater 命中
第24|51页
检索“微型计算机”方面的有关信息
检索“笔记本”方面的有关信息
布尔运算符优先级
布尔运算符优先级比较
有括号时:先括号内、后括号外; 无无括时:NOT > AND > OR 关键词:唐、宋、诗歌; 检索表达式:
例:检索“唐宋诗歌”的有关信息。
(唐 OR 宋)AND 诗歌; 唐AND诗歌 OR 宋AND诗歌; 唐 OR 宋AND诗歌; 结果:“梦回唐朝”、“唐王李世民”或“唐三彩”
第4|51页
⑴文献
文献是知识、载体和记录三要素构成,是记 录有知识的一切载体的总和。包括载体与知 识两部分。
远古时期的结绳记事:绳子+每个结表示的含义; 甲骨文时期:大动物的骨头、龟壳+记录的内容; 竹简时期:竹子+记录的内容; 纸张时代:书、手稿等+记录的内容; 现代:音像制品、电子出版物等+记录的内容。
第8|51页
2. 检索信息的途径
在Internet上查找信息的途径有很多 种,可大致分为以下几种:
① 偶然发现 ② 浏览(Browsing) ③ 搜索(Searching) ④ 通过资源指南(Resource Guide) ⑤ 搜索引擎
第9|51页
⑴偶然发现
这是在Internet中发现信息的原始方 法。当你在Internet上遨游之时,也 许会意外发现一些很有用的信息。
⑶搜索(Searching)
搜索就像通过索引或分类卡片来帮助查找 一样。 在Internet中有许多不同类型的搜索工具, 如WAIS、Archie、Veronia、Jughead等, 它们都有各自不同的搜索目的。 还有许多网点则提供给用户一种组合式的 搜索界面。
第12|51页
⑷通过资源指南