第五章网络信息检索

合集下载

信息检索概论05-2CNKI

信息检索概论05-2CNKI
安徽工业大学图书馆信息检索教研室

安徽工业大学图书馆信息检索教研室
2)中国博士学位论文全文数据库
China Doctoral Dissertations Full-text Database(CDFD) • 该库是目前国内相关资源最完备、高质 量、连续动态更新的中国博士学位论文 全文数据库。收录全国985、211工程等 重点高校,中国科学院、社会科学院等 研究院所的博士学位论文。截止2012年 3月,收录来自397家博士培养单位的博 士学位论文全文文献 19.4万多篇。
1
CNKI概述
2 CNKI数据库检索指南
安徽工业大学图书馆信息检索教研室
中国知识资源总库(CNKI)
安徽工业大学图书馆信息检索教研室
5.2 中国知识资源总库—CNKI
• • • • • • • • • 5.2.1 CNKI概述 新平台 /kns/default.htm 老平台 /index.htm 十大专辑 主要数据库 5.2.2 KDN知识发现网络平台暨KNS60简介 5.2.3 CNKI数据库检索指南 5.2.4 其它常用功能 5.2.5 个性化定制服务
安徽工业大学图书馆信息检索教研室
5.2.1 CNKI概述
• 《中国知识资源总库》是一个大型动态知识库、 知识服务平台和数字化学习平台。目前,《总库》 拥有国内9000多种期刊、620多家博士培养单位优 秀博硕士学位论文、73万篇全国二级以上学会/协 会的重要会议论文、700多种报纸、2000余种年鉴、 3000余种工具书、标准、专利、科技成果、政府 文件、互联网信息汇总以及国内外上千个各类加 盟数据库等知识资源。 • 《总库》中数据库的种类不断增加,数据库中的 内容每日更新,每日新增数据上万条。
• 智能检索、复合排序

网络信息检索技术(5篇材料)

网络信息检索技术(5篇材料)

网络信息检索技术(5篇材料)第一篇:网络信息检索技术网络信息检索技术网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。

一、布尔逻辑检索逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。

布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。

(一)逻辑“与”逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。

检索词A、B以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。

例如,要查找children education(儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND educa tion”。

运算的结果是同时含有检索词children和检索词education的文献才被检索出来。

(二)逻辑“或”逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。

检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。

因而逻辑“或”运算可用于扩大检索范围。

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car 或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile”。

运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。

(三)逻辑“非”逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。

第五章信息检索系统

第五章信息检索系统
2
第二页,编辑于星期五:十八点 十七分。
第一节 信息系统及其种类
信息系统的特点:
(1)涉及的数据量大。 数据一般需存放在辅助存储器中,内存 中只暂存其中当前要处理的一小部分数 据。
3
第三页,编辑于星期五:十八点 十七分。
(2)绝大部分数据是持久的,不随程序运行 结果消失,长期保留在计算机系统中。
40
第四十页,编辑于星期五:十八点 十七分。
评论性文摘: ➢浓缩原文内容,并包括文摘员的分析
和见解。
41
第四十一页,编辑于星期五:的篇目按照一 定的排检方法编排,供人们查找篇目出处 的工具。
42
第四十二页,编辑于星期五:十八点 十七分。
➢它按照论文的篇名顺序排列,按“篇” 报道。
著者途径
➢ 许多检索系统备有著者索引、机构(机构 著者或著者所在机构)索引;
➢ 利用这些索引从著者、编者、译者、专利 权人的姓名或机关团体名称字顺进行检索 的途径统称为著者途径。
56
第五十六页,编辑于星期五:十八点 十七分。
序号途径
➢ 有些文献有特定的序号,如专利号、报告号、 合同号、标准号、国际标准书号和刊号等。
10
第十页,编辑于星期五:十八点 十七分。
两者区别
➢ 都用于信息的存储和检索,两者之间 没有严格的、绝对的界限;
➢ 检索工具可称为检索系统,检索系统 也可以称为检索工具。
11
第十一页,编辑于星期五:十八点 十七分。
➢ 检索工具是比较狭义、具体的概念, 代表某种有形的实体;
➢ 检索系统是个比较广义、概括的概 念,代表某种复杂的集合体。
信息系统的种类
➢ 管理信息系统 ➢ 地理信息系统 ➢ 指挥信息系统 ➢ 决策支持系统 ➢ 办公信息系统

计算机信息检索(第五章)

计算机信息检索(第五章)

数据库的排列
顺排文档:按照文献顺序号(计算机数
据库中称存取号)大小来排列的资料文 档。号码越大,资料越新。 倒排文档:按照检索标识(记录中出现 的词)的字顺排列,并给出每个检索标 识在文档中出现的次数(词频)和所在 地址(存取号)。
检索策略的设计
对于检索策略,目前尚未有一个公认的
定义,国内代表性的提法有三种,分别 从检索过程、检索目的,以及用户方面 给出定义,但不管哪一种,都从不同角 度概括了检索策略的本质和内容,认为 检索策略是为实现检索目标而作的全面 策划。因此,编制和调整检索策略的意 义极其重大。其一般流程可分为:
Soil and water Conservation(水土保持)
Soil Conserving foliage(保土耕作法) Bank protection work(护岸工程)Sand control(治沙) Fixed cline(固定沙丘)
效益
Value
Beneficial result, efficiency 效能 usefulness
检索技术及其实现
AND
A and B 逻辑与。A和B都为真 时,结果才为真 。从检索结果来看,是 缩小检索范围,减少输出量。
检索技术及其实现
OR
A or B 逻辑或。A或B中只要 有一个为真时,结果就为真。从检索结 果来看,是扩大检索范围,增加输出量。
检索技术及其实现
NOT
A not B 逻辑非。A为真、B 为假时,结果才为真。从检索结果来看, 是从检索内容中剔除一部分内容,因而 减少输出量(尽量少用)。 多概念组配时,需使用括号。


光盘检索阶段(1980~) :70年代末至80

第五章数字信息资源检索概述

第五章数字信息资源检索概述
高级检索,也称复杂检索、向导式检索、 专家检索。它包含组配检索,即将两个或两个 以上的检索词用不同的组配算符组合起来,如 布尔逻辑组配、位置算符组配等,使检索更为 灵活,检索结果更为准确。
使用各类组配算符、使用检索限定、 选择检索入口,其检索功能与简单检 索基本一致,但检索结果更为准确。
命令检索(command search)
字段代码 TI AU KW DE
CS
AB DT
JN
PY ISSN/ISBN FT
中文数据库常用字段
题名 作者 关键词 主题词
机构(作者单位)
文摘 文献类型
期刊名称
出版年 ISSN/ISBN 全文
其它检索技术
嵌套检索(优先算符,nesting):即用括 号将优先检索的检索式括起来,系统会首先检 索括号中的概念。如:
3 检索费用较低。
电子资源的主要检索方式
二次检索
简单检索
高级检索
命令检索
简单检索(simple search 、easy search 、quick search 、
basic search)
简单检索,又称基本检索、快速检索,即为 用户提供一个简单的检索界面,帮助非专业或 初入门用户方便提交的检索式。
检索技巧
❖检索结果过少,漏掉了相关文献?
放宽检索要求,提高检全率[扩检]
去掉某个方面的检索要求; 放宽检索范围:学科领域、时间、文章类型,关键词出
现的字段等; 将描述检索主题的词想全,包括同义词及缩写形式;
如:NPC OR Nasopharyngeal carcinoma
使用单数单词检索,可以检索到大多数单词单数、复数 和所有格,不规则单词除外; 如:city 可以检索出 city,cities,city’s,cities’

《网络信息检索》教案

《网络信息检索》教案

《网络信息检索》教案一、教学目标1. 让学生了解网络信息检索的基本概念和意义。

2. 培养学生运用网络信息检索工具获取信息的能力。

3. 提高学生筛选、评估和运用网络信息资源的能力。

二、教学内容1. 网络信息检索的概念与意义2. 常用网络信息检索工具及其使用方法3. 网络信息检索的技巧与策略4. 网络信息的筛选与评估5. 网络信息检索的实际操作训练三、教学方法1. 讲授法:讲解网络信息检索的基本概念、意义和常用工具。

2. 演示法:展示网络信息检索的实际操作过程,让学生跟随操作。

3. 练习法:让学生通过实际操作练习网络信息检索的技巧与策略。

4. 讨论法:分组讨论网络信息的筛选与评估方法,分享实际操作经验。

四、教学准备1. 网络环境:确保教学场所具备稳定的网络连接。

2. 教学工具:准备投影仪、计算机等教学设备。

3. 教学资源:收集各类网络信息检索工具和实例。

五、教学过程1. 导入:介绍网络信息检索的基本概念和意义,激发学生的学习兴趣。

2. 讲解:讲解常用网络信息检索工具及其使用方法,让学生了解网络信息检索的基本技巧。

3. 演示:演示网络信息检索的实际操作过程,让学生跟随操作。

4. 练习:让学生通过实际操作练习网络信息检索的技巧与策略。

5. 讨论:分组讨论网络信息的筛选与评估方法,分享实际操作经验。

6. 总结:总结本节课的重点内容,强调网络信息检索的注意事项。

7. 作业:布置相关练习题,巩固所学内容。

六、教学评价1. 形成性评价:通过课堂练习和学生实际操作,及时了解学生的学习进度和掌握情况。

2. 过程性评价:观察学生在讨论中的参与程度,评估其筛选和评估网络信息的能力。

3. 总结性评价:课后作业和课程考试,评估学生对网络信息检索知识的掌握和实际操作能力。

七、教学拓展1. 邀请专业人士进行讲座,分享网络信息检索在实际工作中的应用经验。

2. 组织学生参观图书馆或信息中心,了解传统信息检索与网络信息检索的异同。

3. 开展网络信息检索竞赛,激发学生的学习兴趣和竞争意识。

什么是网络信息检索

什么是网络信息检索

什么是⽹络信息检索⼀、⽹络信息检索的概念⽹络信息检索(NIR:Network Information Retrieval)⼀般指因特⽹检索,是通过⽹络接⼝软件,⽤户可以在⼀终端查询各地上⽹的信息资源。

这⼀类检索系统都是基于互联⽹的分布式特点开发和应⽤的,即:数据分布式存储,⼤量的数据可以分散存储在不同的服务器上;⽤户分布式检索,任何地⽅的终端⽤户都可以访问存储数据;数据分布式处理,任何数据都可以在⽹上的任何地⽅进⾏处理。

⼆、⽹络信息检索的技巧与使⽤1、主题指南与搜索引擎结合使⽤主题指南将信息系统地进⾏归类,可使⽤户⽅便地查找到某⼀⼤类信息,但其搜索范围较搜索引擎要⼩许多。

搜索引擎查询较为全⾯⽽充分,可以提供最全⾯、最⼴泛的搜索结果,但所提供的信息不像主题指南那样层次结构清晰,显得繁多⽽杂乱。

由于主题指南和搜索引擎各有优势,两者可以相互结合,取长补短,合理运⽤,以产⽣最佳结果。

总之,选择合适的搜索引擎是信息检索⾄关重要的⼀步。

搜索引擎在查询范围、检索能⼒、效率等⽅⾯各具特⾊,针对不同⽬的的检索,应选⽤不同的搜索引擎。

2、缩⼩检索范围(1)采⽤恰当的检索表达式。

在检索表达式的构造中,可采⽤把⼀个短语作为⼀个整体进⾏查询的办法,或者采⽤强制包含或排除特定关键词的办法限定检索范围。

(2)限定检索范围。

当检索的范围过⼤时,可以对检索词的年代、语种、数量、学科等检索范围进⾏限定。

这些限定检索的运⽤可以有效控制检索的相关性,从⽽提⾼检准率,使检索结果接近⽤户需求。

(3)利⽤进阶检索功能。

进阶查询(RefineQuery)是指利⽤前⼀次检索的结果作为后⼀次检索的依据,逐步缩⼩检索范围。

(4)搜索⼒求具体化。

检索⽂献信息资源时,要明确检索课题的需求,限定查询范围,选择确切的检索词,使检索要求具体化、明确化。

这样,有利于提⾼⽂献信息资源检索的查准率。

3、扩⼤检索范围(1)使⽤同义词或近义词检索。

⽬前,检索软件的智能化程度较低,容易漏检与关键词意思相近或⼀致的内容。

信息检索课件 第5讲 网络信息检索PPT69页

信息检索课件 第5讲 网络信息检索PPT69页
财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
信息检索课件 第5讲 网络信 息检索
26、机遇对于有准备的头脑有特别的 亲和力 。 27、自信是人格的核心。
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。

网络信息资源检索课件

网络信息资源检索课件
网络信息资源具有多样性、交互 性、动态性、共享性等特点,可 以满足不同用户的需求,提供便 捷的信息获取方式。
网络信息资源的类型
政府信息
包括政府机构、政策法规、统 计数据等信息。
学术信息
包括学术论文、研究报告、学 术期刊等信息。
商业信息
包括公司简介、产品信息、市 场调研等信息。
个人信息
包括博客、论坛、社交媒体等 信息。
应了解常见的网络攻击手段,如钓鱼网站、恶意软件等,采取相应 的防范措施。
THANKS
感谢观看
网络信息资源的发展历程
1 2
互联网的兴起
随着计算机技术和通信技术的发展,互联网逐渐 兴起,成为人们获取信息的重要途径。
信息爆炸时代
随着互联网的普及,网络信息量呈爆炸式增长, 搜索引擎的出现使得信息检索变得更加便捷。
3
个性化信息服务
随着大数据和人工智能技术的发展,个性化信息 服务逐渐成为主流,能够根据用户需求提供更加 精准的信息服务。
网络信息资源检索课件
• 网络信息资源概述 • 网络信息资源检索基础 • 搜索引擎的使用 • 学术信息检索 • 网络信息资源的质量评价 • 网络信息资源的合理使用
01
网络信息资源概述
定义与特点
定义
网络信息资源是指通过计算机网 络可用的各种信息资源的总和, 包括文本、图像、音频、视频等 形式。
特点
使用恰当的关键词
选择能够准确描述信息需求的关键词,避免使用过于宽泛或模糊的词 汇。
调整检索策略
根据检索结果不断调整关键词和查询方式,以提高检索效率和准确性。
03
搜索引擎的使用
搜索引擎的原理与分类
搜索引擎的原理
搜索引擎通过爬取互联网上的网页,建立索引,然后根据关键词匹配程度进行 排序,为用户提供搜索结果。

《网络信息资源检索》课件

《网络信息资源检索》课件

合法获取和使用
在使用网络信息资源时,应通过合法途径获取和 使用,避免使用盗版或非法获取的资源。
05
网络信息资源检索的发展趋势
个性化信息检索服务
总结词
个性化信息检索服务是一种基于用户兴趣和需求的信息检索方式,通过分析用户的历史搜索记录、兴趣偏好等信 息,为用户提供更加精准、个性化的搜索结果。
详细描述
信息排序
检索结果通常会按照相关度、时 间顺序等标准进行排序,以便用 户快速找到所需的信息。
02
网络信息资源检索工具
搜索引擎
搜索引擎定义
搜索引擎是一种网络信息资源检索工具,通过爬取互联网上的网 页信息,建立索引数据库,为用户提供关键词检索服务。
搜索引擎分类
搜索引擎可分为全文搜索引擎、元搜索引擎、垂直搜索引擎等类型 ,每种类型都有其特点和适用场景。
3
常用网络资源目录
常用的网络资源目录包括Yahoo目录、Open Directory等。
03
网络信息资源检索技巧
关键词选择与提炼
01
关键词是检索过程中最关键的要素,选择恰当的关 键词能够提高检索的准确性和效率。
02
关键词的提炼需要从信息主题、内容、特征等方面 进行提炼,以突出信息的核心内容。
03
常用特种文献数据库
常用的特种文献数据库包括万方数据、维普资讯、中国知网等。
网络资源目录
1 2
网络资源目录定义
网络资源目录是指将互联网上的各类资源进行分 类和整理,形成一个层次结构化的目录体系,方 便用户进行查找和检索。
网络资源目录特点
网络资源目录具有高度的组织性和分类性,能够 提供全面、系统的互联网资源检索服务。
图书馆资源

网络信息检索基础知识、方法与技巧

网络信息检索基础知识、方法与技巧

检索语言(retrieval language)
检索语言的概念和作用 检索语言的类型

检索语言的概念和作用

检索语言(retrieval language):是信息 存储与检索过程中用于描述信息特征和表 达用户信息提问的一种专门语言。检索的 运算匹配就是通过检索语言的匹配来实现 的。是人与检索系统对话的基础。
网络数据库检索系统的特点



(1)检索快捷:处理速度快、运算准确、可靠性 高。 (2)多元灵活:可以采用逻辑运算和限制检索等 功能,使检索词之间能够灵活地进行组配。 (3)信息量大,数量多,一次可以检索各个年代 范围的资源。 (4)更新迅速、及时:如许多动态类资源,可以 随时更新,又如美国OCLC网络的First Search检 索系统,新刊出版后3天内,即可出现。

网络资源的产生与发展(一)
1965年-1990年代:由于集成电路技术、硬盘技 术、数字通信技术、分组交换网技术的发展。开 始有了数据库联机检索系统(如DIALOG、 MEDLINE等),1975年提供使用的联机数据库已 有300个左右,其生产和运作模式也由政府行为 转向商业行为,用户群也由政府机构扩展到更多 的图书馆和科研机构。到80年代末数据库的数量 已达到3600多个,数据库容量增加,出现了光盘 介质,全文数据库迅速增加、出现了数值数据库 和事实数据库。这一时期是联机检索系统发展的 鼎盛时期。

网络信息资源检索系统的物理构成



(1)服务器 服务器是检索系统的核心部分,在检索过程中需 要处理大量的指令和数据。这需要服务器具有较 高的运算速度和处理能力,并且具有相当大的信 息存储容量。 服务器决定了系统的检索速度和存储容量,而软 件部分的作用则是充分发挥硬件的功能,主要进 行信息的存储、处理、检索以及整个系统的运行 管理。服务器软件和硬件的组成反映了整个信息 检索系统的检索能力。(如CNKI服务器)

网络信息检索

网络信息检索
互联网信息检索 19
• •
2013-6-28
基 本 概 念: 统一资源定位器件(URL)
URL代表了互联网上一切资源,包括上网计算机及其各种文件 的地址。 格式为:Protocol://host.[:port]/path/filename 例如:网址/demoweb/url-primer.html http:通信协议名称 主机地址; 含义是浏览器采用http协议,从的www 服务器的80端口上(缺省)的/demoweb子目录下的urlprimer.html文件。 p.118-119
2013-6-28 互联网信息检索 17
基本概念——网上信息资源的类型
• 是否属于搜索引擎检索范围区分: 可见资源、不可见资源 可见资源:搜索引擎可搜索到的资源 含有HTML超链接 没有设置口令 不是动态数据库,如IPAC等。 116页
2013-6-28
互联网信息检索
18
基 本 概 念(p117-118)
2013-6-28 互联网信息检索 39
中文引擎和外文引擎区别
• 两种引擎的区别不在于使用的语言,而在于 收集和处理信息的侧重点的不同,中文引擎 主要收集和处理的信息是中文网页,查找中 文资料的效果通常胜过外文引擎。反之,如 果需要查找英文信息,直接使用境外英文引 擎效果更好。 P 122
2013-6-28
面向网页的信息
例子:Google、Excite等
适于比较具体、特殊的问题
2013-6-28
例子:Yahoo!等
适于网站、专题
32
互联网信息检索
多元引擎 (p121)
• 又称元搜索引擎,它没有存放网页信息的数据库,只是 调用其他搜索引擎的数据库。 • 工作过程: 当用户查询一个关键词时,它把查询请求转换成其它数 个搜索引擎能够接受的命令格式,并行地或者有选择性 地访问这些搜索引擎并查询这个关键词,在处理其它搜 索引擎的返回结果时,只提取出每个搜索引擎的结果中 前面10~50条,并将这些条目合并在一起,去除重复后 返回给用户。其服务方式为面向网页的全文检索。 特殊的主题引擎

信息检索与利用 第5章 中外文网络数据库检索

信息检索与利用 第5章  中外文网络数据库检索

④ 智能提示检索。一框式检索可自动提示相关检索词。当输入检索词“数据仓库”时, 只输入了“数据”,系统就会根据输入的内容,自动提示相关的搜索词,通过选中提示词, 点击检索按钮(或者点击提示词,或者直接回车),即可实现检索。
⑤ 相关词检索。在检索结果页面的下方,提供了所输入检索词的相关词,点击相关词 即可进行检索。
(15) 结果中检索。在检索后,如果对检索结果不满意,可以选择添加新的检索条件,以 进一步缩小检索结果范围。
3) 高级检索 对于需要专业检索和组合检索的用户可以进入高级检索模式进行检索。在中国知网检 索的主页中,选择要检索的库,再点击“高级检索”进入高级检索页面。 (1) 检索。检索功能提供了简单的组合检索,适合大多数用户使用。图中和按钮,用来 添加或者减少检索条件。可以选择年限和期刊的来源类别进行组合检索,同时也提供了精 确和模糊的选项,满足用户的需求。 (2) 高级检索。在高级检索中,还提供了来源、基金、作者以及作者单位等更多的组合 条件。 (3) 专业检索。专业检索是所有检索方式里面比较复杂的一种检索方法,需要用户自己 输入检索式来检索,并且确保所输入的检索式语法正确,才能检索到想要的结果。 (4) 作者发文检索。作者发文检索用于检索某作者发表的文献。检索非常简单,只要输 入相应作者姓名、单位即可。 (5) 科研基金检索。科研基金检索用于检索某基金支持发表的文献。 (6) 句子检索。句子检索用来检索文献正文中所包含的某一句话,或者某一个词组。 (7) 来源期刊检索。来源期刊数据库主要针对想了解期刊来源的用户,包括期刊的来源 类别、期刊名称、年限等进行组合检索。
第5章 中外文网络数据库检索
5.1 数据库概述 5.2 综合全文数据库 5.3 数字图书 5.4 著名的学术评价检索系统
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(3)多元搜索引擎(metasearch engine)
• 多元搜索引擎(metasearch engine或megasearch engine)
又称为集合式搜索引擎。多元搜索引擎是将多个搜索引擎集 成在一起,并提供一个统一的检索界面。它可分为两种类型: 搜索引擎目录和元搜索引擎。 – 搜索引擎目录: 也即检索工具的检索工具,它将主要的搜索引擎集中起 来,并按类型或按检索问题等编排组织成目录,帮助、导引 用户根据检索需求来选择适用的搜索引擎。 它集中罗列检索工具,并将用户导引到相应的工具去检 索; 检索的还是某一搜索引擎自己的数据库,与普通单一 搜索引擎的检索是一样的。只不过是设立了又一层门户,通 过其组织、检索界面,为用户选择适用的检索工具提供积极 的帮助,以克服用户面对众多的检索工具的无所适从。较典 型的搜索引擎目录有:All-in-One,CUSI, iTools!等。
(1)目录型检索工具(subject directory)
• 目录型检索工具也称作catalogue • 目录型检索工具 是按照某种主题分类体系编制的一种可供检 索的的等级结构式目录。在每个目录类及子类下提供相应的 网络资源站点地址,并给以简单的描述。 • 优点:目录型检索工具经过信息管理专业人员、分类专家的 人工设计和编制,所收录的网络资源经过专业人员的鉴别、 选择和组织,保证了检索工具的质量,提高了检索的准确性。
新浪搜索
• 新浪搜索引擎是面向全球华人的网上资源查询系统, 提供网站、中文网页、英文网页、新闻、软件、游戏 等查询服务。是互联网上最大规模的中文搜索引擎之 一。 • 新浪搜索具有URL自动检测功能,并提供个性化服务 给经常使用新浪搜索的用户:所见即所得——我的书 签、桌面上搜索引擎——新浪点点通两种服务。 • 新浪搜索提供“分类检索”和“关键词查询”两种查 找方式。
三、重要的网络检索工具 • • • • •
目录型网络检索工具 Yahoo! ( http://www.yahoo.com) InfoSeek (http://infoseek.go.com) 搜狐 (http://www.sohu.com.cn) 新浪搜索 (http://search . sina . cn) 网易搜索 (http : //www . yeah . net)
• 局限性: – 其更新、维护的速度或周期要受系统人员工作时间的制约,导致检索 工具的新颖性不够; – 若用户不熟悉其分类体系或对类分标准理解与系统人员不一致,就会 影响其检索; – 在某些主题下收录范围不够全面,使检索到的信息数量有限。
• 目录型检索工具比较适合于查找综合性、概括性的主题概念, 或对检索准确度要求较高的课题。最著名的目录型检索工具 是Yahoo!(URL:www . yahoo.com)。
网络信息检索工具的一般构成
自动索引程序: – 大多数网络检索工具一般采用一种称为Robot(又称 Spider,Crawler,Worms,Wanders等)的网络自动跟踪索 引程序 数据库:
– 自动索引程序将采集和标引的信息汇集成数据库,作为 该网络检索工具提供检索服务的基础。不同的网络检索 工具的数据库的收录范围不同,标引方式也不同,规模 大小不同。 检索代理软件: – 当用户提出检索查询时,由检索软件负责代理用户在数 据库中进行检索。不同的网络检索工具所采用的检索机 制、算法有所不同,布尔逻辑检索是较普遍采用的一种 机制。
前表示该词出现在检索结果中。
• 评价:Infoseek庞大的全文数据库保证了它的查全率,而它独特的检索 算法和检索功能,又提高了它的查准率,同时由于其丰富的服务内容, 使得Infoseek由一个检索工具变为一个强大的信息服务中心。 Infoseek 曾被PC Week杂志称为最全面的检索工具
搜狐
• 原名http// • 搜狐是由爱特信公司1998年开始研制的。搜狐是针对国际互联网上中文信 息日渐丰富、查找困难的实际情况,根据中国人的文化传统专门为中国用 户度身设计推出的网络分类式查找引擎。曾被路透社誉为“the most popular website destination in China”。 • 搜狐的全面战略及内容合作伙伴有英特尔(Intel),道· 琼斯(Dow Jones), 热连线(Hot Wired),时代华纳,NBA和新华社等。 • 搜狐提供了一个分类详尽的Web目录,采用树型结构对站点进行层次性分 类,根据相应的网页内容,将所有的网页分为地区类、工商经济类、计算 机与互联网、教育等18个类别,在18个大类下面又分成几百个小类。在关 键词检索方面,搜狐自动在全部网页目录中利用全文检索的办法找到相关 网页。
第五章 网络信息检索
一、网络信息资源 二、网络信息检索工具 三、重要的网络检索工具
一、网络信息资源
网络信息资源的特点 网络信息资源的类型
1。网络信息资源的特点
– – – – – 无序性 开放性 动态性 多样性 用户广
2。网络信息资源的类型
(1)按信息的内容划分为:
政府信息,科研信息,教育信息,文化信息,娱乐消闲信息 等
(2)按采用的网络传输协议不同划分为:
万维网信息资源,Telnet信息资源,FTP 信息资源,用户服 务组信息资源,Gopher 信息资源
(3)按网络信息资源传播范围划分 : 光盘局域网信息资源 传统联机检索信息资源 Internet网络信息
二、网络信息检索工具
1。网络信息检索工具及一般构成 • 网络信息检索工具是指在因特网上提供信息检索服务的计 算机系统,其检索对象是存在于因特网信息空间中各种类 型的网络信息资源。 • 早期的搜寻FTP资源的Archie,检索Gopher网站资源的 Veronica和Jughead,查询 Usenet新闻组资源的WAIS等, 以及Yahoo, Alta Vista, Lycos等 Web检索工具。 • 所谓Web检索工具是指利用超文本(超媒体)技术在因特 网上提供网上信息资源导航、检索服务的专门Web 服务器 或网站。由于Web检索工具既以Web 形式提供服务,又以 Web资源为检索对象,检索范围还涉及其他网络资源形式, 如Usenet ,Gopher , FTP等,所以Web检索工具成为人们 获取因特网信息资源的主要检索工具和手段。
Yahoo!
• Yahoo 是“Yet Another Hierarchical Officious Oracle”的缩写。 Yahoo!是最早开发的互联网搜索引擎,是Internet搜索工具的 “元老”,也是目前WWW环境中最著名最常用的搜索工具。它 是由美国斯坦福大学两位博士生开发的。 • Yahoo!不同于其他搜索工具在于它提供了全面的分类体系。它提 供14个宽泛的类目,用户可以利用它的引擎以关键词检索方式查 询它的目录。Yahoo!目录的最大特点在于信息的分类工作由十几 位专家手工进行,与其他由计算机自动分类的搜索引擎相比, Yahoo!的目录更具科学性。 • Yahoo!提供分类查询方式。 • Yahoo!也提供主题查询方式。通过简单关键词或关键词高级检索 方式进行信息查询。 • Yahoo!提供强大的全球信息查询功能,目前已有法国、意大利、 挪威、瑞典、加拿大、澳大利亚、日本等13个国际站点。
• 元搜索引擎 是将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索 提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重 之后输出检索结果。它是一种集中检索的方式,与Dialog联机检索中的跨 文档检索 OneSearch非常类似。 • 优点:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要 输入同样的检索词等。且检索的是多个数据库,检索的综合性、 完整性也 有所提高。 • 缺点:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同, 没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有 时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多, 或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果, 却缺少做进一步判断、阅读的相关指导信息。为此,有些检索人员提出避 免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问, 或就某一课题的网络资源进行快速调查、摸底、综览时使用多元搜索引擎。 较常用的多元搜索引擎有:Dogpile,Metacrawler,Inference Find, SavvySearch,Highway61等。
2。网络信息检索工具的类型:
网络检索工具一般可分为: – Web 资源检索工具:以Web 资源为主要检 索对象, 又以Web形式提供的检索工具。 – 非Web 资源检索工具:即以非Web 资源为 检索对象的检索工具, Archie,Veronica,WAIS 等。
Web 资源检索工具 • (1)目录型检索工具(subject directory) • (2)搜索引擎(search engine) • (3)多元搜索引擎(metasearch者:Infoseek属于Infoseek Corporation 公司,创立者是Steve Kirsch ,1995年提供服务。曾在PC Computing中,被评比为最佳的搜 索服务节点。 • 服务范围与规模:其提供的搜索服务除WWW节点搜索外,还有 Gopher、FTP、Usenet Newsgroup的文章查询,并且提供与电脑相关 的报纸、杂志、电传新闻(news wires)、工商信息、电影/书籍/录影 带评论等全文搜索。 • 检索性能: 管道检索,这是Infoseek的独特功能,即用管道符()连 接两个或更多的检索词。 Infoseek有一套自定义的标识符,例如词组 检索要求把词组用“”括起来;对所要搜索的关键词加方括号[ ],表 示方括号内的词在文字中出现时,其间隔不超过100个词。“+”放在单词
(2) 搜索引擎(search engine)
• 搜索引擎的工作原理:
– 发现、搜集网页信息。首先需要有高性能的Robot程序去 自动地在互联网中搜索信息 – 索引库的建立。建立信息索引就是创建文档信息的特征 记录,使检索者能够快速地检索到所需信息 – 检索及结果输出。代替用户在数据库中查找出与提问匹 配的记录,并返回结果且按相关度排序输出。
相关文档
最新文档