精品课件-信息检索与利用-第4章 网络信息资源检索
合集下载
《信息检索与利用》PPT课件
10:01
3
为什么要学习文献检索?
文献资源日益庞大
• •
•
非科技文献,每10年甚至7-8年翻一番 科技文献,尤其是尖端科学的文献增加速度更快,如, 原子能文献每2-3 年就翻一番,且倍增周期逐年缩短 据估计目前每年出版的各种类型的科技文献有1000多万 篇
出版速度加快
据国外报导,2006年全世界出版
10:01
16
一、基本概念
信息
情报
知识 文献
10:01
17
信息(Information)
信息是客观事物存在的方式或运动状态,以及关于 客观事物存在方式或运动状态的陈述。 《情报与文献工作词汇、基本术语》对信息的定义: 物质存在的一种形式、形态或运动状态,也是事物 的一种普遍属性,一般指数据、消息中所包含的意 义。
(4)共享性
10:01
25
人们看柳树发芽,就知道春天来了,看到天上乌 云滚滚,就知道要下雨了,这就是这些自然世界 发出的信息。 信息是介于物质世界和精神世界之间的过渡状态 的东西,是人们认识事物、感知世界的不可缺少 的中间环节。它贯穿于认知活动的始终,认知过 程本身就是一个以信息为中介的信息运动过程。 人类认识世界和改造世界的过程,是一个不断从 客观世界获得信息,并对信息进行加工处理,形 成新的认知结构,然后通过实践活动反作用于客 观世界的过程。
10:01
6
学会了文献检索有什么好处?
对于科技人员: 文献检索是科技人员必备的基本技 能 文献检索是科学研究的先期工作
10:01
7
一个科研人员的时间分配表
写报告 10%
查资料 50%
查资料 计划思考 实验研究 写报告
信息检索与利用教程-精品文档34页
19.10.2019
信息检索与利用教程
32
请大家认真思考
1、资料型參考资源 查詢字詞语汇---字典 词典
查詢各类知识---百科全书 类书
了解人物生平---传记 年谱
查询地理资讯---地图 方志 旅遊集
发现古今事实---年鉴 年表 大事記
查询人物与组织---名录 机构
查詢数据---统计年鉴或手册
信息检索与利用教程
2
2.1手工检索基础
手工检索:利用印刷型检索工具进 行人工查找资料的方式。
工具书:不是用于某一学科或专题的系 统阅读,而是为了查找,是阅读时的一 种辅导工具,也就是供查找和检索文献 线索,解决阅读中产生的疑难问题的一 类图书,属于二次或三次文献。
19.10.2019
信息检索与利用教程
2 手工检索
19.10.2019
信息检索与利用教程
1
手工检索工具和参考工具书
供
科学技术发展,
利用前人成果人们通过实践,创造了许多解决这对矛盾的方
法,最主要的方法是将一次文献加工成二次或三
次文献,编制成能够快、准、全地查阅一次文献
的工具,这就是检索工具和参考工具书 。
19.10.2019
19.10.2019
信息检索与利用教程
10
参考工具书类型
1、字、词(辞)典 2.百科全书 3.年鉴 4.手册 5.标准 6.名录
19.10.2019
信息检索与利用教程
直 接 提 供 知 识 内 容
11
(1).字、词(辞)典
解释文字的形、音、义及其用 法的参考工具书称为字典。
解释词语的含义、及用法的参 考工具书称为词(辞)典。 如:《中药大辞典》
【精品课件】信息检索
大学专业课学习数据库
国研网数据库
考研互动精品课程
国际教育视频库
国泰安研究数据库
第四节 网络信息检索
(一)利用综合性的搜索引擎
(二)利用特殊搜索引擎
(1)Google Scholar Google学术搜索()是一 项免费服务,可以帮助快速寻找学术资料, 如专家评审文献、论文、书籍、预印本、摘 要以及技术报告等。其中文摘信息是公开的。
二、论文数据库的高级检索
根据已知信息给出查找下列论文的最佳高 级检索界面。(如图所示) 1. 陈建平,何太刚,罗运春等 ,…….外国语 文,2011(S1).
2. …….新课程背景下的高中英语创新教育 探索[J]. ……,2012(6). 3. 彭璇. ……[D].大连海事大学,2010.
三、课题检索
读秀达到了图书目录及全文内容级检索
读秀提供了170万种图书的自动的文献传递
© 2008 duxiu. All rights reserved.
读秀的文献传递
部分页 试读
提交咨询 传递表单
咨询 提交成功
登录邮箱
收到咨询传 递回复邮件
点击文献 阅读超链接
通过传递 获得的原文
读秀的知识搜索
查找与“高等数学”相关的文献? 查找名为“网络聚类同步的数值实验研究” 的论文?
2.检索词的选择和确定
检索词是表达文献信息需求的基本要素, 也是计算机检索系统中数据库进行匹配的 基本单元。 原则: 准确、全面、规范。 方法: 切分 -- 删除 -- 替换 -- 聚类 -- 补充 -- 限定
•逻辑“与”
•逻辑“或”
•逻辑“非”
第四步:初次检索
第五步:调整检索策略,实施二次检索
网络信息检索和利用-PPT精选文档
11
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
12
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
13
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
14
玉不琢,不成器;人不学,不不知道 (持续更新,敬请收藏)
(持续更新,敬请收藏) 4
三、元搜索引擎
元搜索引擎是相对单一搜索引擎而言, 字面意思是指搜索引擎之上的搜索引擎,其 本质是对多个单一搜索引擎的集成。 元搜索引擎提供一个统一的检索界面, 将一个检索提问同时发送给多个搜索引擎, 同时检索多个数据库,再经过聚合、去重之 后输出检索结果。它是一种集中检索的方式。 优点:省时 缺点:准确性相对较差,速度也较慢。 玉不琢,不成器;人不学,不知道
常用的元搜索引擎示例 1、Vivisimo
(widewaysearch)
2、万纬搜索
(vivisimo)
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
8
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
9
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
10
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
网络信息检索与利用
玉不琢,不成器;人不学,不知道 (持续更新,敬请收藏)
1
第三章 网络搜索引擎的使用
一.搜索引擎的概念 搜索引擎是使用自动索引软件来发现、 收集并标引网页,建立数据库;以web形式 提供给用户一个检索界面,供用户输入检索 关键词,词组或短语等检索项;代替用户在 数据库中查找出与提问匹配的记录,并返回 结果,且按照相关度排序输出。搜索引擎突 出的是检索功能。 其优点在于省时省力、简单方便、检索 速度快、范围广、能及时获取新增信息。 缺点:检索准确性不很理想,检索噪音 玉不琢,不成器;人不学,不知道 比较大。 2 (持续更新,敬请收藏)
第四章网络信息检索(1)(1)
• 支持模糊检索网络系统一旦发现拼写、扫联机检索系统
• 主要运用于集合型网络信息检索系统 • 技术关键:A、对标引机制和检索功能相异的网络系统 的使用 采用尽量简单的检索式 B、对来自不同网络系统的检索结果的整合 去重合并
检索技术对查准率和查全率的影响
截词检索
• 截词是指检索者将检索词在他认为合适的地方 截断。 • 截词检索就是用截断的词的一个局部进行的检 索,并认为凡满足这个局部中的所有字符的文 献,都为命中的文献。 • 截词可分为前、中、后截词,又可分为有限截 词和无限截词,通常用“*”表示有限截词, 用“?”表示无限截词。
相关反馈
• 根据对检得结果的分析和计算,抽取有助于提 高检索结果相关度的关键词,将它们用于原有 检索式的修改,然后再据些检索更多的相关结 果。
网络信息资源
• 通过计算机网络可以利用的各种信息资源的总和, 即以数字化形式记录的,以多媒体形式表达的, 分布式存储在网络计算机的存储介质以及种类通 信介质上,并通过计算机网络通信方式进行传递 的信息内容的集合。
网络信息资源特点
• 信息量大、传播广泛
• 信息类型多样、内容丰富
• 信息时效性强、动态和不稳定
• 整个过程由系统自动完成。
• 提高查全率
• 例:sogou
加权检索
• 根据检索要求,赋予同一检索式中各个 检索词以不同的权数。 • 以数字(如:1,2,3,其中3为最高权 数)或符号(如:*)表示。
• 例:金融危机影响:金融危机+影响
模糊检索
• 自动纠正在输入数据库信息和检索式过程中产 生的错误,以保证输入信息的正确性。
• 表达式: 检索词/基本索引字段
附加索引字段=检索词 例:Dialog联机检索系统中,基本索引字段代码: TI 题名、篇名 ID 标引词 AB 摘要 DE 主题词、叙词
• 主要运用于集合型网络信息检索系统 • 技术关键:A、对标引机制和检索功能相异的网络系统 的使用 采用尽量简单的检索式 B、对来自不同网络系统的检索结果的整合 去重合并
检索技术对查准率和查全率的影响
截词检索
• 截词是指检索者将检索词在他认为合适的地方 截断。 • 截词检索就是用截断的词的一个局部进行的检 索,并认为凡满足这个局部中的所有字符的文 献,都为命中的文献。 • 截词可分为前、中、后截词,又可分为有限截 词和无限截词,通常用“*”表示有限截词, 用“?”表示无限截词。
相关反馈
• 根据对检得结果的分析和计算,抽取有助于提 高检索结果相关度的关键词,将它们用于原有 检索式的修改,然后再据些检索更多的相关结 果。
网络信息资源
• 通过计算机网络可以利用的各种信息资源的总和, 即以数字化形式记录的,以多媒体形式表达的, 分布式存储在网络计算机的存储介质以及种类通 信介质上,并通过计算机网络通信方式进行传递 的信息内容的集合。
网络信息资源特点
• 信息量大、传播广泛
• 信息类型多样、内容丰富
• 信息时效性强、动态和不稳定
• 整个过程由系统自动完成。
• 提高查全率
• 例:sogou
加权检索
• 根据检索要求,赋予同一检索式中各个 检索词以不同的权数。 • 以数字(如:1,2,3,其中3为最高权 数)或符号(如:*)表示。
• 例:金融危机影响:金融危机+影响
模糊检索
• 自动纠正在输入数据库信息和检索式过程中产 生的错误,以保证输入信息的正确性。
• 表达式: 检索词/基本索引字段
附加索引字段=检索词 例:Dialog联机检索系统中,基本索引字段代码: TI 题名、篇名 ID 标引词 AB 摘要 DE 主题词、叙词
专题网络教学信息资源的检索与利用 ppt课件
Hale Waihona Puke 3.2.4 案例分析卡拉汉夫人的班级还参加了跟踪北半球春天进展的项 目。郁金香项目是一系列“春天的迹象”活动中的一个。 在2000年春天,卡拉汉夫人的学校的教师种植了190个 郁金香花园中的一个,这190个郁金香花园是根据“北方 旅行”网站的详细种植要求在北半球建立的,因而保证了 各个花园的一致性。学生学习科学实验的重要因素,如在 参加这个项目的过程中控制变量。班级登录了“北方旅行 ”的官方郁金香花园的注册处,并开始观察郁金香在春天 的第一个迹象。所有参加的班级都被列出来,这样参加的 学校可能被选出来进行数据交换。此外,“北方旅行”网 站在地图上标出整个大陆郁金香发芽的地点。参加者还会 在郁金香开花时进行报告,提供从南到北春天到来的快照 。
模块3 网络教学资源检索
【内容提要】
【学习目标】
理解网络教学信息资源 的概念、特点、分类及评 价方法;
了解网络教学信息资源 的类型;
了解常用搜索引擎和国 内外专业网络数据库;
了解常用网络教学交流 工具的概况及特点。
能熟练地重组网络教 学信息资源;
能将重组后的网络教 学信息资源熟练地应用 在教学活动中;
1.专业多媒体素材资源
专业多媒体素材资源主要指与专业学科有关的文本、 图形/图像、音频、动画、视频等,这些资料直观形象, 可以帮助学生更好地认识、了解、掌握专业知识和技能。 如机电专业的多媒体素材应包括:机械结构、零/部件、 模型、模具、实物等的图片,工作原理或加工过程的三维 仿真动画等。
2.多媒体课件资源
2.2 网络教学信息资源的检索与利用
33..21..11 网络教网学络信教息学资资源源的的检概索念
3.2.2 学术数据库的检索 3.2.3 网络教学信息资源的重组与利用 3.2.4 案例分析
信息检索与运用PPT课件(共8章)第四章包罗万象的互联网络----网络信息资源检索
搜索范围控制
合理控制搜索范围有助于获取 相关信息,避免徒劳无功。可 以使用高级搜索选项来缩小搜 索范围。
ቤተ መጻሕፍቲ ባይዱ
信息内容评判
搜索到的信息需要仔细评判其 可信度和有效性,以免获取不 实或过时的信息。
版权和隐私问题
在浏览网络信息时,要注意遵 守相关的知识产权和隐私保护 法规。
网络信息资源的鉴别与评价
鉴别网络信息
数据库式网络信息资源
数据库式网络信息资源是利用数据库技术组织和存储的各种专业 知识和数据资源。它提供了持续更新和专业检索功能,涵盖了科 学、技术、医疗等各个领域的前沿信息。登录数据库可获得结构 化的、可靠的数据和知识,是学习和研究的宝贵来源。
多媒体网络信息资源
互联网已经成为人类最大规模的多媒体信息宝库。从文本、图像、音频到视频 ,各种格式的内容随时随地可以被获取和分享。这些丰富多彩的网络多媒体资 源为学习、工作和娱乐提供了无限可能。
1994年
Yahoo!和Excite等全文检索引擎相继问 世,开启了现代搜索引擎的发展。
1998年
Google推出了基于网页排名的全新技术 ,彻底革新了搜索引擎的工作机制。
网络搜索引擎的工作原理
数据收集
1
通过网络爬虫自动抓取网页内容
信息索引 2
对收集的数据进行结构化处理和存储
查询匹配 3
根据用户查询快速匹配相关内容
包罗万象的互联网络 网络信息资源检索
互联网为人们提供了海量、多样的信息资源。掌握有效的网络信息检索方法对 于获取所需信息至关重要。本章将介绍如何利用各种检索工具和方法高效地查 找和筛选所需的网络信息。
by
互联网 - 人类最大的信息资源
庞大信息库
信息资源检索与利用
高级搜索功能
学术搜索引擎通常提供高级搜索功能,如关键词搜索、作者搜索、引用搜索等,使用户 能够更加精确地定位所需信息。
数据库检索
01 02
数据库检索
数据库检索是指通过专门的数据库进行信息检索的方式。这些数据库通 常由专业机构或出版商提供,收录了大量的学术论文、期刊文章、专利 等资源。
权威性高
数据库中的资源通常经过筛选和评价,具有较高的权威性和可信度。
使用布尔逻辑运算符
利用AND、OR、NOT等运算符优化检索结果。
限定检索范围
通过限定时间、地区、文献类型等,缩小检索范围,提高检索效 率。
利用高级检索功能
许多检索工具都提供高级检索功能,利用这些功能可以更精确地 定位信息。
信息筛选与评价
01
02
03
筛选相关性
从检索结的是为用户提供准确、 及时、全面的信息,以满足用户的需 求。
信息检索原理
信息检索原理:信息检索的原理主要包括信息标引、信息组织和信息检索三个环节。
信息标引是指对信息资源的主题内容进行标识和描述,以便于信息组织;信息组织是指将标引后的信息按照一定的方式进行 整理、归类、存储,以便于信息检索;信息检索是指根据用户的需求,利用一定的技术和方法,从信息组织中查找、获取、 提炼和组织所需信息的过程。
核心。
信息素养是实现个人自我价值和 推动社会进步的重要因素,对于 个人职业发展、终身学习以及社
会进步具有重要意义。
信息素养能力要求
信息获取能力
能够根据需要,通过各种途径 获取相关信息,包括图书馆、
互联网、数据库等。
信息评价能力
能够对获取的信息进行客观评 价,判断其真实性和准确性。
信息利用能力
能够将获取的信息应用于实际 工作和学习中,提高工作效率 和创新能力。
学术搜索引擎通常提供高级搜索功能,如关键词搜索、作者搜索、引用搜索等,使用户 能够更加精确地定位所需信息。
数据库检索
01 02
数据库检索
数据库检索是指通过专门的数据库进行信息检索的方式。这些数据库通 常由专业机构或出版商提供,收录了大量的学术论文、期刊文章、专利 等资源。
权威性高
数据库中的资源通常经过筛选和评价,具有较高的权威性和可信度。
使用布尔逻辑运算符
利用AND、OR、NOT等运算符优化检索结果。
限定检索范围
通过限定时间、地区、文献类型等,缩小检索范围,提高检索效 率。
利用高级检索功能
许多检索工具都提供高级检索功能,利用这些功能可以更精确地 定位信息。
信息筛选与评价
01
02
03
筛选相关性
从检索结的是为用户提供准确、 及时、全面的信息,以满足用户的需 求。
信息检索原理
信息检索原理:信息检索的原理主要包括信息标引、信息组织和信息检索三个环节。
信息标引是指对信息资源的主题内容进行标识和描述,以便于信息组织;信息组织是指将标引后的信息按照一定的方式进行 整理、归类、存储,以便于信息检索;信息检索是指根据用户的需求,利用一定的技术和方法,从信息组织中查找、获取、 提炼和组织所需信息的过程。
核心。
信息素养是实现个人自我价值和 推动社会进步的重要因素,对于 个人职业发展、终身学习以及社
会进步具有重要意义。
信息素养能力要求
信息获取能力
能够根据需要,通过各种途径 获取相关信息,包括图书馆、
互联网、数据库等。
信息评价能力
能够对获取的信息进行客观评 价,判断其真实性和准确性。
信息利用能力
能够将获取的信息应用于实际 工作和学习中,提高工作效率 和创新能力。
网络信息资源的使用及检索技巧PPT共63页
文 家 。汉 族 ,东 晋 浔阳 柴桑 人 (今 江西 九江 ) 。曾 做过 几 年小 官, 后辞 官 回家 ,从 此 隐居 ,田 园生 活 是陶 渊明 诗 的主 要题 材, 相 关作 品有 《饮 酒 》 、 《 归 园 田 居 》 、 《 桃花 源 记 》 、 《 五 柳先 生 传 》 、 《 归 去来 兮 辞 》 等 。
55、 为 中 华 之 崛起而 读书。 ——周 恩来
网络信息资源的使用及检索技巧
6
、
露
凝
无
游
氛
,
天
高
风
景
澈
。
7、翩翩新 来燕,双双入我庐 ,先巢故尚在,相 将还旧居。
8
、
吁
嗟
身
后
名
,
于
我
若
浮
烟
。
9、 陶渊 明( 约 365年 —427年 ),字 元亮, (又 一说名 潜,字 渊明 )号五 柳先生 ,私 谥“靖 节”, 东晋 末期南 朝宋初 期诗 人、文 学家、 辞赋 家、散
1
0、倚源自南窗以寄
傲
,
审
容
膝
之
易
安
。
谢谢!
51、 天 下 之 事 常成 于困约 ,而败 于奢靡 。——陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
55、 为 中 华 之 崛起而 读书。 ——周 恩来
网络信息资源的使用及检索技巧
6
、
露
凝
无
游
氛
,
天
高
风
景
澈
。
7、翩翩新 来燕,双双入我庐 ,先巢故尚在,相 将还旧居。
8
、
吁
嗟
身
后
名
,
于
我
若
浮
烟
。
9、 陶渊 明( 约 365年 —427年 ),字 元亮, (又 一说名 潜,字 渊明 )号五 柳先生 ,私 谥“靖 节”, 东晋 末期南 朝宋初 期诗 人、文 学家、 辞赋 家、散
1
0、倚源自南窗以寄
傲
,
审
容
膝
之
易
安
。
谢谢!
51、 天 下 之 事 常成 于困约 ,而败 于奢靡 。——陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.2.3 搜索引擎的发展历史 纵观搜索引擎的发展历史,一般来说,可根据其在不同时期
第4章 网络信息资源检索
4.2.4 发展中的搜索引擎 作为Internet必不可少的核心技术之一,搜索引擎技术是人 们利用海量网络资源的重要工具。目前的搜索引擎,对于不同 的用户,如果基于相同的关键词进行搜索,得到的结果基本相 同。事实上,已经有人指出,整合搜索、社区搜索和移动搜索 等正在成为今后发展的趋势。 1. 整合搜索 用户通过网络搜索获得海量信息是基于信息抓取技术,属于 刚性搜索。整合搜索不是简单地把搜索结果罗列在一起,而是 经过页面搜索、垂直搜索之后,在更高层次上为用户提供最佳 搜索结果,即通过将其他搜索产品的结果整合到网页搜索中, 使结果信息内容更加丰富、形式更为多媒体化。整合搜索的前 提是基于对关键字的智能分析判断。
第4章 网络信息资源检索
3. 元搜索引擎 1) MetaCrawler() 2) Dogpile() 3) 万维搜索引擎() 4. 垂直搜索引擎(专业性搜索引擎) 1) 图像搜索引擎 万维网上的图像信息有多种形式,如图像、图形、位图和动 画等。对于ista等综合性搜索引擎的图片检索功能, 也可以访问一些搜集各种图像资料的专业资料库和俱乐部网站。 2) 地图搜索引擎 地图搜索引擎是面向公众提供电子地图服务的网站,是检索 全国乃至世界地图信息的重要工具。
第4章 网络信息资源检索
(4) MP3搜索。 (5) 新闻搜索。 (6) 字词之间用一个空格隔开,相当 于逻辑“与”),可以”运算符。 ② 减除无关资料(逻辑“非”)。有时候,搜索结果中某一 方面的不相关内容特别多,这时可以利用“减除无关关网页,但减号之前必须留一空格。
第4章 网络信息资源检索
4.1.3 网络信息检索的一般方法 网络信息资源存储在连接到网络的主机和服务器中,如果知 道资源的地址,就可通过浏览器或其他方式利用这些信息。 1. 网上浏览 网上浏览需要从一个相关网站或网页出发,通过超文本文档 中的链接找到一批新的相关网站或网页,在浏览这些网页后, 再从这些网站或网页提供的链接找到下一批相关网站,如此循 环下去,像滚雪球一样不断扩大搜索范围。 2. 网络资源指南 网络资源指南是专业人员对网络信息资源进行采集、评价、 组织、过滤和控制,从而开发出的可供用户浏览和检索的多级 主题分类体系。网络资源指南的局限性在于管理和维护跟不上 网络信息的增长和更新,收录范围不够全面,各网站的分类体
第4章 网络信息资源检索 第4章 网络信息资源检索
4.1 网络信息资源概 述 4.2 搜索引擎 4.3 开放存取ห้องสมุดไป่ตู้
第4章 网络信息资源检索 4.1 网络信息资源概述
第4章 网络信息资源检索
4.1.1 网络信息资源的定义和特点 1. 网络信息资源的定义 网络信息资源是指通过计算机网络可以利用的各种信息资源 的总和,即以数字化形式记录的,以多媒体形式表达的,分布 式存储在网络计算机的存储介质以及各类通信介质上,并通过 计算机网络通信方式进行传递的信息内容的集合。网络信息资 源将原本相互独立、分布于世界各地的数据库、信息中心、文 献中心等联结在一起,形成一个内容与结构全新的信息整体。 2. Internet Internet是世界上规模最大、覆盖面最广、信息资源最为丰 富的计算机信息资源网络。它将遍布全球的各个国家和地区的 计算机系统连接而成了一个计算机互联网络。从技术角度看, Internet是一个以TCP/IP作为通信协议连接各国、各地区、各
第4章 网络信息资源检索
⑥ 专业文档搜索。 ⑦ 在指定网站内搜索。 ⑧ 在标题中搜索。 ⑨ 在url中搜索。利用“inurl:”命令,可以限制只搜索 url中含搜索。 2) AltaVista AltaVista最早由DEC公司于1995年12月推出,目前隶属于 Overture公司。AltaVista曾经被认为是功能最完善、搜索精度 较高的全文搜索引擎之一,大量的创新功能使它迅速到达了当 时搜索引擎的顶峰。AltaVista是第一个支持自然语言的搜索引 擎,具备了基于网页内容分析的智能处理能力。
第4章 网络信息资源检索
除了提供分类目录浏览外,Galaxy还提供关键词的简单检索。 在Galaxy主页中的文本输入框中输入检索的关键词,单击Go按 钮,可以选择“目录搜索”、“网站搜索”和“链接搜索”等 实施检99年底由李彦宏、徐勇 创建于美国硅谷,2务,之后迅速占领中 国搜索引擎市场,成为最独立提 供搜索服务,并且在中国首创了竞价月5日,在第4章 网络信息资源检索
2) 信息类型多样、内容丰富 3) 信息时效性强、动态、不稳定 4) 信息分散无序、但关联程度高 5) 信息价值差异大、难于管理 4.1.2 网络信息资源的类型 1.按网络传输协议划分 1) WWW信息资源 WWW信息资源是建立在超文本、超媒体技术以及超文本传输 协议(Hyper Text Transfer Protocol,HTTP)基础上的集文本、 图形、图像、声音于一体,以直观的图形界面来展现和提供信 息的网络资源形式。WWW其实是Internet中一个特殊的网络区域, 这个区域是由网上所有超文本格式的文档(网页)集合而成的。 超文本文档里既有数据又有包含指向其他文档的“链”(link),
第4章 网络信息资源检索 4.2 搜 索 引 擎
第4章 网络信息资源检索
4.2.1 搜索引擎概念 搜索引擎是根据一定的策略,运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,为用户提供检索 服务的系统。当用户输入关键词查询时,搜索引擎会告诉用户 包含该关键词信息的所有网址,并提供通向该网络的链接。搜 索引擎既是用于检索的软件,又是提供查询、检索的网站。所 以,搜索引擎也可称为Internet上具有检索功能的网页。 4.2.2 搜索引擎基本工作原理 看似简单的搜索引擎背后涉及包括数据结构、索引、算法、 知识表示、自然语言处理、信息检索、人工智能、计算机网络、 分布式处理、数据库、数据挖掘等多个方面的内容。通常,搜 索引擎主要包括信息采集、信息加工、信息检索与检索结果提 供这几个部分。
第4章 网络信息资源检索
4. 垂直搜索 垂直搜索是一种专业化的搜索引擎,它是在普通网页搜索引 擎的基础上进一步将网页分类细化。垂直搜索引擎是针对通用 搜索引擎的信息量大、查询不准确、深度不够等提出来的新的 搜索引擎服务模式。其特点就是“专、精、深”,且具有行业 特色,即与通用搜索引擎的海量信息无序化相比,垂直搜索引 擎则更加专业、具体和深入。 4.2.5 搜索引擎类型 搜索引擎按不同的分类原则可以有多种分类方式。如按信息 标引的方式,搜索引擎可以分为目录式搜索引擎、机器人搜索 引擎和混合式搜索引擎;按信息查询的方式,搜索引擎可分为 浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索 引擎;按语种,搜索引擎又可以分为单语种搜索引擎、多语种
第4章 网络信息资源检索
搜索图书全文,查找感兴趣的图书联盟图书搜索 (/search)。
第4章 网络信息资源检索
3) FTP信息资源 信息资源文件传输协议(File Transfer Protocol,FTP)的 主要功能是利用网络在本地与远程计算机之间建立连接,从而 使不同操作系统的计算机之间实现文件传送。FTP一般在组织或 机构内部比较常见,使用的网络信息资源可为任何类型,不过 目前以应用程序软件和多媒体信息资源为主。目前,FTP仍是发 布、共享、传递软件和长文件的主要方法。 4) 新闻组信息资源 新闻组(Usenet Newsgroup)是一种利用网络环境提供专题讨 论服务的应用软件,是Internet服务体系的一部分。在此体系 中,有众多的新闻组服务器,它们接收和存储有关主题的消息 供用户查阅。 5) 电子邮件信息资源
第4章 网络信息资源检索
检索结果提供是在进行必要的相关分析后以超链形式给出检 索结果,即由页面生成系统将搜索结果的链接地址和页面内容、 摘要等内容组织起来提供给用户。
事实上,搜索引擎并不真正搜索互联网,它搜索的实际上是 预先整理好的网页索引数据库。真正意义上的搜索引擎,通常 指的是收集了因特网上几千万到几十亿个网页并对网页中的每 一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。 当用户查找某个关键词的时候,所有在页面内容中包含了该关 键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进 行排序后,将这些结果按照与搜索关键词相关度的高低,依次 排列并呈现。
第4章 网络信息资源检索
据库的容量非常庞大,收录、加工信息的范围广、速度快,能 向用户及时提供最新信息。但由于标引过程缺乏人工干预,加 之检索代理软件的智能化程度不是很高,导致其检索准确性不 是很高。索引型搜索引擎比较适合于检索特定主题的信息以及 较为专深、具体或类属不明确的课题。
3. 元搜索引擎 元搜索引擎(Meta Search Engine,MSE)是一种将多个独立 的搜索引擎集成到一起,提供统一的用户查询界面,将用户的 检索提问同时提交给多个独立搜索引擎,检索其共享的独立搜 索引擎的资源库,再经过聚合、去重和排序等处理,将最终检 索结果一并提供给用户的网络检索工具。 4) 网站 网站(WebSite)一般综合采用文件、超文本/超媒体和数据库
第4章 网络信息资源检索
2. 按照网络信息资源的组织方式划分 信息组织是将无序状态的特定信息,根据一定的原则和方法, 使其成为有序状态的过程。其目的在于将无序信息变为有序信 息,方便人们有效利用和传递信息。面目前使用较为普遍的方 式主要有以下四种。 1) 文件方式 文件(File)是一种较为古老的信息组织方式,适用于网络信 息资源。文件方式简单方便,适合存储文本、程序、图形、图 像、图表、音频、视频等非结构化信息。因此,文件本身只能 作为信息单位成为其他信息组织方式的管理对象。 2) 超文本/超媒体方式 超文本/超媒体方式是一种新型的信息管理组织方式,不仅 注重所要管理的信息本身,而且更加注重信息之间关系的建立
第4章 网络信息资源检索
4) 网站 网站(WebSite)一般综合采用文件、超文本/超媒体和数据库 等方式将内容相关的信息组织到主页和从属页面中。它们既是 信息资源开发的要素,又是网络中的实体。 3.按照网络信息资源的内容划分 1) 网络数据库 网络数据库是借助Internet,以Web为检索平台提供信息检 索服务的数据库,它是数据库技术和Web技术相结合的产物。 2) 网络出版物 网络出版物是以数字代码形式将文字、图像、声音、视频等 信息存储在磁、光、电介质上,通过Internet高速传播,并通 过计算机或者类似设备阅读使用的出版物。 3) 社会信息
第4章 网络信息资源检索
4.2.4 发展中的搜索引擎 作为Internet必不可少的核心技术之一,搜索引擎技术是人 们利用海量网络资源的重要工具。目前的搜索引擎,对于不同 的用户,如果基于相同的关键词进行搜索,得到的结果基本相 同。事实上,已经有人指出,整合搜索、社区搜索和移动搜索 等正在成为今后发展的趋势。 1. 整合搜索 用户通过网络搜索获得海量信息是基于信息抓取技术,属于 刚性搜索。整合搜索不是简单地把搜索结果罗列在一起,而是 经过页面搜索、垂直搜索之后,在更高层次上为用户提供最佳 搜索结果,即通过将其他搜索产品的结果整合到网页搜索中, 使结果信息内容更加丰富、形式更为多媒体化。整合搜索的前 提是基于对关键字的智能分析判断。
第4章 网络信息资源检索
3. 元搜索引擎 1) MetaCrawler() 2) Dogpile() 3) 万维搜索引擎() 4. 垂直搜索引擎(专业性搜索引擎) 1) 图像搜索引擎 万维网上的图像信息有多种形式,如图像、图形、位图和动 画等。对于ista等综合性搜索引擎的图片检索功能, 也可以访问一些搜集各种图像资料的专业资料库和俱乐部网站。 2) 地图搜索引擎 地图搜索引擎是面向公众提供电子地图服务的网站,是检索 全国乃至世界地图信息的重要工具。
第4章 网络信息资源检索
(4) MP3搜索。 (5) 新闻搜索。 (6) 字词之间用一个空格隔开,相当 于逻辑“与”),可以”运算符。 ② 减除无关资料(逻辑“非”)。有时候,搜索结果中某一 方面的不相关内容特别多,这时可以利用“减除无关关网页,但减号之前必须留一空格。
第4章 网络信息资源检索
4.1.3 网络信息检索的一般方法 网络信息资源存储在连接到网络的主机和服务器中,如果知 道资源的地址,就可通过浏览器或其他方式利用这些信息。 1. 网上浏览 网上浏览需要从一个相关网站或网页出发,通过超文本文档 中的链接找到一批新的相关网站或网页,在浏览这些网页后, 再从这些网站或网页提供的链接找到下一批相关网站,如此循 环下去,像滚雪球一样不断扩大搜索范围。 2. 网络资源指南 网络资源指南是专业人员对网络信息资源进行采集、评价、 组织、过滤和控制,从而开发出的可供用户浏览和检索的多级 主题分类体系。网络资源指南的局限性在于管理和维护跟不上 网络信息的增长和更新,收录范围不够全面,各网站的分类体
第4章 网络信息资源检索 第4章 网络信息资源检索
4.1 网络信息资源概 述 4.2 搜索引擎 4.3 开放存取ห้องสมุดไป่ตู้
第4章 网络信息资源检索 4.1 网络信息资源概述
第4章 网络信息资源检索
4.1.1 网络信息资源的定义和特点 1. 网络信息资源的定义 网络信息资源是指通过计算机网络可以利用的各种信息资源 的总和,即以数字化形式记录的,以多媒体形式表达的,分布 式存储在网络计算机的存储介质以及各类通信介质上,并通过 计算机网络通信方式进行传递的信息内容的集合。网络信息资 源将原本相互独立、分布于世界各地的数据库、信息中心、文 献中心等联结在一起,形成一个内容与结构全新的信息整体。 2. Internet Internet是世界上规模最大、覆盖面最广、信息资源最为丰 富的计算机信息资源网络。它将遍布全球的各个国家和地区的 计算机系统连接而成了一个计算机互联网络。从技术角度看, Internet是一个以TCP/IP作为通信协议连接各国、各地区、各
第4章 网络信息资源检索
⑥ 专业文档搜索。 ⑦ 在指定网站内搜索。 ⑧ 在标题中搜索。 ⑨ 在url中搜索。利用“inurl:”命令,可以限制只搜索 url中含搜索。 2) AltaVista AltaVista最早由DEC公司于1995年12月推出,目前隶属于 Overture公司。AltaVista曾经被认为是功能最完善、搜索精度 较高的全文搜索引擎之一,大量的创新功能使它迅速到达了当 时搜索引擎的顶峰。AltaVista是第一个支持自然语言的搜索引 擎,具备了基于网页内容分析的智能处理能力。
第4章 网络信息资源检索
除了提供分类目录浏览外,Galaxy还提供关键词的简单检索。 在Galaxy主页中的文本输入框中输入检索的关键词,单击Go按 钮,可以选择“目录搜索”、“网站搜索”和“链接搜索”等 实施检99年底由李彦宏、徐勇 创建于美国硅谷,2务,之后迅速占领中 国搜索引擎市场,成为最独立提 供搜索服务,并且在中国首创了竞价月5日,在第4章 网络信息资源检索
2) 信息类型多样、内容丰富 3) 信息时效性强、动态、不稳定 4) 信息分散无序、但关联程度高 5) 信息价值差异大、难于管理 4.1.2 网络信息资源的类型 1.按网络传输协议划分 1) WWW信息资源 WWW信息资源是建立在超文本、超媒体技术以及超文本传输 协议(Hyper Text Transfer Protocol,HTTP)基础上的集文本、 图形、图像、声音于一体,以直观的图形界面来展现和提供信 息的网络资源形式。WWW其实是Internet中一个特殊的网络区域, 这个区域是由网上所有超文本格式的文档(网页)集合而成的。 超文本文档里既有数据又有包含指向其他文档的“链”(link),
第4章 网络信息资源检索 4.2 搜 索 引 擎
第4章 网络信息资源检索
4.2.1 搜索引擎概念 搜索引擎是根据一定的策略,运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,为用户提供检索 服务的系统。当用户输入关键词查询时,搜索引擎会告诉用户 包含该关键词信息的所有网址,并提供通向该网络的链接。搜 索引擎既是用于检索的软件,又是提供查询、检索的网站。所 以,搜索引擎也可称为Internet上具有检索功能的网页。 4.2.2 搜索引擎基本工作原理 看似简单的搜索引擎背后涉及包括数据结构、索引、算法、 知识表示、自然语言处理、信息检索、人工智能、计算机网络、 分布式处理、数据库、数据挖掘等多个方面的内容。通常,搜 索引擎主要包括信息采集、信息加工、信息检索与检索结果提 供这几个部分。
第4章 网络信息资源检索
4. 垂直搜索 垂直搜索是一种专业化的搜索引擎,它是在普通网页搜索引 擎的基础上进一步将网页分类细化。垂直搜索引擎是针对通用 搜索引擎的信息量大、查询不准确、深度不够等提出来的新的 搜索引擎服务模式。其特点就是“专、精、深”,且具有行业 特色,即与通用搜索引擎的海量信息无序化相比,垂直搜索引 擎则更加专业、具体和深入。 4.2.5 搜索引擎类型 搜索引擎按不同的分类原则可以有多种分类方式。如按信息 标引的方式,搜索引擎可以分为目录式搜索引擎、机器人搜索 引擎和混合式搜索引擎;按信息查询的方式,搜索引擎可分为 浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索 引擎;按语种,搜索引擎又可以分为单语种搜索引擎、多语种
第4章 网络信息资源检索
搜索图书全文,查找感兴趣的图书联盟图书搜索 (/search)。
第4章 网络信息资源检索
3) FTP信息资源 信息资源文件传输协议(File Transfer Protocol,FTP)的 主要功能是利用网络在本地与远程计算机之间建立连接,从而 使不同操作系统的计算机之间实现文件传送。FTP一般在组织或 机构内部比较常见,使用的网络信息资源可为任何类型,不过 目前以应用程序软件和多媒体信息资源为主。目前,FTP仍是发 布、共享、传递软件和长文件的主要方法。 4) 新闻组信息资源 新闻组(Usenet Newsgroup)是一种利用网络环境提供专题讨 论服务的应用软件,是Internet服务体系的一部分。在此体系 中,有众多的新闻组服务器,它们接收和存储有关主题的消息 供用户查阅。 5) 电子邮件信息资源
第4章 网络信息资源检索
检索结果提供是在进行必要的相关分析后以超链形式给出检 索结果,即由页面生成系统将搜索结果的链接地址和页面内容、 摘要等内容组织起来提供给用户。
事实上,搜索引擎并不真正搜索互联网,它搜索的实际上是 预先整理好的网页索引数据库。真正意义上的搜索引擎,通常 指的是收集了因特网上几千万到几十亿个网页并对网页中的每 一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。 当用户查找某个关键词的时候,所有在页面内容中包含了该关 键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进 行排序后,将这些结果按照与搜索关键词相关度的高低,依次 排列并呈现。
第4章 网络信息资源检索
据库的容量非常庞大,收录、加工信息的范围广、速度快,能 向用户及时提供最新信息。但由于标引过程缺乏人工干预,加 之检索代理软件的智能化程度不是很高,导致其检索准确性不 是很高。索引型搜索引擎比较适合于检索特定主题的信息以及 较为专深、具体或类属不明确的课题。
3. 元搜索引擎 元搜索引擎(Meta Search Engine,MSE)是一种将多个独立 的搜索引擎集成到一起,提供统一的用户查询界面,将用户的 检索提问同时提交给多个独立搜索引擎,检索其共享的独立搜 索引擎的资源库,再经过聚合、去重和排序等处理,将最终检 索结果一并提供给用户的网络检索工具。 4) 网站 网站(WebSite)一般综合采用文件、超文本/超媒体和数据库
第4章 网络信息资源检索
2. 按照网络信息资源的组织方式划分 信息组织是将无序状态的特定信息,根据一定的原则和方法, 使其成为有序状态的过程。其目的在于将无序信息变为有序信 息,方便人们有效利用和传递信息。面目前使用较为普遍的方 式主要有以下四种。 1) 文件方式 文件(File)是一种较为古老的信息组织方式,适用于网络信 息资源。文件方式简单方便,适合存储文本、程序、图形、图 像、图表、音频、视频等非结构化信息。因此,文件本身只能 作为信息单位成为其他信息组织方式的管理对象。 2) 超文本/超媒体方式 超文本/超媒体方式是一种新型的信息管理组织方式,不仅 注重所要管理的信息本身,而且更加注重信息之间关系的建立
第4章 网络信息资源检索
4) 网站 网站(WebSite)一般综合采用文件、超文本/超媒体和数据库 等方式将内容相关的信息组织到主页和从属页面中。它们既是 信息资源开发的要素,又是网络中的实体。 3.按照网络信息资源的内容划分 1) 网络数据库 网络数据库是借助Internet,以Web为检索平台提供信息检 索服务的数据库,它是数据库技术和Web技术相结合的产物。 2) 网络出版物 网络出版物是以数字代码形式将文字、图像、声音、视频等 信息存储在磁、光、电介质上,通过Internet高速传播,并通 过计算机或者类似设备阅读使用的出版物。 3) 社会信息