精品课件-信息检索与利用-第4章 网络信息资源检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章 网络信息资源检索
4.1.3 网络信息检索的一般方法 网络信息资源存储在连接到网络的主机和服务器中,如果知 道资源的地址,就可通过浏览器或其他方式利用这些信息。 1. 网上浏览 网上浏览需要从一个相关网站或网页出发,通过超文本文档 中的链接找到一批新的相关网站或网页,在浏览这些网页后, 再从这些网站或网页提供的链接找到下一批相关网站,如此循 环下去,像滚雪球一样不断扩大搜索范围。 2. 网络资源指南 网络资源指南是专业人员对网络信息资源进行采集、评价、 组织、过滤和控制,从而开发出的可供用户浏览和检索的多级 主题分类体系。网络资源指南的局限性在于管理和维护跟不上 网络信息的增长和更新,收录范围不够全面,各网站的分类体
第4章 网络信息资源检索
(4) MP3搜索。 (5) 新闻搜索。 (6) 地图搜索。 (7) 常用搜索。 (8) 百度的搜索技巧。 ① 输入多个词语搜索(不同字词之间用一个空格隔开,相当 于逻辑“与”),可以缩小检索范围,获得更精准的搜索结果。 在百度查询时不需要使用逻辑符号“AND”或“+”,百度会在 空格隔开的词语之间自动添加逻辑“与”运算符。 ② 减除无关资料(逻辑“非”)。有时候,搜索结果中某一 方面的不相关内容特别多,这时可以利用“减除无关资料”功 能,缩小查询范围,提高命中率。百度支持“-”功能,用于有 目的地删除某些无关网页,但减号之前必须留一空格。
第4章 网络信息资源检索
据库的容量非常庞大,收录、加工信息的范围广、速度快,能 向用户及时提供最新信息。但由于标引过程缺乏人工干预,加 之检索代理软件的智能化程度不是很高,导致其检索准确性不 是很高。索引型搜索引擎比较适合于检索特定主题的信息以及 较为专深、具体或类属不明确的课题。
3. 元搜索引擎 元搜索引擎(Meta Search Engine,MSE)是一种将多个独立 的搜索引擎集成到一起,提供统一的用户查询界面,将用户的 检索提问同时提交给多个独立搜索引擎,检索其共享的独立搜 索引擎的资源库,再经过聚合、去重和排序等处理,将最终检 索结果一并提供给用户的网络检索工具。 4) 网站 网站(WebSite)一般综合采用文件、超文本/超媒体和数据库
第4章 网络信息资源检索
4) 网站 网站(WebSite)一般综合采用文件、超文本/超媒体和数据库 等方式将内容相关的信息组织到主页和从属页面中。它们既是 信息资源开发的要素,又是网络中的实体。 3.按照网络信息资源的内容划分 1) 网络数据库 网络数据库是借助Internet,以Web为检索平台提供信息检 索服务的数据库,它是数据库技术和Web技术相结合的产物。 2) 网络出版物 网络出版物是以数字代码形式将文字、图像、声音、视频等 信息存储在磁、光、电介质上,通过Internet高速传播,并通 过计算机或者类似设备阅读使用的出版物。 3) 社会信息
第4章 网络信息资源检索
检索结果提供是在进行必要的相关分析后以超链形式给出检 索结果,即由页面生成系统将搜索结果的链接地址和页面内容、 摘要等内容组织起来提供给用户。
事实上,搜索引擎并不真正搜索互联网,它搜索的实际上是 预先整理好的网页索引数据库。真正意义上的搜索引擎,通常 指的是收集了因特网上几千万到几十亿个网页并对网页中的每 一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。 当用户查找某个关键词的时候,所有在页面内容中包含了该关 键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进 行排序后,将这些结果按照与搜索关键词相关度的高低,依次 排列并呈现。
第4章 网络信息资源检索
3) FTP信息资源 信息资源文件传输协议(File Transfer Protocol,FTP)的 主要功能是利用网络在本地与远程计算机之间建立连接,从而 使不同操作系统的计算机之间实现文件传送。FTP一般在组织或 机构内部比较常见,使用的网络信息资源可为任何类型,不过 目前以应用程序软件和多媒体信息资源为主。目前,FTP仍是发 布、共享、传递软件和长文件的主要方法。 4) 新闻组信息资源 新闻组(Usenet Newsgroup)是一种利用网络环境提供专题讨 论服务的应用软件,是Internet服务体系的一部分。在此体系 中,有众多的新闻组服务器,它们接收和存储有关主题的消息 供用户查阅。 5) 电子邮件信息资源
第4章 网络信息资源检索
2. 按照网络信息资源的组织方式划分 信息组织是将无序状态的特定信息,根据一定的原则和方法, 使其成为有序状态的过程。其目的在于将无序信息变为有序信 息,方便人们有效利用和传递信息。面目前使用较为普遍的方 式主要有以下四种。 1) 文件方式 文件(File)是一种较为古老的信息组织方式,适用于网络信 息资源。文件方式简单方便,适合存储文本、程序、图形、图 像、图表、音频、视频等非结构化信息。因此,文件本身只能 作为信息单位成为其他信息组织方式的管理对象。 2) 超文本/超媒体方式 超文本/超媒体方式是一种新型的信息管理组织方式,不仅 注重所要管理的信息本身,而且更加注重信息之间关系的建立
第4章 网络信息资源检索
3. 元搜索引擎 1) MetaCrawler(http://www.metacrawler.com) 2) Dogpile(http://www.dogpile.com) 3) 万维搜索引擎(http://www.widewaysearch.com) 4. 垂直搜索引擎(专业性搜索引擎) 1) 图像搜索引擎 万维网上的图像信息有多种形式,如图像、图形、位图和动 画等。对于这些信息的查找,既可以利用Yahoo!、百度、 Google、Lycos和AltaVista等综合性搜索引擎的图片检索功能, 也可以访问一些搜集各种图像资料的专业资料库和俱乐部网站。 2) 地图搜索引擎 地图搜索引擎是面向公众提供电子地图服务的网站,是检索 全国乃至世界地图信息的重要工具。
第4章 网络信息资源检索
搜索图书全文,查找感兴趣的图书,可以利用Google 图书 搜索(http://books.google.cn)、百度图书搜索 (http://book.baidu.com)、读秀图书搜索 (http://www.duxiu.com)和中搜联盟图书搜索 (http://book.httpcn.com/search)。
第4章 网络信息资源检索 第4章 网络信息资源检索
4.1 网络信息资源概 述 4.2 搜索引擎 4.3 开放存取
第4章 网络信息资源检索 4.1 网络信息资源概述
第4章 网络信息资源检索
4.1.1 网络信息资源的定义和特点 1. 网络信息资源的定义 网络信息资源是指通过计算机网络可以利用的各种信息资源 的总和,即以数字化形式记录的,以多媒体形式表达的,分布 式存储在网络计算机的存储介质以及各类通信介质上,并通过 计算机网络通信方式进行传递的信息内容的集合。网络信息资 源将原本相互独立、分布于世界各地的数据库、信息中心、文 献中心等联结在一起,形成一个内容与结构全新的信息整体。 2. Internet Internet是世界上规模最大、覆盖面最广、信息资源最为丰 富的计算机信息资源网络。它将遍布全球的各个国家和地区的 计算机系统连接而成了一个计算机互联网络。从技术角度看, Internet是一个以TCP/IP作为通信协议连接各国、各地区、各
第4章 网络信息资源检索
4. 垂直搜索 垂直搜索是一种专业化的搜索引擎,它是在普通网页搜索引 擎的基础上进一步将网页分类细化。垂直搜索引擎是针对通用 搜索引擎的信息量大、查询不准确、深度不够等提出来的新的 搜索引擎服务模式。其特点就是“专、精、深”,且具有行业 特色,即与通用搜索引擎的海量信息无序化相比,垂直搜索引 擎则更加专业、具体和深入。 4.2.5 搜索引擎类型 搜索引擎按不同的分类原则可以有多种分类方式。如按信息 标引的方式,搜索引擎可以分为目录式搜索引擎、机器人搜索 引擎和混合式搜索引擎;按信息查询的方式,搜索引擎可分为 浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索 引擎;按语种,搜索引擎又可以分为单语种搜索引擎、多语种
4.2.3 搜索引擎的发展历史 纵观搜索引擎的发展历史,一般来说,可根据其在不同时期
第4章 网络信息资源检索
4.2.4 发展中的搜索引擎 作为Internet必不可少的核心技术之一,搜索引擎技术是人 们利用海量网络资源的重要工具。目前的搜索引擎,对于不同 的用户,如果基于相同的关键词进行搜索,得到的结果基本相 同。事实上,已经有人指出,整合搜索、社区搜索和移动搜索 等正在成为今后发展的趋势。 1. 整合搜索 用户通过网络搜索获得海量信息是基于信息抓取技术,属于 刚性搜索。整合搜索不是简单地把搜索结果罗列在一起,而是 经过页面搜索、垂直搜索之后,在更高层次上为用户提供最佳 搜索结果,即通过将其他搜索产品的结果整合到网页搜索中, 使结果信息内容更加丰富、形式更为多媒体化。整合搜索的前 提是基于对关键字的智能分析判断。
Leabharlann Baidu4章 网络信息资源检索
⑥ 专业文档搜索。 ⑦ 在指定网站内搜索。 ⑧ 在标题中搜索。 ⑨ 在url中搜索。利用“inurl:”命令,可以限制只搜索 url中含有这些文字的网页。 ⑩ 高级搜索。如果对百度各种查询语法不熟悉,可以使用 百度的高级搜索。 2) AltaVista AltaVista最早由DEC公司于1995年12月推出,目前隶属于 Overture公司。AltaVista曾经被认为是功能最完善、搜索精度 较高的全文搜索引擎之一,大量的创新功能使它迅速到达了当 时搜索引擎的顶峰。AltaVista是第一个支持自然语言的搜索引 擎,具备了基于网页内容分析的智能处理能力。
第4章 网络信息资源检索
除了提供分类目录浏览外,Galaxy还提供关键词的简单检索。 在Galaxy主页中的文本输入框中输入检索的关键词,单击Go按 钮,可以选择“目录搜索”、“网站搜索”和“链接搜索”等 实施检索。
2. 索引型搜索引擎 1) 百度(http://www.baidu.com) 百度是全球最大的中文搜索引擎,1999年底由李彦宏、徐勇 创建于美国硅谷,2000年开始在中国发展。2000年5月,百度首 次为门户网站—硅谷动力提供搜索技术服务,之后迅速占领中 国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月, 百度发布了Baidu.com搜索引擎Beta版,从后台服务转向独立提 供搜索服务,并且在中国首创了竞价排名商业模式。2001年10 月22日,百度正式发布Baidu搜索引擎。2005年8月5日,百度在
第4章 网络信息资源检索
2) 信息类型多样、内容丰富 3) 信息时效性强、动态、不稳定 4) 信息分散无序、但关联程度高 5) 信息价值差异大、难于管理 4.1.2 网络信息资源的类型 1.按网络传输协议划分 1) WWW信息资源 WWW信息资源是建立在超文本、超媒体技术以及超文本传输 协议(Hyper Text Transfer Protocol,HTTP)基础上的集文本、 图形、图像、声音于一体,以直观的图形界面来展现和提供信 息的网络资源形式。WWW其实是Internet中一个特殊的网络区域, 这个区域是由网上所有超文本格式的文档(网页)集合而成的。 超文本文档里既有数据又有包含指向其他文档的“链”(link),
第4章 网络信息资源检索 4.2 搜 索 引 擎
第4章 网络信息资源检索
4.2.1 搜索引擎概念 搜索引擎是根据一定的策略,运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,为用户提供检索 服务的系统。当用户输入关键词查询时,搜索引擎会告诉用户 包含该关键词信息的所有网址,并提供通向该网络的链接。搜 索引擎既是用于检索的软件,又是提供查询、检索的网站。所 以,搜索引擎也可称为Internet上具有检索功能的网页。 4.2.2 搜索引擎基本工作原理 看似简单的搜索引擎背后涉及包括数据结构、索引、算法、 知识表示、自然语言处理、信息检索、人工智能、计算机网络、 分布式处理、数据库、数据挖掘等多个方面的内容。通常,搜 索引擎主要包括信息采集、信息加工、信息检索与检索结果提 供这几个部分。