第五章 因特网信息检索 1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、网络信息检索
(五)、网络信息检索工具的类型 )、网络信息检索工具的类型 1、WWW信息资源检索工具 (1)网络资源指南 (2)搜索引擎 (3)信息门户 (4)搜索软件
二、网络信息检索
(五)、网络信息检索工具的类型 )、网络信息检索工具的类型 2、非WWW信息资源的检索工具 (1)FTP信息资源的检索工具 (2)Telnet信息资源的检索工具 (3)用户服务组信息资源的检索工具
(1)WWW信息资源
也称Web信息资源,采用超文本传输协议 (HyperText Transfer Protocol,HTTP)在WWW客户端和 服务器端之间传输,建立在超文本、超媒体等技术的基础 上,集文本、图像、图形、声音等为一体,以网页的形式 存在Internet上。
(2)Telnet信息资源
三、网络信息检索策略和技巧
(一)、网络信息检索策略 )、网络信息检索策略
1、分析检索课题 、 (1)明确检索目的 (2)明确课题的检索范围 (3)确定检索项 2、选择检索工具 、 (1)明确不同类型网络信息检索工具的适用范围 (2)了解主要检索工具的特点和功能 (3)重视检索工具的分类浏览功能在学术信息检索中的应用 (4)注意多种网络检索工具的组合使用 3、实施检索 、 (1)了解检索工具的检索规则 (2)确定检索词(3)构造检索式(4)选择和处理检索结果
(3)数据库方式 (4)网站
集网络信息提供、网络信息组织、网络信息服务于一体,一 般综合了文件方式、超文本/超媒体方式和数据库方式来组织信 息和提供信息的检索。
一、网络信息资源概述
3、按网络信息资源的内容划分 、
联机、光盘数据库) (1)网络数据库(联机、光盘数据库) ) 电子图书、电子期刊等) (2)网络出版物(电子图书、电子期刊等) ) 政策、新闻、娱乐信息等) (3)社会信息(政策、新闻、娱乐信息等) ) 各种应用程序) (4)软件资源(各种应用程序) ) 论坛、电子公告、 (5)其他类型的信息(论坛、电子公告、网 ) 络日志) 络日志)
四、网络信息检索的发展趋势
1、网络信息检索的智能化 、
因特网的飞速发展,对检索工具的智能化程度提出了更 高的要求。智能化程度高的检索工具在竞争中将明显地处 于有利的地位。目前,除了新兴的自动标引、自动文献、 自动跟踪、自动漫游等智能化检索技术正在逐步走向完善 外,网络专家们又推出了智能浏览器、学习智能体、知识 共享智能体等最新的网络信息高度智能化检索技术
常用术语(三) 常用术语(
网络地址与域名(IP地址和DN) IP地址:互联网上连接了无数的计算机(主机),用 户如何找到一个特定的主机呢?人们根据IP协议给每一 个主机分配一个编码,这个编码称为IP地址。它可用四 组由圆点分割的数字表示。如,我校图书馆网站的IP地 址:http://210.44.146.11 域名(Domain name): IP地址难于记忆,也可以用 域名来表示主机。 DNS:域名服务器(Domain Name Server)。
二、网络信息检索
(四)、网络信息检索技术 )、网络信息检索技术 1、全文检索技术
全文检索(Full Text Retrieval)技术,就 是以信息资料的内容,如文字、声音、图像 等为主要处理对象,而不是其外在特征来实 现信息检索的技术,出现于20世纪50年代末。
二、网络信息检索
(四)、网络信息检索技术 )、网络信息检索技术 2、多媒体信息检索技术 (1)基于内容的图像检索技术 (2)基于内容的视频检索技术 (3)基于内容的音频检索技术
一、网络信息资源概述
(一)、网络信息资源 网络信息资源的定义 网络信息资源 通过计算机网络可以利用的各种信息资 源的总和。即以数字化形式记录的,以多 媒体形式表达的,分布式存储在网络计算 机的磁介质、光介质以及各类通信介质上, 并通过计算机通信方式进行传递的信息内 容的集合。(载体、表达形式、组织结构、 传播手段)
二、网络信息检索
(一)、网络信息检索的定义 )、网络信息检索的定义 狭义:是指网络信息的查找,即以Internet为 检索平台和媒介,利用相应的网络检索工具或 检索系统,运用一定的网络检索技术与策略, 从有序的网络信息集合中查出所需信息的过程。 广义:包括网络信息整序和网络信息查找。 网络信息整序是将与Internet相连的信息 按一定的规则进行搜集、分析和标引,并以数 据库方式、主题树方式或者其他方式组织、排 序和存储。
是指在远程登录协议Telnet(Telecommunication Network Protocol)的支持下,用户计算机经由Internet与远程计算 机连接,并在权限允许的范围内检索和使用远程计算机的 各种硬件、软件资源。Telnet方式是实现与远程计算机连 接的最快方式。(Dialog、OCLC、OPAC)
(1)Web内容挖掘(从文档内容或其描述中抽取知识) 从文档内容或其描述中抽取知识) (2) Web结构挖掘(从组织结构和连接关系中推导知识) 从组织结构和连接关系中推导知识) (3) Web使用记录挖掘(从Web访问记录中挖掘) 访问记录中挖掘) 访问记录中挖掘
二、网络信息检索
(四)、网络信息检索技术 )、网络信息检索技术 5、自动标引和分类技术
二、网络信息检索
(二)、网络信息检索的特点 )、网络信息检索的特点
1、检索范围涵盖整个Internet 2、传统检索方法与全新网络检索技术相结合 3、用户界面友好且操作方便 4、用户透明度高 5、信息检索效率不高
二、网络信息检索
(三)、网络信息检索的一般方法 )、网络信息检索的一般方法
1、浏览方式 (1)随意浏览 (2)分类体系浏览 2、查询方式: 通过输入检索条件,从大量的信息集合 中检索信息的方式。
一、网络信息资源概述
(3)FTP信息资源 FTP信息资源是借助于文件传输协议(File Transfer Protocol,FTP),以文件方式在联网计 算机之间传输的信息资源。FTP协议的主要功能 是实现文件从一个系统到另一个系统的完整拷贝, 资源类型广泛。 (4)用户服务组信息资源
网上各种各样的用户服务组是Internet上最受欢迎的信息 交流形式,包括新闻组(Usenet Newsgroup)、电子邮件 组(Listserv)、邮件列表(Mailing List)、专题讨论组 (Discussion Group)等。用户服务组资源是一种最丰富、 自由、最具开放性的资源,其信息交流的广泛性、直接性 是其他任何类型的信息资源都无法比拟的。(论坛、邮件 交流)
一、网络信息资源概述
(二)、网络信息资源的特点 )、网络信息资源的特点
1、信息量大、传播广泛 2、信息类型多样、内容丰富 3、信息时效性强、变化频繁 4、信息分散无序、但关联程度高 5、信息缺乏管理、良莠不齐
一、网络信息资源概述
(三)、网络信息资源的类型 )、网络信息资源的类型
1、按采用的网络传输协议划分
一、网络信息资源概述
2、按信息资源组织形式划分
(1)文件方式 (2)超文本/超媒体方式
超文本/超媒体方式是一种新型的信息组织方式,不仅注重所 要管理的信息本身,而且更加注重信息之间关系的建立与表示, 是将网络信息按照相互关系非线性存储在节点(Node)上,节 点间以链路(Link)相连,形成一个可任意连接的、有层次的、 复杂的网状结构。超文本是以线性和静态的文本信息的文本为 处理对象,超媒体是超文本与多媒体技术的结合,将文字、图 表、声音、图像、视频等多媒体信息以超文本方式组织。
因特网信息检索
图书馆:刘锋
本课内容 一、网络信息资源概述 二、网络信息检索 三、网络信息检索策略与技巧 四、网络信息检索的发展趋势
常用术语(一) 常用术语(
超文本(Hypertext)是用超链结的方法,将各种不同空间的 超文本 文字信息组织在一起的网状文本,这种文本与文本之间 的链接关系就称为超链接。 超文本的格式有很多,目前最常使用的是超文本标记 语言(Hyper Text Markup Language,HTML)及富文本格式 (Rich Text Format,RTF)。 超媒体(Hyper Media),是超文本利用引用链接其他不同 超媒体(Hyper Media) 类型(内含声音、图片、动画)的文件,这些具有多媒 体操作的超文本和多媒体在信息浏览环境下的结合,它 是超级媒体的简称。意指多媒体超文本(Multimedia Hypertext),即以多媒体的方式呈现相关文件信息。 浏览器(Browser)是Web页浏览的客户应用程序,是一 浏览器 种在窗口环境下浏览互联网资源并获得信息的多媒体工 具。有了浏览器,用户才能够在因特网的大海中航行。
三、网络信息检索策略和技巧
(二)、网络信息检索技巧 )、网络信息检索技巧
1、提高检索效率的措施 、 (1)提高查全率 少用逻辑“与”、多用逻辑“或”、降低检索词的专指 度等 (2)提高查准率 2、提高检索速度的措施 、 (1)建立收藏夹分类体系 (2)采用缓存措施 (3)设置启动页面 (4)减少信息媒体的装载
Baidu Nhomakorabea
二、网络信息检索
(四)、网络信息检索技术 )、网络信息检索技术 3、智能检索技术
采用人工智能计算机技术进行信息检索的技术
(1)机器学习技术 (2)知识发现技术 (3)自然语言理解技术 (4)智能代理技术
二、网络信息检索
(四)、网络信息检索技术 )、网络信息检索技术 4、数据挖掘技术
数据挖掘( 数据挖掘(Data Mining)技术也称为数据库中的知 ) 识发现技术, 识发现技术,是指从大型数据库或数据仓库中提取人们 感兴趣的知识,这些知识是隐含的、 感兴趣的知识,这些知识是隐含的、事先未知的潜在有 用信息,提取知识一般可表示为概念、规则、规律、 用信息,提取知识一般可表示为概念、规则、规律、模 式等形式。 式等形式。
常用术语(四) 常用术语(
URL:统一资源定位符 (Uniform Resource Locator) WWW是World Wide Web (环球信息网 环球信息网)的缩写,也 环球信息网 可以简称为Web,中文名字为“万维网”。 SMTP:简单邮件传输协议 (Simple Mail Transfer Protocol) SMTP 是一种提供可靠且有效电子邮件传输的协议。 SMTP 是建模在 FTP 文件传输服务上的一种邮件服务, 主要用于传输系统之间的邮件信息并提供来信有关的通 知。 NNTP:网络新闻传输协议(Network News Transfer :网络新闻传输协议( Protocol Overview) )
常用术语(二) 常用术语(
(TCP/IP协议) TCP(Transport Control Protocol)指传输控制协议, IP(Internet Protocol)指网际协议。互联网连接了世界 上不同国家与地区无数不同硬件、不同操作系统与不同 软件的计算机,数据在传输过程中很容易丢失或传错。 为了保证这些计算机之间能够畅通无阻地交换信息, INTERNET采用统一的通信协议——TCP/IP协议,它能 保证数据迅速可靠传输。 TCP/IP协议实际是一个协议集合。我们最常见的协议 有http(超文本传输协议):WWW客户机和服务器用 于在网上传输、响应用户请求的协议。
自动标引技术是指由计算机代替人工完成 自动标引技术 文本的内容分析,并赋予词语标识的技术, 可分为抽词标引和赋词标引两种。 抽词标引:主要指利用原文本信息中的自然 抽词标引 语言直接标引,不加任何处理。
赋词标引:是指使用已建词表中的主题词 (或叙词)替代文本信息中的关键词来表达 文本主题内容概念的标引过程。即使用受控 语词进行标引,这是一种受控语言标引。目 前网上采用的是词频加权统计法(标引词= 主题词+权值) 自动分类技术: 自动分类技术:利用计算机信息技术按照一 定的分类体系或标准进行自动分类标记, 定的分类体系或标准进行自动分类标记,它 主要用于实现信息特征的聚类和归类, 主要用于实现信息特征的聚类和归类,即将 具有相同或相近特征的信息对象集中在一起。 具有相同或相近特征的信息对象集中在一起。 而将不同特征者尽可能归于不同的类别中, 而将不同特征者尽可能归于不同的类别中, 从而实现快速检索。(外文本预处理、、 。(外文本预处理、、文 从而实现快速检索。(外文本预处理、、文 本表示和特征提取) 本表示和特征提取)
相关文档
最新文档