信息检索课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)收集信息建立索引数据库,并自动 跟踪信息源的变动,不断更新索引记录, 定期维护数据库。 (2)提供网络的导航与检索服务(最主 要的功能) (3)提供其它多种信息服务
2018/8/26
二、搜索引擎的类型
1、根据信息覆盖范围及适用用户群分 (1)综合搜索引擎
主要以Web网页和新闻组为搜索对象,信息 覆盖范围广,适用用户广泛。如:Yahoo!、 AltaVista、Infoseek等。
2018/8/26
浏览器的几种基本功能
检索查询 :利用超文本进行链接,通过
HTTP协议,在任意WWW服务器上畅游。 文件服务:上载下载文件。 热表管理:记住刚刚访问过的网页,可在 热表中切换。 主页建立:有网页制作功能。 提供其它Internet服务,如:FTP Gopher WAIS Telnet E-mail 等。
2018/8/26
一、搜索引擎的概念和功能
1、搜索引擎的概念
WWW上的信息数以亿计,人们需要一 种WWW信息发现系统,能自动地在网上漫 游,并搜集它所能得到的信息,自动生成 本地索引。
搜索引擎(Search Engine): 管理和检索网络信息资源的软件。
2018/8/26
2、搜索引擎的功能
2018/8/26
3、根据搜索范围分类
(1)独立搜索引擎
常规搜索引擎,建有自己的数据库, 搜索时通常只能在自己搜集的信息或者 数据库中查找用户所需信息。目前的WWW 搜索引擎基本上属于此类,如 Yahoo! 、 AltaVista、Lycos、Infoseek等。 缺点:查询范围有限,不能利用其它工 具搜集信息。
3、IP地址
(1)含义及作用
Internet为网络上的每个节点(主机、服务 器、客户机、路由器等)确定了一个网络位 置的唯一标识,即IP地址,以保证在分布于 世界各地的计算机间准确地传输信息。
2018/8/26
(2)IP地址的组成
IP地址是一个32位二进制数,按每8位换算为 十进制数字,分为4段号码,每段号码的值为 0~255,各段号码用小圆点“.”分隔。 如:211.64.132.86 每个IP地址由两个部分组成:
2018/8/26
2、关键词搜索
用户访问搜索引擎的Web站点,在输入 表格中输入感兴趣主题的关键词,站点检索 以前建立的索引,返回包含这些关键字的站 点列表。 信息的收集由搜索程序(如: robot 、 spider 、
harvest 、 pursuit 等)自动完成。搜索程序定期在 Internet 上 漫 游 , 自 动 而 系 统 地 访 问 尽 可 能 多 的 Web页面,对它们进行分析,建立起能够查找到相 关单字的页面的URL地址的索引,并通过网页间的 链接顺序搜索新的地址,当遇到新的网页时,就给 该页做上索引,把它加到搜索引擎的数据库中,使 得搜索引擎的数据库得以定期更新。
(2)专用搜索引擎
也称专题搜索引擎,针对特定用户群,可 供查找某一特定领域的信息。如: Softseek提 供软件查找,MapBlast查找地图信息
2018/8/26
2、根据组织信息方式分类
(1) 目录式搜索引擎 提供等级式主题目录,用户通过主题目录 的指引,逐层浏览信息,直到找到与自己需 求相关的。适合希望了解某一方面或范围内 信息但又没有明确搜索目的的用户使用。最 具代表性的目录式搜索引擎是Yahoo!。 优点: 由于网络目录中的网页是由专家人工 精选所得,因此有较高的查准率。 缺点:其查全率较低,搜索范围较窄。
7、超文本标记语言(HTML)
Hyper Text Markup Language,指WWW文 件所采用的简单标记语言,可用来制作网页。
8、主页(Home Page)
WWW服务器的入口html文件,常用于介绍 服务器和运行该服务器单位的基本情况。
2018/8/26
9、浏览器(Browser)
2018/8/26
(2)多元搜索引擎
也称元搜索引擎, 它本身并不搜集信 息和数据,而是利用其它搜索工具(包 括搜索引擎、数据库等)搜集信息,对 结果简单合并和去重后返回给用户 。如: 中文的万纬、搜星,英文的 Metasearch 、 Digisearch 、 Cyber411 、 Metacrawler 、 Savvysearch、Profusion、IQ99等。 优点:可以获得更多、更全面的网址 缺点:查询时间较长
2018/8/26
二、网络信息资源检索的一般方法
1、浏览
随意浏览,记录网上期刊、数据库以及 信息机构等有用信息的网站地址
2、通过网络资源指南查找
利用由专业人员开发出来的网络资源主 题指南
3、利用网络信息检索工具查找
使用不同类型的网络检索工具,来查询 不同类型的资源
2018/8/26
三、网络信息资源的检索技术
2018/8/26
三、搜索引擎的工作方式
1、分类目录搜索
网络目录(Web Directory)即网络分类 目录,提供Internet上其他站点的列表,通常 按主题目录和子目录方式组织,可从分类目 录顶层逐步向下浏览查询子目录。 网络目录采用传统的信息收集、分类、 存储、组织和检索的方法,主要由专业人员 对网站进行调查、筛选、分类、存储,手工 建立关键字索引,再将索引信息存入相应的 数据库中。网页内容丰富,学术性较强。
类别 A B C
2018/8/26
第一段号码 网络ID段数 最大主机数 1-126 1 16,378,064 128-191 2 65516 192-223 3 254
(4)IP 地址的Hale Waihona Puke Baidu配方式
拨号上网:上 网临时分配, 下网收回
Internet
Modem
Internet
电话线
pc
AT
pc
专线上网:有固定 专线 IP 地址,有的是代 局域网 理服务器分配,非 正式IP 地址
http:// ftp:// telnet:// Gopher:// Wais:// 2018/8/26
例:理解 http://www.ncna.edu/demowed/ url-primer.html的含义
6、超文本(Hypertext)
某些字、符号或短语起着Hotlink作用的文本 文件。当链接的内容同时含有文字、声音、 图象、动画等时,就称为超媒体Hypermedia。
2018/8/26
4、Internet域名地址
组成:
二级域名:教 用户机构 育、政府、商 名称缩写 业、网络机构
顶级域名:国 别、国际组织
主机名.机构名.网络名.最高层域名 用提供的 如 : www.ouc.edu.cn Internet
服务名来 标识,如 www、ftp 、bbs等
2018/8/26
2018/8/26
四、搜索引擎的检索方法
1、单词检索 2、词组检索:双引号,连符- 3、布尔逻辑检索:与、或、非 4、截词检索 5、限定检索:+、6、字母大小写 7、名词检索 8、检索结果显示 ①结果排序 ②显示格式
2018/8/26
五、搜索引擎的检索技巧
1、选择合适的搜索引擎 2、确定搜索途径 3、选用搜索选项 4、选用准确的关键词 5、制定恰当的检索式 6、使用多种方法,优化检索结果 7、阅读引擎的帮助信息
2018/8/26
第二节 网络信息资源
一、网络信息资源的概念与特点
1、概念
是指将文字、图像、声音、 动画等多种形式的信息数字化 后存放在光磁等非印刷介质的 载体中,并通过计算机网络通 讯等方式进行传递的信息内容 的集合。
2018/8/26
2、网络信息资源的特点
载体形式虚拟性 存储方式多样性 传播方式交互性 存在状态无序性、不稳定性 信息价值差异性
特殊型 通用型 专题型 (1)按检索内容 (2)按检索机制 范畴层次查询工具 词语查询工具 (3)按使用检索工具数量单独型 集合型 (4)按检索信息资源类型 Web型 非Web型
2018/8/26
2、超文本信息检索工具--WWW
主题分类检索
关键词检索
2018/8/26
WWW或Web是World Wide Web的简称,中 文称万维网,是Internet上一种高级的信息 检索浏览方式。
2018/8/26
(3)分类全文搜索引擎
通常是在分类的基础上再进一步进行全 文检索。很多搜索引擎同时提供分类和主题 两种方式的检索,以更好满足用户需求。
(4) 智能搜索引擎
具备符合用户实际需要的知识库,搜索 时根据已有的知识库来理解检索词的意义并 以此产生联想,从而找出相关网站或网页。 同时,具有一定的推理能力,能根据知识库 的知识,运用人工智能方法进行推理。
1、分类目录检索
网络分类目录一般是人工建立的,类似 于图书馆的目录,适合于主题较宽泛或要 求较为简单的查询。Yahoo即属典型的分 类目录检索工具。
2、关键词检索
指利用搜索索引查找Web页的方法。较 适合于主题较为专指、细小或狭窄的查询。
2018/8/26
四、网络信息资源的检索工具
1、网络信息检索工具的种类
2018/8/26
(2)全文搜索引擎(索引式)
提供对关键词或自然语言的查询,用户在检 索框中输入检索词或检索式,搜索引擎会返 回一组指向相关站点的超链接。能够对网站 的每个网页中的每个单字进行搜索的引擎。 典型代表是AltaVista。 优点:查全率高,搜索范围较广 缺点:查准率低,缺乏清晰的层次结构,查 询结果中重复链接较多。
第 二 章 网络信息检索
Internet 概述 网络信息资源 网络搜索引擎 常用搜索引擎
2018/8/26
管理资料
第一节 Internet概述
一、Internet的含义
通信线路 协议
是通过TCP/IP协议连接起来的计算 机及其网络的统称
2018/8/26
二、Internet相关的名词术语
1、网站(Web Site ) 指放置网页供用户登录浏览的计算机
用HTML编写的脚本程序或者网页,其源代 码都是纯文本,需要借助浏览器进行翻译, 才能显示成图文并茂的网页。 客户端浏览程序可向服务器发送各种请求, 并对从服务器发来的超文本信息和各种多 媒体数据格式进行解释、显示和播放。 WWW 浏览器有几百种之多,目前使用最 多的是美国Microsoft公司的IE ( Internet Explorer ),和美国Netscape 公司的 Navigator。
网络标识、主机标识
同一个物理网络上的所有主机用一个网络ID, 每一个主机各有一个唯一的主机ID与之对应
2018/8/26
(3)IP地址的类型
A类网络地址:四段号码的第一段号码为网络ID号, 其余三段号码为主机ID号。这类地址一般分给具有 大量主机的大型网络使用。 B类网络地址:头两段号码为网络ID号,后两段为 主机ID号。一般分给中等规模主机数的网络使用 C类网络地址:头三段为网络ID号,最后为当地号。 一般分给小型局域网使用。
技术 资源 浏览工具
超文本(Hypertext)、超媒体(Hypermedia) 文字、图像、声音、动画等多媒体信息 Web浏览器( Internet Explorer或Netscape)
URL 超链 接
2018/8/26
第三节 网络搜索引擎
一、搜索引擎的概念和功能 二、搜索引擎的类型 三、搜索引擎的工作方式 四、搜索引擎的检索方法 五、搜索引擎的检索技巧
一个域名地址对应一个IP地址, 一个IP地址可对应多个域名地址
5、统一资源定位器(URL)
指WWW页的地址,它对每个信息资源都规定一 个相应的独特地址,该地址不仅表明信息资 源所在的目录和文件名,还指其存放在哪个 节点的计算机上,以及可以访问的方式。 URL的一般句法形式为:
信息服务方式://信息资源地址/文件路径/文件名
2018/8/26
2、网络通信协议
网络中互相通信的对等实体间交换信息时 所遵守的规则的集合
OSI协议(Open system interconnection) TCP/IP协议
•TCP/IP协议
TCP IP
2018/8/26
将信息分组打包,即负责确认收到信息的正确 性,发现错误后进行重发。 将信息传送到指定地址,即负责信息传送时 的定位和寻址。
2018/8/26
二、搜索引擎的类型
1、根据信息覆盖范围及适用用户群分 (1)综合搜索引擎
主要以Web网页和新闻组为搜索对象,信息 覆盖范围广,适用用户广泛。如:Yahoo!、 AltaVista、Infoseek等。
2018/8/26
浏览器的几种基本功能
检索查询 :利用超文本进行链接,通过
HTTP协议,在任意WWW服务器上畅游。 文件服务:上载下载文件。 热表管理:记住刚刚访问过的网页,可在 热表中切换。 主页建立:有网页制作功能。 提供其它Internet服务,如:FTP Gopher WAIS Telnet E-mail 等。
2018/8/26
一、搜索引擎的概念和功能
1、搜索引擎的概念
WWW上的信息数以亿计,人们需要一 种WWW信息发现系统,能自动地在网上漫 游,并搜集它所能得到的信息,自动生成 本地索引。
搜索引擎(Search Engine): 管理和检索网络信息资源的软件。
2018/8/26
2、搜索引擎的功能
2018/8/26
3、根据搜索范围分类
(1)独立搜索引擎
常规搜索引擎,建有自己的数据库, 搜索时通常只能在自己搜集的信息或者 数据库中查找用户所需信息。目前的WWW 搜索引擎基本上属于此类,如 Yahoo! 、 AltaVista、Lycos、Infoseek等。 缺点:查询范围有限,不能利用其它工 具搜集信息。
3、IP地址
(1)含义及作用
Internet为网络上的每个节点(主机、服务 器、客户机、路由器等)确定了一个网络位 置的唯一标识,即IP地址,以保证在分布于 世界各地的计算机间准确地传输信息。
2018/8/26
(2)IP地址的组成
IP地址是一个32位二进制数,按每8位换算为 十进制数字,分为4段号码,每段号码的值为 0~255,各段号码用小圆点“.”分隔。 如:211.64.132.86 每个IP地址由两个部分组成:
2018/8/26
2、关键词搜索
用户访问搜索引擎的Web站点,在输入 表格中输入感兴趣主题的关键词,站点检索 以前建立的索引,返回包含这些关键字的站 点列表。 信息的收集由搜索程序(如: robot 、 spider 、
harvest 、 pursuit 等)自动完成。搜索程序定期在 Internet 上 漫 游 , 自 动 而 系 统 地 访 问 尽 可 能 多 的 Web页面,对它们进行分析,建立起能够查找到相 关单字的页面的URL地址的索引,并通过网页间的 链接顺序搜索新的地址,当遇到新的网页时,就给 该页做上索引,把它加到搜索引擎的数据库中,使 得搜索引擎的数据库得以定期更新。
(2)专用搜索引擎
也称专题搜索引擎,针对特定用户群,可 供查找某一特定领域的信息。如: Softseek提 供软件查找,MapBlast查找地图信息
2018/8/26
2、根据组织信息方式分类
(1) 目录式搜索引擎 提供等级式主题目录,用户通过主题目录 的指引,逐层浏览信息,直到找到与自己需 求相关的。适合希望了解某一方面或范围内 信息但又没有明确搜索目的的用户使用。最 具代表性的目录式搜索引擎是Yahoo!。 优点: 由于网络目录中的网页是由专家人工 精选所得,因此有较高的查准率。 缺点:其查全率较低,搜索范围较窄。
7、超文本标记语言(HTML)
Hyper Text Markup Language,指WWW文 件所采用的简单标记语言,可用来制作网页。
8、主页(Home Page)
WWW服务器的入口html文件,常用于介绍 服务器和运行该服务器单位的基本情况。
2018/8/26
9、浏览器(Browser)
2018/8/26
(2)多元搜索引擎
也称元搜索引擎, 它本身并不搜集信 息和数据,而是利用其它搜索工具(包 括搜索引擎、数据库等)搜集信息,对 结果简单合并和去重后返回给用户 。如: 中文的万纬、搜星,英文的 Metasearch 、 Digisearch 、 Cyber411 、 Metacrawler 、 Savvysearch、Profusion、IQ99等。 优点:可以获得更多、更全面的网址 缺点:查询时间较长
2018/8/26
二、网络信息资源检索的一般方法
1、浏览
随意浏览,记录网上期刊、数据库以及 信息机构等有用信息的网站地址
2、通过网络资源指南查找
利用由专业人员开发出来的网络资源主 题指南
3、利用网络信息检索工具查找
使用不同类型的网络检索工具,来查询 不同类型的资源
2018/8/26
三、网络信息资源的检索技术
2018/8/26
三、搜索引擎的工作方式
1、分类目录搜索
网络目录(Web Directory)即网络分类 目录,提供Internet上其他站点的列表,通常 按主题目录和子目录方式组织,可从分类目 录顶层逐步向下浏览查询子目录。 网络目录采用传统的信息收集、分类、 存储、组织和检索的方法,主要由专业人员 对网站进行调查、筛选、分类、存储,手工 建立关键字索引,再将索引信息存入相应的 数据库中。网页内容丰富,学术性较强。
类别 A B C
2018/8/26
第一段号码 网络ID段数 最大主机数 1-126 1 16,378,064 128-191 2 65516 192-223 3 254
(4)IP 地址的Hale Waihona Puke Baidu配方式
拨号上网:上 网临时分配, 下网收回
Internet
Modem
Internet
电话线
pc
AT
pc
专线上网:有固定 专线 IP 地址,有的是代 局域网 理服务器分配,非 正式IP 地址
http:// ftp:// telnet:// Gopher:// Wais:// 2018/8/26
例:理解 http://www.ncna.edu/demowed/ url-primer.html的含义
6、超文本(Hypertext)
某些字、符号或短语起着Hotlink作用的文本 文件。当链接的内容同时含有文字、声音、 图象、动画等时,就称为超媒体Hypermedia。
2018/8/26
4、Internet域名地址
组成:
二级域名:教 用户机构 育、政府、商 名称缩写 业、网络机构
顶级域名:国 别、国际组织
主机名.机构名.网络名.最高层域名 用提供的 如 : www.ouc.edu.cn Internet
服务名来 标识,如 www、ftp 、bbs等
2018/8/26
2018/8/26
四、搜索引擎的检索方法
1、单词检索 2、词组检索:双引号,连符- 3、布尔逻辑检索:与、或、非 4、截词检索 5、限定检索:+、6、字母大小写 7、名词检索 8、检索结果显示 ①结果排序 ②显示格式
2018/8/26
五、搜索引擎的检索技巧
1、选择合适的搜索引擎 2、确定搜索途径 3、选用搜索选项 4、选用准确的关键词 5、制定恰当的检索式 6、使用多种方法,优化检索结果 7、阅读引擎的帮助信息
2018/8/26
第二节 网络信息资源
一、网络信息资源的概念与特点
1、概念
是指将文字、图像、声音、 动画等多种形式的信息数字化 后存放在光磁等非印刷介质的 载体中,并通过计算机网络通 讯等方式进行传递的信息内容 的集合。
2018/8/26
2、网络信息资源的特点
载体形式虚拟性 存储方式多样性 传播方式交互性 存在状态无序性、不稳定性 信息价值差异性
特殊型 通用型 专题型 (1)按检索内容 (2)按检索机制 范畴层次查询工具 词语查询工具 (3)按使用检索工具数量单独型 集合型 (4)按检索信息资源类型 Web型 非Web型
2018/8/26
2、超文本信息检索工具--WWW
主题分类检索
关键词检索
2018/8/26
WWW或Web是World Wide Web的简称,中 文称万维网,是Internet上一种高级的信息 检索浏览方式。
2018/8/26
(3)分类全文搜索引擎
通常是在分类的基础上再进一步进行全 文检索。很多搜索引擎同时提供分类和主题 两种方式的检索,以更好满足用户需求。
(4) 智能搜索引擎
具备符合用户实际需要的知识库,搜索 时根据已有的知识库来理解检索词的意义并 以此产生联想,从而找出相关网站或网页。 同时,具有一定的推理能力,能根据知识库 的知识,运用人工智能方法进行推理。
1、分类目录检索
网络分类目录一般是人工建立的,类似 于图书馆的目录,适合于主题较宽泛或要 求较为简单的查询。Yahoo即属典型的分 类目录检索工具。
2、关键词检索
指利用搜索索引查找Web页的方法。较 适合于主题较为专指、细小或狭窄的查询。
2018/8/26
四、网络信息资源的检索工具
1、网络信息检索工具的种类
2018/8/26
(2)全文搜索引擎(索引式)
提供对关键词或自然语言的查询,用户在检 索框中输入检索词或检索式,搜索引擎会返 回一组指向相关站点的超链接。能够对网站 的每个网页中的每个单字进行搜索的引擎。 典型代表是AltaVista。 优点:查全率高,搜索范围较广 缺点:查准率低,缺乏清晰的层次结构,查 询结果中重复链接较多。
第 二 章 网络信息检索
Internet 概述 网络信息资源 网络搜索引擎 常用搜索引擎
2018/8/26
管理资料
第一节 Internet概述
一、Internet的含义
通信线路 协议
是通过TCP/IP协议连接起来的计算 机及其网络的统称
2018/8/26
二、Internet相关的名词术语
1、网站(Web Site ) 指放置网页供用户登录浏览的计算机
用HTML编写的脚本程序或者网页,其源代 码都是纯文本,需要借助浏览器进行翻译, 才能显示成图文并茂的网页。 客户端浏览程序可向服务器发送各种请求, 并对从服务器发来的超文本信息和各种多 媒体数据格式进行解释、显示和播放。 WWW 浏览器有几百种之多,目前使用最 多的是美国Microsoft公司的IE ( Internet Explorer ),和美国Netscape 公司的 Navigator。
网络标识、主机标识
同一个物理网络上的所有主机用一个网络ID, 每一个主机各有一个唯一的主机ID与之对应
2018/8/26
(3)IP地址的类型
A类网络地址:四段号码的第一段号码为网络ID号, 其余三段号码为主机ID号。这类地址一般分给具有 大量主机的大型网络使用。 B类网络地址:头两段号码为网络ID号,后两段为 主机ID号。一般分给中等规模主机数的网络使用 C类网络地址:头三段为网络ID号,最后为当地号。 一般分给小型局域网使用。
技术 资源 浏览工具
超文本(Hypertext)、超媒体(Hypermedia) 文字、图像、声音、动画等多媒体信息 Web浏览器( Internet Explorer或Netscape)
URL 超链 接
2018/8/26
第三节 网络搜索引擎
一、搜索引擎的概念和功能 二、搜索引擎的类型 三、搜索引擎的工作方式 四、搜索引擎的检索方法 五、搜索引擎的检索技巧
一个域名地址对应一个IP地址, 一个IP地址可对应多个域名地址
5、统一资源定位器(URL)
指WWW页的地址,它对每个信息资源都规定一 个相应的独特地址,该地址不仅表明信息资 源所在的目录和文件名,还指其存放在哪个 节点的计算机上,以及可以访问的方式。 URL的一般句法形式为:
信息服务方式://信息资源地址/文件路径/文件名
2018/8/26
2、网络通信协议
网络中互相通信的对等实体间交换信息时 所遵守的规则的集合
OSI协议(Open system interconnection) TCP/IP协议
•TCP/IP协议
TCP IP
2018/8/26
将信息分组打包,即负责确认收到信息的正确 性,发现错误后进行重发。 将信息传送到指定地址,即负责信息传送时 的定位和寻址。