因特网上信息检索(检索与原理)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎的作用
搜索引擎是一种用于帮助因特网用户查 询信息的搜索工具,它以一定的策略在 因特网中搜集、发现信息,对信息进行 理解、提取、组织和处理,并为用户提 供检索服务,从而起到信息导航目的。
•http://cn.yahoo.com/ •http://www.google.com/ •http://www.sohu.com/ •http://www.baidu.com/ •http://www.163.com/ •http://www.sina.com.cn/
1、多媒体信息检索
传统的多媒体数据库中,除了文本和数字还包括图形、 图象、声音、视频、动画等各种媒体组合。但多媒体信 息具有丰富的内涵,如:图象的颜色、纹理、形状,动 画中的运动、声音和音调等。例如歌曲的旋律、音调、 音质等难以用文字描述。这正是基于内容的音频检索需 要研究和解决的问题,以期达到更深的检索层次和更好 的检索效果。
2、专业垂直搜索引擎
专业垂直类搜索引擎只面向某一个特定的领域,专注于 自己的特长和核心技术,能够保证对该领域信息的完全 收录和及时更新。
信息检索工具的工作原理
搜索引擎是如何搜索信息的呢?
你听说过“网络机器人”、“爬虫”、“蜘蛛” 吗?
他们只是搜索引擎的一个部分,叫“搜索器”
三部分的作用
1.搜索器:负责定期地自动到各个网站上, 把网页抓下来,并顺着页面上的链接,持 续不断地抓取网页。 2.索引器:把搜索器抓来的网页进行分析, 按照关键词进行索引,并存入服务器的数 据库中(索引数据库)。
适合查找综合性、概括性的主题概念,或对检索准 确度要求较高的课题。 专题指南的局限性在于其信息更新速度慢,跟不上 网络信息的发展。
数据库的规模相对较小,收录的网页数量和深度都 相对不足,用户很难检索到较专深的信息,比较容 易遗漏交叉相关信息 。
全文搜索引擎(一)
使用自动索引软件来发现、收集并标引网页, 建立数据库。它的Spider自动在因特网上漫游, 不断搜集各类新网址及网页,形成数以千万乃 至亿万条记录的数据库;它以Web形式提供给 用户一个检索界面,供用户输入检索关键词、 词组或短语等检索项,以其特定的检索算法代
如:雅虎、http://cn.yahoo.com/ 新浪、 http://www.sina.com.cn/
搜狐、 http://www.sohu.com/
网易、 http://www.163.com/
目录索引类搜索引擎二
目录索引类搜索引擎特点
比较适合用户进行笼统或较笼统的主题浏览和检索。
查准率较高,查全率较低。
2、目录搜索引擎的工作原理: 目录索引类搜索引擎一般采用人工方 式采集的存储网络信息,依靠手工为每 个网站确定 一个标题,并给出大概的描 述,建立关键字索引,将其放入相应的 类目体系中。
1、总目录
2、专题目录
•总目录——专题目录——链接——网站
3、链接
利用困特网进行信息资源检索时,如 果想大致了解某一个领域的信息资源,可 以使用目录索引类搜索引擎;如果需要检 索的信息资源目标比较明确,则可以根据 信息资源的类型选择搜索工具。
7.网页快照是搜索引擎把索引的网页缓存在服 务器中,这样即使链接死了,用户也可以从搜 索服务器中取出这个被存储的“快照网页”。 ( )
第四章 4.1因特网信息资源检索
本节课主要内容
主要学习各种搜索引擎及其发展趋势,并 在此基础上进一步分析了搜索引擎的工作 原理。
•4.1.1 检索工具的类型与特点 P45 •.4.1.2 信息检索工具的工作原理和发 展趋势 P47
教学要求
1、了解因特网上目录检索、全文检索搜索引 擎和元搜索引擎三种类型信息检索工具的特 点。 2、了解信息检索工具产生的背景、工作原理 和发展趋势。 3、知道常用中文信息搜索网站的功能特点与 信息检索中常用的策略和技巧。 4、能根据需要熟练地选用恰当的检索工具和 方法来获取信息。
目录索引类搜索引擎一
一般采用人工方式采集和存储网络信息,是由专业人员 在广泛搜集网络资源及有关数据,进行加工整理,按照
某种主题分类体系编制的一种可供检索的等级结构式目
录。 在每个目录大类及其子类下提供相应的网络资源站点地 址,并附有简单的介绍。用户能在目录体系的引导下, 通过浏览目录,逐级查找,检索自己感兴趣的主题。
C.爬虫 D.CuteFTP
4.下列不属于元搜索引擎特点的是( B.可同时搜索多个数据库 C.一般支持AND、OR、NOT等操作来自百度文库D.一般只使用简单、直接的搜索策略
)。
A.搜索时,用户必须多次提交搜索请求
判断题
1.常用的两种搜索引擎是目录类搜索引擎和元搜索引擎。 ( ) 2.为了适应不同搜索群体的需要,许多搜索引擎一般都提 供多语种检索功能。( )
各个网站上,把网页抓下来, 并顺着上面的链接,持续不断 地抓取网页。如“网络机器 人”、“爬虫”、“蜘蛛”。
检索器
索引器:把搜索器抓来的网
索引器 页进行分析,按照关键词句进 行索引,并存入服务器的数据 库中。
检索器:面向用户,接收用
搜索器 户提交的查询字串,在索引数 据库中查询,并将结果反馈给 用户。
缺点:一般支持AND、OR、NOT等操作, 一般只使用简单、直接的搜索策略,并且 检索速度也慢。
归纳三种工具的各自特点
分 类 数据库 检索方法 检索结果 数据库更 数据库规 形式 新周期 模
网站 很长 较小
收集 信息
很有限
结果 信息
直接链接 到目标网 站 可能很多
目录 人工或半人工 逐级目录 检索 整理 检索
常用的元搜索引擎 1、万维元搜索引擎: http://www.widewaysearch.com/ 2、Fisher中文元搜索引擎: http://www.hsfz.net/fish 3、http://www.xooda.com/
元搜索引擎二
元搜索引擎的特点
元搜索引擎在搜索的时候,用户只需提交 一次搜索请求,而且可以同时搜索多个数 据库,并根据多个搜索引擎的检索结果进 行二次加工,如对检索结果进行重排和标 明检索结果来源等,输出给用户。
3.检索器:面向用户,接受用户提交的查 询字串,在索引数据库中查询,并将查询 结果反馈给用户。
全文搜索引擎的工作步骤:
3、从搜引数据库中 检索结果并排序 4、以网页形式返回 给用户
2、建立索引数据 库
1、从网上搜索各种 网页信息
1、全文搜索引擎的工作原理
全文搜索引擎: 搜索器
索引器 检索器
搜索器:负责定期地自动到
课堂作业
课本P51按要求填写完整
选择题
1.目录索引类搜索引擎一般采用什么方式采 集和存储信息( )。
A.人工方式
C.关键字检索
B.蜘蛛程序
D.检索工具
2.最早的FTP搜索引擎是基于文本显示的 ( )。
A.Google B.Baidu C.Archie D.天网搜索 3.下列不属于搜索引擎中“搜索器”工作程 序的是( )。 A.网络机器人 B.蜘蛛
3 .通过专业搜索引擎获得的信息资源一般来说比较权威。 ( )
4.元搜索引擎的搜索范围可以是多个搜索引擎的数据库, 而不局限于某一搜索引擎的数据库内。( )
5.元搜索引擎通常只使用高级、间接的搜索策 略,检索速度快。( )
6.垂直搜索引擎只面向某一特定的领域,专注 于自己的特长和核心技术,能够保证对该领域 信息的完全收录和及时更新。( )
搜索 蜘蛛程序自动 用关键字 引擎 搜索后产生索 或关键字 引数据库 表达式检 索
网页
较短
较大
量大
元搜 本身一般不带 用关键字 数据库 索引 或关键字 擎 表达式检 索
网页
较短 较大 量大 命中率可 (视被引 (视被引 (视被引 能稍高 用的搜索 用的搜索 用的搜索 引擎) 引擎) 引擎)
搜索引擎的发展趋势
替用户在其数据库中找出相关记录,按相关度
排序输出。
如:google、百度、北大天网等
全文搜索引擎(二)
主页上有 醒目的检 索框,输 入关键词 检索
全文搜索引擎特点
收录、加工信息的范围广、速度快,能及时地提供 新增信息给用户。 每个搜索引擎都提供了多种检索功能 ,有利于提高 检索效率。
按其工作方式划分:
目录索引类搜索引擎:分类目录检索方法 如:雅虎、新浪、搜狐、网易等 全文搜索引擎:关键词检索方法 如:google、百度、北大天网等 (P19表2-4) 元搜索引擎:
如: 多个:http://www.dogpile.com 万维元搜索引擎: http://www.widewaysearch.com/ Fisher中文元搜索引擎:http://www.hsfz.net/fish
实例讲解:
工作原理分析:
“蜘蛛”程序“爬”到“爱自由旅游网上,抓到 了 http://www.izy.cn/travel_guide/a01/1_0_0 _1_0_0.html页面,并从全文中抽取一系列的 关键字,包括“北京”、“概况”等等,并把 网页网址与这些关键字关联,利用“索引器” 建立网页索引数据库.当你向“百度”提交了 这些关键字,“百度”就利用“检索器”从索 引数据库中搜索,并将搜索到的结果展示在页 面上.
适合于检索特定的信息及较为专、深、具体或类属 不明确的课题。
一次检索输出的结果可能很多,但当中包含了许多 重复、虚假的信息 ,因此要过滤一大堆与检索主题 互不相干的检索结果。
元搜索引擎一
元搜索引擎是一种调用其他多个独立 搜索引擎的引擎,是对多个独立搜索 引擎的整合、调用、控制和优化,能 方便地检索多个搜索引擎,扩大检索 范围,提高检索的全面性。