41信息检索精品PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、搜索引擎的工作原理
一个搜索引擎通常是以下列四个程序部分和索引数据库所组成。
搜索引擎
①“蜘蛛”程序: 沿着URL搜寻网页,并将结果返回给 网站。
② 索引编辑程序:对搜集到的网页进行分析、提取相关 信息,以建立索引数据库。 程序控制部分
③ 检索程序: 根据用户关键字,检索出网页并根据相关 度排序。
词或句子提问式进行检索。 多媒体检索:图片、声音、动画等 多语种检索:提供多语言种类的检索环境供检索者选择,系统可按
指定的语种进行检索,并输出相应的检索结果。 区分大小写的检索( Case-Sensitive ):主要是针对检索词中含有
人名、地名等专有名词的检索。 个性化和本地化检索
注意:
逻辑运算 AND 、 NOT 、 OR 等,也支持 “ + ” 、 “ - ”““”” 等符号。 1、使用空格 输入更多的关键词,只要 在关键词中间留空格,这相当于多个关键词之间的关系是逻辑“与”.
④ 用户接口程序:按要求返回检索结果给用户。
索引数据库
其中,①、②是搜索引擎网站日常的维护工作,一般来说搜索引擎的更新周期为 几天至多是几个月。 注意:用户检索到的信息只是索引数据库中的内容。因此,有可能遇到死链和空 链,也有可能该页保存为“网页快照”。
写在最后
成功的基础在于好的学习习惯
用关键字或 网页 关键字表达 式检索

本身一般不 带数据库
用关键字或 网页 关键字表达 式检索
较短
(视被引 用的搜索 引擎)
较大
(视被 引用的 搜索引 擎)
量大
(视被 引用的 搜索引 擎)
命中率 可能稍 高
搜索引擎的发展
),是最早、最有代表性的目录型 检索工具。
上图为Yahoo! 站点的主页
(2)
(2)
(3)
上图是Google 站点的主页
“Google” ( )是目前最为著名的搜索引擎,该搜索 引擎建立于 1998 年。
(3)
4.多元搜索引擎
多元搜索引擎( Metasearch engine,Megasearch engine 或 Unified search engin )也称集成式搜索引擎,它是将多个搜索引擎集成在一起, 向用户提供一个统一的检索界面,且将一个检索提问同时发送给多个搜 索引擎同时检索多个数据库,再经过聚合、去除重复部分并输出检索结
2、使用减号. 要避免搜索某个词语,可以在这个词前面加上一个减号 (“-”, 英文字符).但在减号之前必须留一空格.如要了解搜索引擎历 史,可以这样输入关键字:搜索引擎 历史 -文化 -中国历史 -世界历史
3、添加英文双引号. 双引号中的词语在查询到的文档中将作为一个 整体出现.这一方法在查找名言警句或专有名词时显得格外有用.
The foundation of success lies in good habits
30
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
讲师:XXXXXX XX年XX月XX日
第四章 因特网上的信息检索
主要内容:
一、因特网信息检索方法 二、搜索引擎的发展与分类 三、搜索引擎的工作过程
( 1 )一般检索功能 这是搜索引擎最基本的作用所在。通常情况下,布尔逻辑检索、词 组检索、截词检索、字段检索、限制检索等都属于一般检索功能。
( 2 )特殊检索功能 自然语言( Natural Language )检索:直接采用自然语言中的字、
果。
DOGPILE ( )是最早、最受欢迎的多元搜索引擎之一,它包罗了大约 25 种搜 索工具 。
(4)
分类
数据库
检索方法 检索结 数据库更 数据库 收集 果形式 新周期 规模 信息
结果 信息
目录检索 人工或半人 逐级目录检 网站
工整理

很长
较小
很有限 直接链 接到目 标网站
搜索引擎
蜘蛛程序自 动搜索后产 生索引数据 库
相关文档
最新文档