3.2因特网上的信息检索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索引擎的工作原理
2、全文搜索引擎并不能真正理解用户的查询内容,只 能把匹配查询关键词与索引数据库中的内容进行匹配。 全文搜索引擎的工作过程是: 从网上抓取网页建立索引数据库在索引数据库中 搜索排序响应用户查询
1、如何从互联网抓取网页
使用蜘蛛(Spider)系统程序,自动访问因特网,并
1998.9
Google
斯坦福大学
提供网页评级动态摘要、网页 快照,每天更新、多文档格式 支持
快照、预览、相关词搜索、 mp3、 flash搜索功能
2001.8
Baidu
百度公司
搜索引擎的分类
按照信息收集方法和服务提供方式,搜索引擎可分为: 目录式搜索引擎 全文搜索引擎 元搜索引擎
搜索引擎的分类
使用自然语言搜索
多数搜索引擎对自然语言的处理很好。事实上,搜索
引擎能够从语句结构得到很有用的信息,不会象仅得 到几个关键词那样容易迷失。

与其输入几个不合语法的关键词,还不如试一下 一句自然的提问。与其搜索“昆明公交车路线”,不 如试一下 “我在昆明如何乘坐公交车?"
搜索引擎的分类
类型 定义 使用关键词到预先 建好的或租用其它 索引数据库查询信 息的一类搜索引擎. 举例
全 文 搜 代表:百度 谷歌 索
www.baidu.com 优点: 信息量大、更新较及时、不需人工干预。 缺点:返回信息过多,有很多无关信息,广告也特别多。
全文搜索引擎
用户查询Fra Baidu bibliotek查询结果
输入关键字
阅读教材回答如下问题:
网络信息检索的方法 搜索引擎的分类及特点 搜索引擎的工作过程
因特网信息检索方法
在因特网中信息检索的方法有三种: 1、基于超文本/超媒体的信息浏览
从一个超文本/超媒体文档入手,沿着嵌入其中的、用户感兴趣的超 链接区搜索信息
2、基于目录服务的信息查询
根据信息的主题降网络上的信息资源进行分类,并以目录的形式组 织和表现
沿着网页中所有的URL爬到其他网页,重复这一过程, 把爬过的网页收集回来 搜索引擎的蜘蛛(Spider)系统程序会定期重新访问 所有网页,以实现该网站信息的更新 蜘蛛模拟器
2、建立索引数据库
由分析索引系统程序对蜘蛛收集到的网页进行分析,
提取相关网页信息(包括网页的URL、编码类型、页 面内容所包含的关键词、关键词位置、生成时间、大 小等),进行大量复杂的计算(算出网页中每一个关 键词的相关度,即出现的次数),然后放到响应的索 引数据库中
元搜索引擎示意图
搜索引擎的工作原理
目录式搜索引擎是以人工或半自动方式收集信息,有
编辑人员查看信息后,人工形成信息摘要,并将信息 至于事先确定的分类框架中。用户通过浏览分类目录 来查看自己所需要的信息,在链接信息资源所在的位 置。
搜索引擎的工作原理
1、目录式搜索引擎是以人工或者半自动方式收集信息, 由编辑人员查看信息后,人工形式信息摘要,并将信 息置于事先确定的分类框架中
查询信息排序
搜索
检索
索引 数据库
搜索引擎的分类
类型 定义
元搜索引擎就 是通过一个统 一的用户界面 向多个搜索引 擎同时递交用 户查询,返回结 果去重合并,综 合结果返回给 用户.(没有自 己的数据库)
举例
元 搜 索 引 擎
优点: 结果精确、全面,汇聚各大搜索引擎的结果。 缺点: 检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2
1994年起搜索引擎发展举例
产生时间
1994.4 1995.12 1997.10
搜索工具
Yahoo Altavista 北大天网
开发组或公司
斯坦福大学 DEC公司 北大计算机研究室
网站特点
早期Yahoo数据是手工输入 第一个支持自然语言关键词和 高级检索的引擎 收录网页约6000万,有强大的 FTP搜索功能
3、在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索程序从网页索引数
据库中找到符合该关键词的所有网页,按照该关键词 在各网页中的相关度即次数,进行排序,并返回给用 户,相关度越高,排名越靠前
4、查询和响应
选择最好的搜索工具
每一个搜索都是不同的,如果你为每一个搜索都选择最好
的搜索工具,那么每次你都会得到最好的搜索结果。最常 见的选择是使用全文搜索引擎还是网站分类目录。 一般的规则是,如果你在找什么特殊的内容或文件, 那么使用全文搜索引擎如google和baidu,如果你想从总体 上或比较全面的了解一个主题,那么使用网站分类目录如 yahoo和sohu。 对于特殊类型的信息考虑使用特殊的搜索工具,比如 你要找人或找地点,那么使用专业的寻人引擎或地图和位 置搜索网站。事实上几乎每种主题都有特殊的搜索工具。
3、基于搜索引擎的信息检索
搜索引擎是一种信息检索工具,它从因特网上接受用户的查询请求, 在数据库中进行检索,然后返回查询结果
基于超文本/超媒体的信息浏览
基于目录服务的信息查询
基于搜索引擎的信息检索
搜索引擎的产生
最早的搜索引擎出现于1994年4月。斯坦福大学的两 名博士生,美籍华人杨致远和美国人David Filo共同创 办了超级目录索引雅虎(Yahoo),并成功地使搜索 引擎的概念深入人心。
类型 定义 网络信息资源, 通过人工整理 分类,按照主 题分类,并以层 次树状形式进 行组织的一类 搜索引擎. 代表:雅虎 新浪 搜狐 举例
目 录 搜 索
www.sina.com.cn
优点: 实实在在找到用户所关心内容分类,网站导航质量高 缺点:分类不够细,需要人工介入,目录的维护量大, 更新可
能不够及时.
相关文档
最新文档