因特网上的信息检索课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如:①感冒 AND 咳嗽 ②大学生 AND 心理障碍 ③市场经济 AND 诚信 (有“市场经济”同时有“诚 信”,运算结果是阴影部分)。
A A
C B B
表明结果必须同时含有A和B才行, 指A与B的交集C。须出现在同一 个记录中。
逻辑非
检索式A NOT B A - B
表达检索词间的排除关系。可缩小检索范 围,提高查准率,运算结果是阴影部分。 例:①学生NOT小学生 ②微量元素 NOT 锌 ③能源 NOT 核能
类型 定义 网络信息资源, 通过人工整理 分类,按照主 题分类,并以层 次树状形式进 行组织的一类 搜索引擎. 代表:雅虎 新浪 搜狐 举例
目 录 搜 索
www.sina.com.cn
优点: 实实在在找到用户所关心内容分类,网站导航质量高 缺点:分类不够细,需要人工介入,目录的维护量大, 更新可
能不够及时.
1998.9
Google
斯坦福大学
提供网页评级动态摘要、网页 快照,每天更新、多文档格式 支持
快照、预览、相关词搜索、 mp3、 flash搜索功能
2001.8
Baidu
百度公司
搜索引擎的分类
按照信息收集方法和服务提供方式,搜索引擎可分为: 目录式搜索引擎 全文搜索引擎 元搜索引擎
搜索引擎的分类
3、基于搜索引擎的信息检索
搜索引擎是一种信息检索工具,它从因特网上接受用户的查询请求, 在数据库中进行检索,然后返回查询结果
wenku.baidu.com
基于超文本/超媒体的信息浏览
基于目录服务的信息查询
基于搜索引擎的信息检索
搜索引擎的产生
最早的搜索引擎出现于1994年4月。斯坦福大学的两 名博士生,美籍华人杨致远和美国人David Filo共同创 办了超级目录索引雅虎(Yahoo),并成功地使搜索 引擎的概念深入人心。
查询信息排序
搜索
检索
索引 数据库
搜索引擎的分类
类型 定义
元搜索引擎就 是通过一个统 一的用户界面 向多个搜索引 擎同时递交用 户查询,返回结 果去重合并,综 合结果返回给 用户.(没有自 己的数据库)
举例
元 搜 索 引 擎
优点: 结果精确、全面,汇聚各大搜索引擎的结果。 缺点: 检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2
搜索引擎的分类
类型 定义 使用关键词到预先 建好的或租用其它 索引数据库查询信 息的一类搜索引擎. 举例
全 文 搜 代表:百度 谷歌 索
www.baidu.com 优点: 信息量大、更新较及时、不需人工干预。 缺点:返回信息过多,有很多无关信息,广告也特别多。
全文搜索引擎
用户查询 查询结果
输入关键字
使用自然语言搜索
多数搜索引擎对自然语言的处理很好。事实上,搜索
引擎能够从语句结构得到很有用的信息,不会象仅得 到几个关键词那样容易迷失。
与其输入几个不合语法的关键词,还不如试一下 一句自然的提问。与其搜索“昆明公交车路线”,不 如试一下 “我在昆明如何乘坐公交车?"
逻辑或
检索式 A OR B 检索式 A + B
1994年起搜索引擎发展举例
产生时间
1994.4 1995.12 1997.10
搜索工具
Yahoo Altavista 北大天网
开发组或公司
斯坦福大学 DEC公司 北大计算机研究室
网站特点
早期Yahoo数据是手工输入 第一个支持自然语言关键词和 高级检索的引擎 收录网页约6000万,有强大的 FTP搜索功能
元搜索引擎示意图
搜索引擎的工作原理
目录式搜索引擎是以人工或半自动方式收集信息,有
编辑人员查看信息后,人工形成信息摘要,并将信息 至于事先确定的分类框架中。用户通过浏览分类目录 来查看自己所需要的信息,在链接信息资源所在的位 置。
搜索引擎的工作原理
1、目录式搜索引擎是以人工或者半自动方式收集信息, 由编辑人员查看信息后,人工形式信息摘要,并将信 息置于事先确定的分类框架中
沿着网页中所有的URL爬到其他网页,重复这一过程, 把爬过的网页收集回来 搜索引擎的蜘蛛(Spider)系统程序会定期重新访问 所有网页,以实现该网站信息的更新 蜘蛛模拟器
2、建立索引数据库
由分析索引系统程序对蜘蛛收集到的网页进行分析,
提取相关网页信息(包括网页的URL、编码类型、页 面内容所包含的关键词、关键词位置、生成时间、大 小等),进行大量复杂的计算(算出网页中每一个关 键词的相关度,即出现的次数),然后放到响应的索 引数据库中
阅读教材回答如下问题:
网络信息检索的方法 搜索引擎的分类及特点 搜索引擎的工作过程
因特网信息检索方法
在因特网中信息检索的方法有三种: 1、基于超文本/超媒体的信息浏览
从一个超文本/超媒体文档入手,沿着嵌入其中的、用户感兴趣的超 链接区搜索信息
2、基于目录服务的信息查询
根据信息的主题降网络上的信息资源进行分类,并以目录的形式组 织和表现
搜索引擎的工作原理
2、全文搜索引擎并不能真正理解用户的查询内容,只 能把匹配查询关键词与索引数据库中的内容进行匹配。 全文搜索引擎的工作过程是: 从网上抓取网页建立索引数据库在索引数据库中 搜索排序响应用户查询
1、如何从互联网抓取网页
使用蜘蛛(Spider)系统程序,自动访问因特网,并
A
B
添加英文双引号
添加英文双引号.
双引号中的词语在查询到的文档中将作为一个整体 出现.这一方法在查找名言警句或专有名词时显得格外 有用.
3、在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索程序从网页索引数
据库中找到符合该关键词的所有网页,按照该关键词 在各网页中的相关度即次数,进行排序,并返回给用 户,相关度越高,排名越靠前
4、查询和响应
选择最好的搜索工具
每一个搜索都是不同的,如果你为每一个搜索都选择最好
的搜索工具,那么每次你都会得到最好的搜索结果。最常 见的选择是使用全文搜索引擎还是网站分类目录。 一般的规则是,如果你在找什么特殊的内容或文件, 那么使用全文搜索引擎如google和baidu,如果你想从总体 上或比较全面的了解一个主题,那么使用网站分类目录如 yahoo和sohu。 对于特殊类型的信息考虑使用特殊的搜索工具,比如 你要找人或找地点,那么使用专业的寻人引擎或地图和位 置搜索网站。事实上几乎每种主题都有特殊的搜索工具。
逻辑“或”是并列概念关系的一种组配, 通常用运算符为“OR”或“+”表示,能够 扩大检索结果,运算结果是阴影部分 例:周恩来OR周总理 少年 or 儿童 至少要有一个出现在记录中
A
B
逻辑与
检索式A AND B A * B
是具有概念交叉关系和限定关 系的一种组配。可缩小检索范 围,提高查准率。
A A
C B B
表明结果必须同时含有A和B才行, 指A与B的交集C。须出现在同一 个记录中。
逻辑非
检索式A NOT B A - B
表达检索词间的排除关系。可缩小检索范 围,提高查准率,运算结果是阴影部分。 例:①学生NOT小学生 ②微量元素 NOT 锌 ③能源 NOT 核能
类型 定义 网络信息资源, 通过人工整理 分类,按照主 题分类,并以层 次树状形式进 行组织的一类 搜索引擎. 代表:雅虎 新浪 搜狐 举例
目 录 搜 索
www.sina.com.cn
优点: 实实在在找到用户所关心内容分类,网站导航质量高 缺点:分类不够细,需要人工介入,目录的维护量大, 更新可
能不够及时.
1998.9
斯坦福大学
提供网页评级动态摘要、网页 快照,每天更新、多文档格式 支持
快照、预览、相关词搜索、 mp3、 flash搜索功能
2001.8
Baidu
百度公司
搜索引擎的分类
按照信息收集方法和服务提供方式,搜索引擎可分为: 目录式搜索引擎 全文搜索引擎 元搜索引擎
搜索引擎的分类
3、基于搜索引擎的信息检索
搜索引擎是一种信息检索工具,它从因特网上接受用户的查询请求, 在数据库中进行检索,然后返回查询结果
wenku.baidu.com
基于超文本/超媒体的信息浏览
基于目录服务的信息查询
基于搜索引擎的信息检索
搜索引擎的产生
最早的搜索引擎出现于1994年4月。斯坦福大学的两 名博士生,美籍华人杨致远和美国人David Filo共同创 办了超级目录索引雅虎(Yahoo),并成功地使搜索 引擎的概念深入人心。
查询信息排序
搜索
检索
索引 数据库
搜索引擎的分类
类型 定义
元搜索引擎就 是通过一个统 一的用户界面 向多个搜索引 擎同时递交用 户查询,返回结 果去重合并,综 合结果返回给 用户.(没有自 己的数据库)
举例
元 搜 索 引 擎
优点: 结果精确、全面,汇聚各大搜索引擎的结果。 缺点: 检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2
搜索引擎的分类
类型 定义 使用关键词到预先 建好的或租用其它 索引数据库查询信 息的一类搜索引擎. 举例
全 文 搜 代表:百度 谷歌 索
www.baidu.com 优点: 信息量大、更新较及时、不需人工干预。 缺点:返回信息过多,有很多无关信息,广告也特别多。
全文搜索引擎
用户查询 查询结果
输入关键字
使用自然语言搜索
多数搜索引擎对自然语言的处理很好。事实上,搜索
引擎能够从语句结构得到很有用的信息,不会象仅得 到几个关键词那样容易迷失。
与其输入几个不合语法的关键词,还不如试一下 一句自然的提问。与其搜索“昆明公交车路线”,不 如试一下 “我在昆明如何乘坐公交车?"
逻辑或
检索式 A OR B 检索式 A + B
1994年起搜索引擎发展举例
产生时间
1994.4 1995.12 1997.10
搜索工具
Yahoo Altavista 北大天网
开发组或公司
斯坦福大学 DEC公司 北大计算机研究室
网站特点
早期Yahoo数据是手工输入 第一个支持自然语言关键词和 高级检索的引擎 收录网页约6000万,有强大的 FTP搜索功能
元搜索引擎示意图
搜索引擎的工作原理
目录式搜索引擎是以人工或半自动方式收集信息,有
编辑人员查看信息后,人工形成信息摘要,并将信息 至于事先确定的分类框架中。用户通过浏览分类目录 来查看自己所需要的信息,在链接信息资源所在的位 置。
搜索引擎的工作原理
1、目录式搜索引擎是以人工或者半自动方式收集信息, 由编辑人员查看信息后,人工形式信息摘要,并将信 息置于事先确定的分类框架中
沿着网页中所有的URL爬到其他网页,重复这一过程, 把爬过的网页收集回来 搜索引擎的蜘蛛(Spider)系统程序会定期重新访问 所有网页,以实现该网站信息的更新 蜘蛛模拟器
2、建立索引数据库
由分析索引系统程序对蜘蛛收集到的网页进行分析,
提取相关网页信息(包括网页的URL、编码类型、页 面内容所包含的关键词、关键词位置、生成时间、大 小等),进行大量复杂的计算(算出网页中每一个关 键词的相关度,即出现的次数),然后放到响应的索 引数据库中
阅读教材回答如下问题:
网络信息检索的方法 搜索引擎的分类及特点 搜索引擎的工作过程
因特网信息检索方法
在因特网中信息检索的方法有三种: 1、基于超文本/超媒体的信息浏览
从一个超文本/超媒体文档入手,沿着嵌入其中的、用户感兴趣的超 链接区搜索信息
2、基于目录服务的信息查询
根据信息的主题降网络上的信息资源进行分类,并以目录的形式组 织和表现
搜索引擎的工作原理
2、全文搜索引擎并不能真正理解用户的查询内容,只 能把匹配查询关键词与索引数据库中的内容进行匹配。 全文搜索引擎的工作过程是: 从网上抓取网页建立索引数据库在索引数据库中 搜索排序响应用户查询
1、如何从互联网抓取网页
使用蜘蛛(Spider)系统程序,自动访问因特网,并
A
B
添加英文双引号
添加英文双引号.
双引号中的词语在查询到的文档中将作为一个整体 出现.这一方法在查找名言警句或专有名词时显得格外 有用.
3、在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索程序从网页索引数
据库中找到符合该关键词的所有网页,按照该关键词 在各网页中的相关度即次数,进行排序,并返回给用 户,相关度越高,排名越靠前
4、查询和响应
选择最好的搜索工具
每一个搜索都是不同的,如果你为每一个搜索都选择最好
的搜索工具,那么每次你都会得到最好的搜索结果。最常 见的选择是使用全文搜索引擎还是网站分类目录。 一般的规则是,如果你在找什么特殊的内容或文件, 那么使用全文搜索引擎如google和baidu,如果你想从总体 上或比较全面的了解一个主题,那么使用网站分类目录如 yahoo和sohu。 对于特殊类型的信息考虑使用特殊的搜索工具,比如 你要找人或找地点,那么使用专业的寻人引擎或地图和位 置搜索网站。事实上几乎每种主题都有特殊的搜索工具。
逻辑“或”是并列概念关系的一种组配, 通常用运算符为“OR”或“+”表示,能够 扩大检索结果,运算结果是阴影部分 例:周恩来OR周总理 少年 or 儿童 至少要有一个出现在记录中
A
B
逻辑与
检索式A AND B A * B
是具有概念交叉关系和限定关 系的一种组配。可缩小检索范 围,提高查准率。