6第六章 网络信息资源检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现在的搜索引擎——第四代搜索引擎
以Google、Inktomi和百度为代表
Google其数据库中存放的网页已达30亿
搜索引擎的搜索引擎
搜索引擎之间出现了分工协作,并有了专业的搜索引擎 技术和搜索数据库服务提供商。
国外的Inktomi本身并不是直接面向用户的搜索引擎, 但向包括Overture(原GoTo)、LookSmart、MSN、HotBot 等在内的其他搜索引擎提供全文网页搜索服务。
检索结果修正——在上一次检索结果的范围
内调整检索方案,以期达到更精确的相关信
息。
检索结果排序——自动分析查询到的页面,
根据相关性算法将相关性最大的网页排在前
面。
提供最新收录的新站——向用户公布搜索引 擎新收集了哪些网站。
4
搜索引擎的利用
搜Байду номын сангаас引擎的使用
常用搜索引擎的使用
搜索引擎的使用
(1)确定你要采用的查询方式
所需要的信息类型选定查询方式、查询范
围、查询时间等,采用什么样的限制方法。
(2)选定一个合适的搜索引擎
这也是最关键的一步,如果要想查中文信息最好
选用中文站点,查英文信息最好选用英文站点;另外
还要根据所需信息内容选定站点,如需查询网址要选
网址索引做得好的站点,例如Yahoo!或Sohu等站点, 如需查询网页信息或一些学术信息,最好去查一些大 学站点开发的搜索引擎,如北京大学的“天网搜索引 擎”等。
最早现代意义上的搜索引擎
1994年7月,Michael Mauldin将John Leavitt的蜘蛛 程序接入到其索引程序中,创建了Lycos。
1995年4月,斯坦福(Stanford)大学的两名博士生, David Filo和美籍华人杨致远(Gerry Yang)共同创办 了超级目录索引Yahoo。
(精确)
被引用次数:推荐使用!
相关文章:查找同属这组学术研究成果的其他文 章,可能是初始版本,其中有预印本、摘要、会 议论文或其他改写本 。
网页搜索:Google 搜索中关于该研究成果的信 息。
图书馆搜索:找到藏有这项学术成果的图书馆。
Google的产品——Google Books
http://books.google.com/ http://books.google.cn/
MP3音乐搜索引擎——专门收集关于音乐 Flash搜索引擎——专门收集Flash 在线免费电影搜索引擎 新闻搜索引擎
3 搜索引擎提供的服务
目录检索—— 指通过分类的方式进行检索 全文检索—— 对于网页进行基于全文的关键词检 索
精确检索:受控词表和XML(逻辑组配)
自然语言检索:Ask Jeeves、GoTo、 InQuizit和LexiQuest等。 如:“What is Jamestown?”、“When did Web searching start?”
网络信息检索一般要通过信息的收集、整理、 分类、索引从而产生数据库以供检索。
网络信息检索困难原因分析
• 信息资源分散 • 信息数量庞大 • 检索软件智能低
1 搜索引擎的发展与含义
Data
迅速、准确获取自已 最需要的信息 网络信息资源每4个月 翻一番 信息内容涉及广泛
?为什么要出现
搜索引擎
信息类型众多
多语种检索—— 限制检索结果的语言,
Infoseek/Go(还提供检索结果的自动翻译服
务)、Google
过滤检索——在检索中自动将一些网站信息过
滤掉,或者是将一些重复的网页去除掉。
智能检索:能够自动地分析检索结果,为用户 提供最满意的信息。
多媒体检索
基于描述:用一个关键词来描述所要查找的图片或 是音乐,如用“rocket ”来查找火箭的图片。 基于内容:用一些视觉特征(颜色、形状、纹理) 来查找多媒体信息,如用户首先点选画面中随机产 生的图片中比较符合需求的图片,找到较为相似的 图片,再从中点选更为接近要求的图片,经过数次 互动后,用户可以愈来愈接近想查找的图片。
推出新的搜索服务Google Scholar。 • http://scholar.google.com • 这是Google和许多科学和研究机构合作的结果,也是 其计划的第一步,最终公司将为研究人员提供学术性论
文、书籍、摘要及技术报告等在内的搜索服务。
• 新的搜索服务提供大量的科学文献引用资料,同时也 为用户提供在线无法找到的图书馆资料.
–―J Clin Immunol ‖ 检索结果314,000
–―J Clin Immunol‖ ISSN, 检索结果256,000 3、不区分英文字符大小写,如:GOD=God=god
Google 高级检索
过滤与选择
限定文献语种、 文件类型
指定网域搜索:
有一些词后面加上冒号对Google 有特殊的含义。
综合型搜索引擎
按搜索的内 容划分
专业型搜索引擎
特殊型搜索引擎
专业型搜索引擎
只搜集某一行业或专业范围内的信息资 源,只能检索到某一专题的网址或网页。
例如:美国化学工业专业搜索引擎、化
工Yahoo、中国电力搜索引擎等。
特殊型搜索引擎
名录搜索引擎——专门搜集有关电话、人名、地址
图片搜索引擎——专门收集有关图像信息的
注册可以实现更多的个性化定制服务!
高级搜索
熟悉经常使用的查询工具及其特性是搜索成功的基础
确定使用哪一类搜索引擎,这是信息检索关键的一步
关键词的选择是运用搜索引擎成功的重要因素 仔细研究该搜索引擎使用说明 使用操作符改善检索过程 要经常监控WWW站点上各个主要搜索引擎的排名情况
(如:http://www.seo.org.cn)
一种是拥有自己的检索程序并自建网页数据库, 搜索结果直接从自身的数据库中调用。 一种是租用其他引擎的数据库,并按自定的格式 排列搜索结果,如Lycos引擎、sohu、sina等。
目录索引式搜索引擎
以人工方式或半自动方式搜集信息,由编辑员
查看信息之后,人工形成信息摘要,并将信息按照一 定的主题进行分类,建立层次目录。大目录下面包含 子目录,子目录下面又包含子目录,如此下去,建立 具有包含关系的层次目录。 收集的信息大多面向网站,提供目录浏览服务。
对信息进行提取和组织建立索引库
根据用户输入的查询条件,在索 引库中快速检出文档,进行文档 与查询的相关度评价,对将要输 出的结果进行排序,并将查询结 果返回给用户。
查询接口
涉 及 的 相 关 技 术
网络技术 数据库技术 自动标引技术 检索技术 自动分类技术
机器学习等人工智能技术
搜索引擎的类型
按搜索机制划分
从而对用户提出的各种检索作出响应,提供用户所需
的信息或相关指针。
工作原理
搜索引擎
Web服务器 Web站点
Web站点 客 户 浏 览 器 信 息 检 索 信 息 组 织 机 制 信 息 采 集 机 制
网 络
FTP站点 新闻组 Web站点
数据库
2 搜索引擎工作流程与类型
在互联网中发现、搜集网页信息
信息搜集 系统 索引数据 库
搜索引擎的使用
1、从头开始——分析你想要的信息的类型,选
择一个合适的搜索引擎去找到你需要的信息。
2、选定信息搜索方法
选定信息搜索方法
要想有一个满意的搜索结果,您必须制定一个很好 的查询策略,选定—个适合自己的信息搜索方法是检索 信息的关键,为此, 需要做好以下工作: (1)确定你要采用的查询方式 (2)选定一个合适的搜索引擎 (3)要及时修改查询策略
“site:‖——在某个特定的域或站点中进行搜索, 可以在Google 搜索框中输入“site:xxxxx.com‖。 例如,要在Google 站点上查找新闻,可以输入: 新闻 site:www.google.com
面向科学家和研究人员的Google新产品
——Google Scholar!
• 2004年11月18日,Google公司针对科学家和研究人员
(3)要及时修改查询策略
•调整你的查询策略,改换搜索引擎。
•通过搜索引擎查找自己想要的网址或信息是最快捷的
方法,也是最佳途径。
•如果要检索一个一般性(或综合性)的题目,不妨试
一下像Yahoo这一类的目录式分类搜索引擎,准会意
外地发现许多相关的网站;而要检索一个有关某个特
定的(或不太清楚的)人或事物的信息,最好使用像 InfoSeek或AltaVista这一类的全文搜索引擎。
按包含的搜索工具的数量划分
单独型搜索引擎 ——主要是指搜索引擎之间没有嵌套,是独立的单一 性搜索引擎。
元搜索引擎 ——这类搜索引擎没有自己的数据库,而是将用户 的查询请求同时向多个搜索引擎递交,将返回的
结果进行重复排除、重新排序等处理后,作为结 果返回给用户。服务方式为面向网页的全文检索。 如:HOTBOT、搜星、WebCrawler、InfoMarket
搜索引擎的发展:
现代意义上的搜索引擎的祖先
1990年由蒙特利尔大学学生 Alan Emtage发明的Archie
1993年Matthew Gray开发 的World wide Web Wanderer ————被称为“蜘蛛” 程序
第一个用于监测互联网发展 规模的“机器人”程序
—以文件名查找文件的系统
国内的百度向搜狐和新浪提供全文网页搜索服务技术。
搜索引擎广义的含义:
搜索引擎是因特网上专门提供检索服务的一类网 站,是在网络信息资源中主动搜索信息(搜索网页上 的有意义的单词和简短的对特定内容的描述的词)并 将其自动标引的Web网站,其标引的内容储存在可供
检索的大型数据库中,并建立相应的索引和目录服务,
全文搜索引擎
目录索引
全文搜索引擎
由一个称为蜘蛛(Spider)的机器人程序以某种 策略自动地在互联网中搜集和发现信息,通过从互联 网上提取的各个网站的信息(以网页文字为主)而建 立的数据库中,再根据用户的查询检索与用户查询条 件匹配的相关记录,然后按一定的排列顺序将结果返 回给用户。
从搜索结果来源的角度再分:
Google搜索引擎语法规则:
1、逻辑关系语法是and、or、not。
1)空格默认为and,即:苹果 电脑=苹果and电脑.
2)但OR、NOT必须大写,小写会被忽略。 如:(苹果OR 联想NOT 方正) 电脑 2、词组或短语检索用“”可以精确匹配。 –J Clin Immunol, 检索结果30,800,000
第六章 网络信息资源检索
网络能带给我们什么?
学习、生活中所需的资料 1、考研、考博信息 2、出国留学的所有信息 3、火车时刻表、航班、万年历等 4、旅游信息等 …… 科研工作中所需的资料 1、查找相关领域的最新研究进展 2、查找科研成果的转化对象 3、查找原始文献的出处
网络信息资源检索
概述:
Google scholar初级检索界面
搜索结果
检索语法规则和表达式:
与Google基本相同,OR要大写.
• 1、主题词:
支持精确检索“”
• 2、著者:
author: NANPING XU • 3 、著者+主题词: • author: Nanping Xu membrane • author: Nanping Xu "microfiltration membranes " author:徐南平
常见的搜索引擎
1. Google (http://www.google.com)
Google是美国斯坦福大学27岁博士生佩基和26岁布林在1998 年创立,短短两年间,便赢得搜索速度最快和搜索结果最精确 的美誉,该网站每天的浏览人数高达4000万人次。 Google.com可检索的网页高达30亿多。
每个月Google属下的一万台计算机都要大海捞针似地对互联
网进行搜索,每秒钟搜索的网页数量高达1000页,然后再把它 们编成索引。
索引自1998年前开始积累,现在的条目数量已达到13亿多。
Google中文主页
特点:
–1)傻瓜式的。 –2)无所不能。 –3)全世界任何角落里的资料均能搜索到。 • 例子:学习、生活中所需资料 1、国民生产总值 2006 2、How to give the presentation in Conference? 3、上海浦东机场班车 4、关于轮椅上的博士生侯晶晶的资料 5、南京治疗肠癌的专家是谁? • 科研工作中所需资料 1、寻找科研成果的转化对象 2、实验所需仪器设备和原料的生产厂家 ——万分之一电子天平,高速搅拌机、碳纤维