搜索引擎的检索方法与技巧
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017/10/15
12
主要技术
• 一个搜索引擎由搜索器、索引器、检索器 和用户接口等四个部分组成。 • 搜索器
– 搜索器的功能是在互联网中漫游,发现和搜 集信息。它常常是一个计算机程序,日夜不 停地运行。它要尽可能多、尽可能快地搜集 各种类型的新信息,同时因为互联网上的信 息更新很快,所以还要定期更新已经搜集过 的旧信息,以避免死连接和无效连接。
搜索引擎的检索方法与技巧 以google和百度为例
吴爱民 图书馆信息部 2013年06月
2017/10/15 1
为什么使用搜索引擎
• 2012年8月1日,CNNIC发布了最新 的《2009年中国搜索引擎用户行为 研究报告》。报告中显示,截至 2012年8月底,中国搜索引擎用户规 模达到4.51亿人。
2017/10/15 25
中
文
网 站
2017/10/15
26
二、Google功能与特色
100亿个网页 支持多达132种语言,包括简体中文和繁体中文; 提供搜索引擎功能,没有花里胡哨的累赘; 速度极快,据说有8000多台服务器,200多条T3级 宽带; 专利网页级别技术PageRank能够提供高命中率的 搜索结果; 搜索结果摘录查询网页的部分具体内容,而不仅 仅是网站简介; 智能化的“手气不错”功能,提供可能最符合要 27
2017/10/15
Google常用工具
2017/10/15
28
三、网页搜索技巧
1、简单搜索
“+”或空格表示逻辑“与”操作(A、B同 时有) “-”表示逻辑“非”操作,减号前留一空 格
(A -B)
其它小技巧 ……… “ OR”表示逻辑“或”操作( A或B只要其 一) OR 要大写
2017/10/15 29
47
2017/10/15
48
4.2
简单运算
邮政区号
手机归属地
名词概念定义
2017/10/15
49
4.3
2017/10/15
50
2017/10/15
51
2017/10/15
52
输入检索词
2017/10/15
53
4.5
找什么
在哪儿
http://maps.google.com/maps
2017/10/15 54
2017/10/15
11
分类
– 3.元搜索引擎:这类搜索引擎没有自己的数 据,而是将用户的查询请求同时向多个搜索 引擎递交,将返回的结果进行重复排除、重 新排序等处理后,作为自己的结果返回给用 户。服务方式为面向网页的全文检索。这类 搜索引擎的优点是返回结果的信息量更大、 更全,缺点是不能够充分使用所使用搜索引 擎的功能,用户需要做更多的筛选。这类搜 索引擎的代表是WebCrawler、InfoMarket等。
通配符、大小写、句子 • • 不支持通配符,如“*”、“?” 英文字符大小不分
•
词组或句子作关键词须加引号
2017/10/15
30
搜索所有网页
2017/10/15
31
2017/10/15
32
2017/10/15
33
找到最相关的网页
2017/10/15
34
2017/10/15
35
搜索设置
2017/10/15
6
国外的应用状况
– 那些每周平均花5个小时以上时间上网的人,将其 上网时间的71%都花在了搜索引擎上; – 人机界面高手nielsen(google的设计者)研究表 明:
• • • • 略超过1/2的互联网用户属于search-dominant, 约1/5用户属于 link-dominant, 其它用户的搜索倾向属于混合行为型。 search- dominant在到达一个网站后直接就奔向搜索按钮, 他们对浏览网站不感兴趣,他们有明确的目的,倾wk.baidu.com于 以最快速度找到信息。 • 相反,link-dominant喜欢点击浏览一个网站,即使他们 想找特殊信息时也是这样,只有在他们用点击超链的方 法已经实在找不到了,才会想起搜索按钮。
2017/10/15
62
http://www.baidu.com
李彦宏
徐勇
2017/10/15
63
概况
• 百度,2000年1月创立于北京中关村,是全球 最大的中文搜索引擎。 2000年1月1日,公司 创始人李彦宏、徐勇携120万美元风险投资, 从美国硅谷回国,创建了百度公司。 • 2000年5月,百度首次为门户网站——硅谷动 力提供搜索技术服务,之后迅速占领中国搜 索引擎市场,成为最主要的搜索技术提供商。 • 2001年8月,发布Baidu.com搜索引擎Beta版, 从后台服务转向独立提供搜索服务,并且在 中国首创了竞价排名商业模式,2001年10月 22日正式发布Baidu搜索引擎。 • 2005年8月5日,百度在美国纳斯达克上市。
2017/10/15
2
中国搜索引擎用户规模和使用率
2017/10/15
3
搜索引擎的用户感受
2017/10/15
4
2017/10/15
5
搜索引擎的应用现状
• 从用户使用的角度,国外的调查发现:
– 网上搜索信息的人很少考虑如何找到他们所需要 的信息,因此搜索信息时象动物猎食般盲目; – 只有18%的用户表示总能在网上搜索到需要的信 息。68%的用户说他们对搜索引擎很失望; – 平均每个搜搜者在12分钟的徒劳搜索后就感到恼 火和受挫。 – 46%的人只会用同一个关键词搜啊搜啊,而且是 在同一个搜索引擎。
8
值得推荐的几个中文搜索引擎
• 全文搜索
– 衡量搜索引擎的指标:
• • • • 查全率 查准率 速度 哪个重要?
– Google:
http://www.google.com (需要出国访问权限)
• 新浪使用了它的全文搜索引擎服务 • 说明:这是2004年4月的情形,各大门户网站使用的搜索引擎服 务经常会变化,留意Powered by…
2017/10/15
10
搜索引擎分类
– 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的 机器人程序以某种策略自动地在互联网中搜集和发 现信息,由索引器为搜集到的信息建立索引,由检 索器根据用户的查询输入检索索引库,并将查询结 果返回给用户。服务方式是面向网页的全文检索服 务。该类搜索引擎的优点是信息量大、更新及时、 毋需人工干预,缺点是返回信息过多,有很多无关 信息,用户必须从结果中进行筛选。这类搜索引擎 的代表是:AltaVista、Northern Light、Excite、 Infoseek、Inktomi、FAST、Lycos、Google;国内代 表为:"天网"、悠游、OpenFind等。
2017/10/15
36
语言工具
2017/10/15
37
2、高级搜索
2017/10/15
38
高级菜单搜索 包含以下全部的字词 包含以下的完整字句 包含以下任何一个字词 不包括以下字词 搜索网页语言是 显示使用以下文件格式的结果(pdf,ps,ppt,doc,xls,rtf) 限定要显示的网页更新日期应于(过去3/6/12个月) 查询字词位于网页内任何地方 网页的标题 网页的内文 网页内的网址 在网页的链接内 搜索以下网站或网域 搜索类似以下网页的网页 搜索与该网页存在链接的网页 2017/10/15 + “ ” OR -
2017/10/15
18
2017/10/15
19
2017/10/15
20
2017/10/15
21
2017/10/15
22
全
球
英
文 网 站
2017/10/15
http://www.google.com/
23
Google英文网站服务项目
2017/10/15
24
中
文
网 站
http://www.google.com.hk
2017/10/15
55
2017/10/15
56
2017/10/15
57
4.6
2017/10/15
58
2017/10/15
59
免费浏 览图书 内容目 次,交 费后可 阅读全 文,直 接链接 网上书 店
2017/10/15
60
2017/10/15
61
百度 http://www.baidu.com
3.搜索实例
1)何谓“冬虫夏草” 简单界面 直接输入 点击手气 不错
2017/10/15
40
3.搜索实例
2)“松香毛有毒” 简单界面 直接输入 点击手气 不错
2017/10/15
41
3.搜索实例
3) 查 找 元 数 据 规 范 文 档 资 料
2017/10/15
42
3.搜索实例
4) 查 找 虚 拟 参 考 咨 询 课 件
简单命令搜索
可以在使用偏好中设置 “firewall” filtype:pdf “firewall” date:2005/05/28 直接输入关键词 intitle:或allintitle: allintext: allinurl: allinanchor: "firewall" “Firewall” site:google.com related:www.sina.com.cn/index.shtml link:www.newhua.com 39
2017/10/15
15
Google爬虫
搜索引擎示意
网页
Google工作电脑
Google服务器
Google存储系统
2017/10/15
16
提
1、Google简介
纲
2、Goolge功能与特色 3、网页搜索技巧 4、其它特色服务与功能略解
2017/10/15
17
一、Google简介
Google是一个搜索引擎,由两个斯坦福大 学博士生Larry Page与Sergey Brin于1998年 9月发明,Google Inc. 于1999年创立。 2000年7月份,Google替代Inktomi成为 Yahoo公司的搜索引擎,同年9月份, Google成为中国网易公司的搜索引擎。98 年至今,Google已经获得30多项业界大奖。
2017/10/15
7
什么是搜索引擎
•
2017/10/15
搜索引擎其实也是一个网站,只不 过该网站专门为你提供信息“检索”服 务 搜索引擎是指根据一定的策略、运用 特定的计算机程序从互联网上搜集信息, 在对信息进行组织和处理后,为用户提 供检索服务,将用户检索相关的信息展 示给用户的系统。 搜索引擎包括全文索引、目录索引、元 搜索引擎、垂直搜索引擎、集合式搜索 引擎、门户搜索引擎与免费链接列表等。
2017/10/15
13
索引器
• 2.索引器
– 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于表示文档以及生成文档库的索引表。 – 索引项有客观索引项和内容索引项两种:客观项与文档的语意内 容无关,如作者名、URL、更新时间、编码、长度、链接流行度 (Link Popularity)等等;内容索引项是用来反映文档内容的,如 关键词及其权重、短语、单字等等。内容索引项可以分为单索引 项和多索引项(或称短语索引项)两种。单索引项对于英文来讲 是英语单词,比较容易提取,因为单词之间有天然的分隔符(空 格);对于中文等连续书写的语言,必须进行词语的切分
– 百度:
http://www.baidu.com
2017/10/15
9
搜索引擎的分类及原理
• 按照信息搜集方法和服务提供方式的不同, 搜索引擎系统可以分为三大类:
– 1.目录式搜索引擎:以人工方式或半自动方 式搜集信息,由编辑员查看信息之后,人工 形成信息摘要,并将信息置于事先确定的分 类框架中。信息大多面向网站,提供目录浏 览服务和直接检索服务。该类搜索引擎因为 加入了人的智能,所以信息准确、导航质量 高,缺点是需要人工介入、维护量大、信息 量少、信息更新不及时。这类搜索引擎的代 表是:Yahoo、LookSmart、Open Directory、 Go Guide等。
2017/10/15
14
检索器和用户接口
• 3.检索器
– 检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价,对将要输出的结果进行排 序,并实现某种用户相关性反馈机制。 – 检索器常用的信息检索模型有集合理论模型、代数模型、 概率模型和混合模型四种。
• 4.用户接口
– 用户接口的作用是输入用户查询、显示查询结果、提供用 户相关性反馈机制。主要的目的是方便用户使用搜索引擎, 高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充 分适应人类的思维习惯。
2017/10/15
43
四、其它主要特色服务与功能略解
网页搜索特色
BETA
其它:分类目录、新闻、论坛、专家咨询…..略
2017/10/15 44
4.1
http://scholar.google.com/schhp?hl=zh-CN
2017/10/15 45
2017/10/15
46
2017/10/15