第3章 检索原理和搜索引擎 2学时 《农业传播技术与应用》
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
班
2020/10/17
32
Google 简介:
• Sergey Brin,创始人之一,主管技术的总裁。出 生于莫斯科,是马里兰大学校本部的荣誉毕业生 ,拥有数学专业和计算机专业的理学士学位。已 取得斯坦福大学计算机专业硕士学位,目前暂时 从博士班休学。29 岁的 Sergey 是美国国家科学 基金会的奖学金得主。他在斯坦福 遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年 共同创立了 Google。
也叫传统信息检索,是利用各种印刷型检索工具来查 找文献的一种方法。 计算机检索(Camputer-based Retrieval)
也叫现代信息检索,是指利用计算机和网络来处理和 查找文献信息的检索方式。
2020/10/17
10
7、主要计算机检索系统类型
• 检索系统由一定的检索设备(计算机)和经过加
2020/10/17
31
Google 简介:
• Larry Page,创始人之一,主管产品
• 的总裁。密西根安娜堡大学的荣誉毕
• 业生,拥有理工科学士学位。他还因
• 其出色的领导才能获得过多项荣誉,以奖励他对工学 院
• 的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉学 会
• 的会长。目前他暂时从斯坦福大学计算机研究所博士
2020/10/17
19
第二代搜索:目录式搜索 Yahoo!
• 1994年4月,斯坦福大学的两名博士生,美籍 华人杨致远和David Filo共同创办了Yahoo)。随着 访问量和收录链接数的增长,Yahoo目录开始支持 简单的数据库搜索。因为Yahoo!的数据是手工输入 的,所以不能真正被归为搜索引擎,事实上只是一 个可搜索的目录。Yahoo!中收录的网站,因为都附 有简介信息,所以搜索效率明显提高。Yahoo!---几 乎成为20世纪90年代的因特网的代名词。
2020/10/17
49
Hale Waihona Puke Baidu
• 3.如果上面两个方法都没有查到你要的文 献,那你就直接写邮件向作者要。一般情况下 作者都喜欢把自己的文献给别人,因为他把这 些文献给别人,也相当于在传播他自己的学术 思想。一般讲英语的国家的作者给文章的机率 会大,一般你要就会给,其它不讲英语的国家 ,如德国,法国,日本等国家的作者可能不会 给。出于礼貌,如果你要的文献作者E-mail给你 了,千万别忘记回信致谢.
工整理并存储在相应载体上的信息集合及其他设备 共同构成的具有存储和检索功能的信息服务系统。 • 联机检索(online search) • 脱机检索(offline search) • 光盘检索(CD search) • 网络检索(Internet/Web search) • 全球数字图书馆系统(digital global system)
2020/10/17
20
第三代搜索:网页搜索
2020/10/17
它们都属于网页自动搜索 引擎,有的还带有智能分 析或FTP、P2P搜索功能
21
5、搜索引擎的工作原理
2020/10/17
22
2020/10/17
23
• 搜索引擎并不真正搜索互联网,它搜索的实际 上是预先整理好的网页索引数据库。
• 搜索引擎至少由三部分组成: • 爬行器(即机器人、蜘蛛等搜索程序) • 索引生成器(即网页索引数据库) • 查询检索器(即用户检索界面) • 随着搜索引擎的发展,许多搜索引擎在此基础
2020/10/17
40
2020/10/17
41
3、其它中文搜索引擎
• 新浪:http://www.sina.com/ • 搜狐:http://www.sohu.com/ • 网易:http://www.yeah.net/ • 雅虎中国:http://cn.yahoo.com/ • 一搜: http://www.yahoo-cool.com/ • 搜狗:http://www.sogou.com/(智能搜索) • 网格之窗:www.chinabuy.cn/net/default.asp(元
有可能下到你想要的文献的全文了。甚至可以下到 那个作者相近的内容的其它文章。
2020/10/17
48
• 如果文献是由多个作者写的,第一作者查
不到个人主页,就按上面的方法查第二作者, 以此类推。用文章的title来搜索,是因为在国外 有的网站上,例如有的国外大学的图书馆可能会 把本校一年或近几年的学术成果的Publication 的PDF全文献挂在网上,或者在这个大学的ftp上 也有可能会有这样类似的全文.这样就很可能会 免费下到你想要的全文了.
• 地址: http://www.baidu.com/
2020/10/17
37
http://www.baidu.com
2020/10/17
38
• 一、概况
• 百度(Baidu.com,Inc)于1999年底
• 成立于美国硅谷,2000年,落户中国。
李彦宏
• 2001年8月,发布Baidu.com搜索引擎Beta版 ,从后台服务转向独立提供搜索服务,并且在中国 首创了竞价排名商业模式。
7
4、信息检索原理
信息
信
的选
息
择与
源
收集
信
用
息
户
需
求
信息 特征
数据库
标 检索工具 检
识
索 结
语
果
检索
言
匹配
提问
检索
提问式
2020/10/17
8
5、信息检索的要领
•What?
• Where?
•
How?
2020/10/17
9
6、信息检索类型
₪ 依信息存储和检索的方式 手工检索(Manual Retrieval)
2020/10/17
46
用搜索引擎查英文一次文献
• 有时会碰到查不到的英文文献,而这些文献的数据 库我们所在研究所或大学又没有买,怎么办?可以通 过以下几个途径来得到文献。 1.首先在Google学术搜索里进行搜索,里面一般会 搜出来你要找的文献,在Google学术搜索里通常情况 会出现“每组几个”等字样,然后进入后,分别点击, 里面的其中一个就有可能会下到全文,当然这只是碰 运气,不是万能的,因为我常常碰到这种情况,所以 也算是得到全文文献的一条途径吧。可以试一下。
2020/10/17
1
2020/10/17
2
本章内容
31 网络信息检索原理 2 搜索引擎原理和概况 3 网页搜索引擎简介 34 P2P搜索引擎使用方法
5 门户网站和看不见的网站
2020/10/17
3
2、计算机检索的奥妙:关键词匹配
• 计算机既然如此“无能”,连三岁小孩的智能 都不具有,那么为什么人们要在网上查找信息, 却总要通过计算机帮忙呢?计算机检索的奥妙在 哪里呢?
2020/10/17
16
4、搜索引擎的发展历史
2020/10/17
17
搜索引擎发展历史
Archie 1990 Gopher 1993
Yahoo! 1994
第二代搜索 目录搜索
元搜索 引擎 1995
第三代搜索 网页搜索
Google 1996 Baidu 1999 ……
2020/10/17
18
搜索引擎的起源——Archie
2020/10/17
50
向老外作者要文献的一个常用的模板
• Dear Professor ××× I am in ××× Institute of ×××, Chinese Academy of Sciences. I am writing to request your assistance. I search one of your papers:
• 2001年10月22日正式发布Baidu搜索引擎。
• 2005年8月5日,百度在美国纳斯达克上市。
2020/10/17
39
• “百度”二字取自辛弃疾的《青玉案》 “众里寻她千百度” 。
• 现在百度已成为世界上最大的中文搜索 引擎。用户能够访问超过6亿的中文网页, 5000多万张图片、500多万首中文mp3及各 种格式的音乐。
2020/10/17
14
2、网络信息资源的特点
• 信息量大、传播广泛
• 信息类型多样、内容丰富
• 信息时效性强、变化频繁
• 信息分散无序、但关联程度高
• 信息缺乏管理、良莠不齐
• 所以在网络信息检索中,我们常常要借 助于搜索引擎来帮助我们“大海里捞针”
。
2020/10/17
15
3、搜索引擎的概念
•
Google 目前被公认为万维网上最大的搜索引
擎,它提供了简单易用的免费服务,使用户能够
访问一个包含超过 80 亿个网址的索引。
•
“Google”来自于数学名词“Googol”,
Googol表示一个 1 后面跟着 100 个零。Google
Int.使用这一术语体现了公司整合网上海量信息的
远大目标。地址: http://www.google.com/
• 所有搜索引擎的祖先,是1990年由蒙特利尔的
McGill University三名学生发明的Archie(Archie FAQ) 。Alan Emtage等想到了开发一个可以用文件名查找 文件的系统,于是便有了Archie。Archie是第一个自 动索引互联网上匿名FTP网站文件的程序,但它还不 是真正的搜索引擎。Archie是一个可搜索的FTP文件 名列表,用户必须输入精确的文件名搜索,然后 Archie会告诉用户哪一个FTP地址可以下载该文件。
• 原来,计算机实现检索的奥妙,就在于它能把 你输入的检索词,与它后台数据库中存储的文件 关键词进行比对,如果能够匹配,就认为这条信 息是你需要的,立刻输出给你。
2020/10/17
6
原始文献 加工整理 数据库
“爱因斯坦论文”
检索 提问 检索
存储
“爱因斯坦”
“论文”
2020/10/17
输出
“爱因斯坦” “论文”
2020/10/17
47
• 2.如果上面的方法找不到全文,就把文章作者 的名字或者文章的title在Google 里搜索,用作者 的名字来搜索,是因为我发现很多国外作者都喜欢 把文章的全文(PDF)直接挂在网上,一般情况下 他们会把自己的文章挂在自己的个人主页(home page)上,这样可能也是为了让别的研究者更加 了解自己的学术领域,顺便推销自己吧。这样你就
• 目标信息一定含有的关键字:用双引号连起来 • 目标信息不能含有的关键字:用“ - ”去掉 • 目标信息可能含有的关键字:用“OR”或空格连
起来
2020/10/17
45
关于搜索的一些思想
– 不是互联网上所有的信息都能被搜索引擎搜集 。
– 动手前多动脑。 – 不要盲目信任搜索得到的信息。 – 不要期望一次搜索解决问题。
2
以FTP和 P2P资源搜 索为主的搜 索引擎
2020/10/17
百度、 Google、 Yahoo等
迅雷、天网 Maze等
29
第一类搜索引擎: 网页搜索引擎
以谷歌和百度为代表
2020/10/17
30
1、Google搜索引擎
•
Google搜索引擎诞生于斯坦福大学的一个学
生宿舍里,然后迅速传播到全球的信息搜索者。
2020/10/17
33
注意用“ ”与*功能
2020/10/17
34
2020/10/17
35
2020/10/17
谷歌其他功能
36
2、百度(baidu)
• 全球最大中文搜索引擎。提供网页快照 、网页预览/预览全部网页、相关搜索词、 错别字纠正提示、新闻搜索、Flash搜索、 信息快递搜索、百度搜霸、搜索援助中心。
上增加特色功能。如百度增加了监控程序。
2020/10/17
24
搜索引擎的工作原理就像超市
因 特 网
爬行器 (蜘蛛)
2020/10/17
索引生成器 (网页数据库)
查询检索器 (用户查询)
25
2020/10/17
26
2020/10/17
27
2020/10/17
28
两类搜索引擎的代表
1
以网页搜 索为主的 搜索引擎
2020/10/17
11
8、“关键词原则”是信息检索的根本原则
四次文献
三大系列中文网站
两类搜索引擎
Keyword原则
2020/10/17
12
2020/10/17
13
1、网络信息资源种类
1. WWW信息资源:web网页 2. FTP信息资源:远程计算机上的文件夹 3. Blog信息资源:博客、播客等等信息资源 4. Telenet信息资源:直接调用远程主机 5. BBS 、新闻组信息资源:相当于论坛信息 6. P2P信息资源:私人计算机上的信息资源 7. 数据库和收费网站:如三大库三大馆
搜索)
2020/10/17
42
根据搜索引擎使用个数经加权调整后的 市场份额——北京
*雅虎搜索 6.1%
新浪 其他搜索引擎
搜狐 3.7%
3.5%
4.3%
百度 60.0%
*Google 22.4%
2020/10/17
© 北京正望咨询有限公司43
百度 VS Google
2020/10/17
44
重要提示