第4讲:信息检索搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
靠分类目录检索,用户通过逐级层层点击 浏览类目,导找自己所需的信息。
用户必须清楚信息所属的类别,找到的是 相关的网站。
例如:Yahoo、搜狐、新浪、网易等。
元搜索引擎
1995年,一种新的搜索引擎形式出现了:元搜索引擎 (A Meta Search Engine Roundup)。用户只需提 交一次搜索请求,由元搜索引擎负责转换处理后提 交给多个预先选定的独立搜索引擎,并将从各独立 搜索引擎返回的所有查询结果,集中起来处理后再 返回给用户。
常用查询类型包 括:.xls、.ppt、.doc, .swf、.pdf文档等共13种类 型。
检索结果
教育技术 fileype:ppt
对搜索的网站进行限制 “site:”表示检索结果局限于某个具体网 站或某个域名。如:
搜索中国教育科研网站(edu.cn)上所有 包含“教育家”的网页,检索提问为:
“教育家 site:edu.cn ”
4、通过公司性质找到公司名称及网站 http://www.91go.cn/Company/Index.html
1 搜索引擎原理和概况 32 常用搜索引擎 3 搜索引擎使用十大经验
3.1搜索引擎原理和概况
1、什么是搜索引擎?
定义:提供信息检索服务的工具平台,它使用某
些程序把因特网上的网站信息进行收集和归类。
成立于美国硅谷,2000年,落户中国。
李彦宏
2001年8月,发布Baidu.com搜索引擎Beta版, 从后台服务转向独立提供搜索服务,并且在中国首 创了竞价排名商业模式。
2001年10月22日正式发布Baidu搜索引擎。
2005年8月5日,百度在美国纳斯达克上市。
Yahoo! 1994
第一代搜索 目录搜索
元搜索 引擎 1995
第二代搜索 网页搜索
Google 1996 Baidu 1999 ……
3、搜索引擎的工作原理
3.2常用搜索引擎
3.2.1、搜索引擎的类型
目录类搜索引擎 元搜索引擎 ……
全文搜索引擎
目录搜索引擎
具有搜索功能,严格意义上不是真正的搜 索引擎,是按目录分类的网站链接列表 。
经过几个月的聊天,J发现自己已经深深喜欢上了R.见R一面的想法不 断冲击着他.不过R并不同意见面: J:你上班的环境好吗? R:挺好的,在一个商厦里,而且旁边就是我们这儿最大的广场,交通什么 的都很方便. J:哦 ,那我能来见你一面吗? R:为什么要见面呢?网上不是挺好的吗?
J:…….
其他限制 “intitle:” 如:intitle:george walker bush “link:” 如:link:www.uestc.edu.cn
等等
检索结果
Intitle:”george walker bush”
能从Google服 务器里直接取出 缓存的网页
2.3 Google的学术搜索
语法词
说明
举例
related cache
info
用来搜索结构内容方面相 related:www.lib.dlut.edu.cn
似的网页
用来搜索GOOGLE服务 器上某页面的缓存,这个 功能同“网页快照”,通 常用于查找某些已经被删 除的死链接网页
Cache:http://www.jiuji ang.gov.cn/ziliaoku/jiu bakanghong/
第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引 擎概念上好听,但搜索效果始终不理想,所以没有 哪个元搜索引擎有过强势地位。
元搜索引擎通常是引用比较知名的搜索引擎,查全 率很高,但查准率低。
杨家燕
书籍的力量!
李亚鹏
32万 7 万7500
臭名也是名啊~~
密码
363 万 482 万 这是部分用户常更改密码所致
搜索引擎应用与经典搜索案例
35
检索词1 战争 打假 求婚 鲸鱼是鱼
美女 警察 面包
得到
检索词2 和平 制假 结婚
鲸鱼不是鱼 女人 小偷 爱情
失去
检索词1页面 数
132 万 35万5000
11万
博士班休学,其指导教授是 Terry Winograd 博士。 Google 就是由Page在斯坦福大学发起的研究项目转 变而来的。
Google 简介:
SergSeyeBrgriney Brin,创始人之一,主管技术的总裁。出生 于莫斯科,是马里兰大学校本部的荣誉毕业生,拥 有数学专业和计算机专业的理学士学位。已取得斯 坦福大学计算机专业硕士学位,目前暂时从博士班 休学。29 岁的 Sergey 是美国国家科学基金会的奖 学金得主。他在斯坦福 遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年 共同创立了 Google。
.Google语法简介
提供可能最符 合要求的网站
1 一般功能:
逻辑运算: • 逻辑“与”:空格即可 • 逻辑“或”:大写“OR”表示 • 逻辑“非”:用“-”表示,“-”前必须有空格
词语检索 双引号“”,常用于专业词语的检索
大小写 Google不区分大小写
2 特殊功能
查询某一类文档: “关键词 filetype:文档类型” 如:“教育技术 filetype:ppt”
金庸 qq 开始 书 赵薇 用户名
GOOGLE告诉我们世界是怎样的……
(趣味网络计量学)
检索词2 检索词1页 检索词2页
面数
面数
结论
琼瑶
42万 12万3000
金庸占压倒性优势!
msn
480 万 523 万 还差一点点,民族软件加油!
结束
969 万 284 万 有多少开始没有结束???
电影
946 万 305 万
Google 简介:
Larry Page,创始人之一,主管产品 的总裁。密西根安娜堡大学的荣誉毕
Larry Page
业生,拥有理工科学士学位。他还因
其出色的领导才能获得过多项荣誉,以奖励他对工学 院的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉 学会的会长。目前他暂时从斯坦福大学计算机研究所
237 万
要爱情还是面包? google给了我们答案
爱情万岁!
262 万 富有哲理的答案……
搜索引擎应用与经典搜索案例
36
Google的特色服务
1. Google Picasa 图片编辑处理工具 2. 桌面搜索程序 3. Google Earth(http://earth.google.com) 4. Gmail (免费邮箱) 5. Googlepages(http://pages.google.com) 6. Google Calendar(http://www.google.com/calendar/) 7. Google Scholar (http://scholar.google.com) 8. Google Finance (http://finance.google.com) 9. Google Print (http://print.google.com) 10. 本地搜索(http://bendi.google.com/clochp) 11. 人肉搜索
L.C. Spears ‘Practicing Servant Leadership’, Leader to Leader, 2004,34, pages 7-11.
L.C.Spears 2004
杨家燕
搜索引擎应用与经典搜索案例
32
GOOGLE高级检索常用语法
语法词
说明
举例
site Link Inurl
用来显示与某链接相关的 info:www.sina.com.cn
一系列搜索,提供cache、 link、relaቤተ መጻሕፍቲ ባይዱed和完全包含 该链接的网页的功能
结果:有关ww.sina.com.cn 的网页信息
define: 定义,查找概念,维基百科 define:信息
杨家燕
搜索引擎应用与经典搜索案例
34
检索词1
搜索引擎其实就是一个网站,是专门提供信息“检 索”服务的。
一般是利用其内部的一个叫SPIDE(蜘蛛)的程序, 自动提取网站的信息和网址加入自己的数据库,供 用户查询。
搜索引擎是人们获取网络信息最常用的工具。
2、搜索引擎的发展历史
搜索引擎发展历史
Archie 1990 Gopher 1993
Allinurl
结果局限在某网站或某域名 联接网站页面
吸星大法 site:edu.cn Site:cn 红旗
Link:www.sina.com.cn
网页链接中包含查询第一个关 键字,后面的关键字出现在联 接中或文档中
网页链接中包含所有查询关键 字
Inurl:security web inurl:midi 沧海一声笑 inurl:pdf ecommerce
2.3.1 Google Scholar简介 • 定位:专门面向学术资源的免费搜索工 具
• 推出时间:2004年11月 • 网址:http://scholar.google.com
• 搜索结果:论文、图书、预印本、摘要、技 术报告等。
• 信息来源:合作伙伴(ACM、IEEE、Nature、 OCLC等);互联网
搜索引擎应用与经典搜索案例
14
全文搜索引擎
名副其实的搜索引擎 按关键词检索 当用户以关键词查找信息时,搜索引擎会
在数据库中进行搜寻,如果找到与用户要 求内容相符的网站,便采用特殊的算法计 算出各网页的相关度及排名等级,然后根 据关联度高低,按顺序将这些网页链接返 回给用户。 例如:Google、百度等。
2.3.2 Google学术搜索(中文)简介
2006年1月11日,Google公司宣布将 (Google Scholar)扩展至中文学术文献领域, 推出面向中文的Google学术搜索服务。
搜索结果:论文、图书、预印本、摘要、 技术报告等。
信息来源:合作伙伴(万方、维普等); 互联网
Google Scholar应用示例:
Allinurl:pdf +cgi
intitle
在网页的标题中查询
intitle:藤原纪香 电影
Allintitle 杨家f燕iletype
在网页的标题中查询
allintitle:古龙 金庸
限定所查搜文索引献擎类应型用与经典搜索案例 filetype:ppt 信息检索33
GOOGLE高级检索罕用语法
第四讲:搜索引擎
成功=智商+情商+搜商
《搜商:人类的第三种能力》
搜网(sowang)总裁 陈沛 著 清华大学出版社 2006-11
搜索引擎应用与经典搜索案例
2
案例一-寻找网友
两个网友的谈话:
在某聊天室里,帅哥J和美女R,两人相谈甚欢…… J:你是做什么工作的啊?可以告诉我吗? R:我在一个出国服务公司做翻译呢。……..
J太想见到R了,但他甚至连她在什么地方都还不知道。这时,J注 意到这个聊天室可以看到网友的IP地址,于是他查到R的IP是 61.130.1.234
亲爱的朋友,你能带J找到R吗?
解决方法
1、查找R的IP地址归属地
2,找到当地最大的广场 3、通过电子地图查找广场位置,并查看四
周确定商厦名称
3、百度(baidu)
全球最大中文搜索引擎。提供网页快 照、网页预览/预览全部网页、相关搜索 词、错别字纠正提示、新闻搜索、Flash 搜索、信息快递搜索、百度搜霸、搜索援 助中心。
地址: http://www.baidu.com/
一、概况
百度(Baidu.com,Inc)于1999年底
1 万5600 1202万 5000 326 万
23万8000
824 万
检索词1页面 数
结论
121 万 愿上帝保佑我们……
7 万1000
恩~~恩~~重拳出 击!!!
76万6000 浪漫没了麻烦省了效率 高了。
9100
狂汗…………
633 万6000 哈哈这个世界美女比女 人还多
29万
十个警察抓一个小偷都 抓不完。
Google搜索引擎
Google搜索引擎诞生于斯坦福大学的一个学生 宿舍里,然后迅速传播到全球的信息搜索者。
Google 目前被公认为万维网上最大的搜索引擎, 它提供了简单易用的免费服务,使用户能够访问一 个包含超过 80 亿个网址的索引。
“Google”来自于数学名词“Googol”, Googol 表示一个 1 后面跟着 100 个零。Google Int.使用这 一术语体现了公司整合网上海量信息的远大目标。
用户必须清楚信息所属的类别,找到的是 相关的网站。
例如:Yahoo、搜狐、新浪、网易等。
元搜索引擎
1995年,一种新的搜索引擎形式出现了:元搜索引擎 (A Meta Search Engine Roundup)。用户只需提 交一次搜索请求,由元搜索引擎负责转换处理后提 交给多个预先选定的独立搜索引擎,并将从各独立 搜索引擎返回的所有查询结果,集中起来处理后再 返回给用户。
常用查询类型包 括:.xls、.ppt、.doc, .swf、.pdf文档等共13种类 型。
检索结果
教育技术 fileype:ppt
对搜索的网站进行限制 “site:”表示检索结果局限于某个具体网 站或某个域名。如:
搜索中国教育科研网站(edu.cn)上所有 包含“教育家”的网页,检索提问为:
“教育家 site:edu.cn ”
4、通过公司性质找到公司名称及网站 http://www.91go.cn/Company/Index.html
1 搜索引擎原理和概况 32 常用搜索引擎 3 搜索引擎使用十大经验
3.1搜索引擎原理和概况
1、什么是搜索引擎?
定义:提供信息检索服务的工具平台,它使用某
些程序把因特网上的网站信息进行收集和归类。
成立于美国硅谷,2000年,落户中国。
李彦宏
2001年8月,发布Baidu.com搜索引擎Beta版, 从后台服务转向独立提供搜索服务,并且在中国首 创了竞价排名商业模式。
2001年10月22日正式发布Baidu搜索引擎。
2005年8月5日,百度在美国纳斯达克上市。
Yahoo! 1994
第一代搜索 目录搜索
元搜索 引擎 1995
第二代搜索 网页搜索
Google 1996 Baidu 1999 ……
3、搜索引擎的工作原理
3.2常用搜索引擎
3.2.1、搜索引擎的类型
目录类搜索引擎 元搜索引擎 ……
全文搜索引擎
目录搜索引擎
具有搜索功能,严格意义上不是真正的搜 索引擎,是按目录分类的网站链接列表 。
经过几个月的聊天,J发现自己已经深深喜欢上了R.见R一面的想法不 断冲击着他.不过R并不同意见面: J:你上班的环境好吗? R:挺好的,在一个商厦里,而且旁边就是我们这儿最大的广场,交通什么 的都很方便. J:哦 ,那我能来见你一面吗? R:为什么要见面呢?网上不是挺好的吗?
J:…….
其他限制 “intitle:” 如:intitle:george walker bush “link:” 如:link:www.uestc.edu.cn
等等
检索结果
Intitle:”george walker bush”
能从Google服 务器里直接取出 缓存的网页
2.3 Google的学术搜索
语法词
说明
举例
related cache
info
用来搜索结构内容方面相 related:www.lib.dlut.edu.cn
似的网页
用来搜索GOOGLE服务 器上某页面的缓存,这个 功能同“网页快照”,通 常用于查找某些已经被删 除的死链接网页
Cache:http://www.jiuji ang.gov.cn/ziliaoku/jiu bakanghong/
第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引 擎概念上好听,但搜索效果始终不理想,所以没有 哪个元搜索引擎有过强势地位。
元搜索引擎通常是引用比较知名的搜索引擎,查全 率很高,但查准率低。
杨家燕
书籍的力量!
李亚鹏
32万 7 万7500
臭名也是名啊~~
密码
363 万 482 万 这是部分用户常更改密码所致
搜索引擎应用与经典搜索案例
35
检索词1 战争 打假 求婚 鲸鱼是鱼
美女 警察 面包
得到
检索词2 和平 制假 结婚
鲸鱼不是鱼 女人 小偷 爱情
失去
检索词1页面 数
132 万 35万5000
11万
博士班休学,其指导教授是 Terry Winograd 博士。 Google 就是由Page在斯坦福大学发起的研究项目转 变而来的。
Google 简介:
SergSeyeBrgriney Brin,创始人之一,主管技术的总裁。出生 于莫斯科,是马里兰大学校本部的荣誉毕业生,拥 有数学专业和计算机专业的理学士学位。已取得斯 坦福大学计算机专业硕士学位,目前暂时从博士班 休学。29 岁的 Sergey 是美国国家科学基金会的奖 学金得主。他在斯坦福 遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年 共同创立了 Google。
.Google语法简介
提供可能最符 合要求的网站
1 一般功能:
逻辑运算: • 逻辑“与”:空格即可 • 逻辑“或”:大写“OR”表示 • 逻辑“非”:用“-”表示,“-”前必须有空格
词语检索 双引号“”,常用于专业词语的检索
大小写 Google不区分大小写
2 特殊功能
查询某一类文档: “关键词 filetype:文档类型” 如:“教育技术 filetype:ppt”
金庸 qq 开始 书 赵薇 用户名
GOOGLE告诉我们世界是怎样的……
(趣味网络计量学)
检索词2 检索词1页 检索词2页
面数
面数
结论
琼瑶
42万 12万3000
金庸占压倒性优势!
msn
480 万 523 万 还差一点点,民族软件加油!
结束
969 万 284 万 有多少开始没有结束???
电影
946 万 305 万
Google 简介:
Larry Page,创始人之一,主管产品 的总裁。密西根安娜堡大学的荣誉毕
Larry Page
业生,拥有理工科学士学位。他还因
其出色的领导才能获得过多项荣誉,以奖励他对工学 院的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉 学会的会长。目前他暂时从斯坦福大学计算机研究所
237 万
要爱情还是面包? google给了我们答案
爱情万岁!
262 万 富有哲理的答案……
搜索引擎应用与经典搜索案例
36
Google的特色服务
1. Google Picasa 图片编辑处理工具 2. 桌面搜索程序 3. Google Earth(http://earth.google.com) 4. Gmail (免费邮箱) 5. Googlepages(http://pages.google.com) 6. Google Calendar(http://www.google.com/calendar/) 7. Google Scholar (http://scholar.google.com) 8. Google Finance (http://finance.google.com) 9. Google Print (http://print.google.com) 10. 本地搜索(http://bendi.google.com/clochp) 11. 人肉搜索
L.C. Spears ‘Practicing Servant Leadership’, Leader to Leader, 2004,34, pages 7-11.
L.C.Spears 2004
杨家燕
搜索引擎应用与经典搜索案例
32
GOOGLE高级检索常用语法
语法词
说明
举例
site Link Inurl
用来显示与某链接相关的 info:www.sina.com.cn
一系列搜索,提供cache、 link、relaቤተ መጻሕፍቲ ባይዱed和完全包含 该链接的网页的功能
结果:有关ww.sina.com.cn 的网页信息
define: 定义,查找概念,维基百科 define:信息
杨家燕
搜索引擎应用与经典搜索案例
34
检索词1
搜索引擎其实就是一个网站,是专门提供信息“检 索”服务的。
一般是利用其内部的一个叫SPIDE(蜘蛛)的程序, 自动提取网站的信息和网址加入自己的数据库,供 用户查询。
搜索引擎是人们获取网络信息最常用的工具。
2、搜索引擎的发展历史
搜索引擎发展历史
Archie 1990 Gopher 1993
Allinurl
结果局限在某网站或某域名 联接网站页面
吸星大法 site:edu.cn Site:cn 红旗
Link:www.sina.com.cn
网页链接中包含查询第一个关 键字,后面的关键字出现在联 接中或文档中
网页链接中包含所有查询关键 字
Inurl:security web inurl:midi 沧海一声笑 inurl:pdf ecommerce
2.3.1 Google Scholar简介 • 定位:专门面向学术资源的免费搜索工 具
• 推出时间:2004年11月 • 网址:http://scholar.google.com
• 搜索结果:论文、图书、预印本、摘要、技 术报告等。
• 信息来源:合作伙伴(ACM、IEEE、Nature、 OCLC等);互联网
搜索引擎应用与经典搜索案例
14
全文搜索引擎
名副其实的搜索引擎 按关键词检索 当用户以关键词查找信息时,搜索引擎会
在数据库中进行搜寻,如果找到与用户要 求内容相符的网站,便采用特殊的算法计 算出各网页的相关度及排名等级,然后根 据关联度高低,按顺序将这些网页链接返 回给用户。 例如:Google、百度等。
2.3.2 Google学术搜索(中文)简介
2006年1月11日,Google公司宣布将 (Google Scholar)扩展至中文学术文献领域, 推出面向中文的Google学术搜索服务。
搜索结果:论文、图书、预印本、摘要、 技术报告等。
信息来源:合作伙伴(万方、维普等); 互联网
Google Scholar应用示例:
Allinurl:pdf +cgi
intitle
在网页的标题中查询
intitle:藤原纪香 电影
Allintitle 杨家f燕iletype
在网页的标题中查询
allintitle:古龙 金庸
限定所查搜文索引献擎类应型用与经典搜索案例 filetype:ppt 信息检索33
GOOGLE高级检索罕用语法
第四讲:搜索引擎
成功=智商+情商+搜商
《搜商:人类的第三种能力》
搜网(sowang)总裁 陈沛 著 清华大学出版社 2006-11
搜索引擎应用与经典搜索案例
2
案例一-寻找网友
两个网友的谈话:
在某聊天室里,帅哥J和美女R,两人相谈甚欢…… J:你是做什么工作的啊?可以告诉我吗? R:我在一个出国服务公司做翻译呢。……..
J太想见到R了,但他甚至连她在什么地方都还不知道。这时,J注 意到这个聊天室可以看到网友的IP地址,于是他查到R的IP是 61.130.1.234
亲爱的朋友,你能带J找到R吗?
解决方法
1、查找R的IP地址归属地
2,找到当地最大的广场 3、通过电子地图查找广场位置,并查看四
周确定商厦名称
3、百度(baidu)
全球最大中文搜索引擎。提供网页快 照、网页预览/预览全部网页、相关搜索 词、错别字纠正提示、新闻搜索、Flash 搜索、信息快递搜索、百度搜霸、搜索援 助中心。
地址: http://www.baidu.com/
一、概况
百度(Baidu.com,Inc)于1999年底
1 万5600 1202万 5000 326 万
23万8000
824 万
检索词1页面 数
结论
121 万 愿上帝保佑我们……
7 万1000
恩~~恩~~重拳出 击!!!
76万6000 浪漫没了麻烦省了效率 高了。
9100
狂汗…………
633 万6000 哈哈这个世界美女比女 人还多
29万
十个警察抓一个小偷都 抓不完。
Google搜索引擎
Google搜索引擎诞生于斯坦福大学的一个学生 宿舍里,然后迅速传播到全球的信息搜索者。
Google 目前被公认为万维网上最大的搜索引擎, 它提供了简单易用的免费服务,使用户能够访问一 个包含超过 80 亿个网址的索引。
“Google”来自于数学名词“Googol”, Googol 表示一个 1 后面跟着 100 个零。Google Int.使用这 一术语体现了公司整合网上海量信息的远大目标。