认识搜索引擎

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验四认识搜索引擎
一、实验目的
1、认识搜索引擎
2、了解搜索引擎原理及使用方法
3、在线查找搜索引擎
学时安排:2学时
二、实验内容
1、在IE浏览器输入网址:/web/searchengine.htm,或是利用
Google搜索引擎查询【认识搜索引擎】,找到该网页,了解搜索引擎的原理极其发展过程。

2、打开/index.htm和/,查看站点中文搜索引
擎指南网(搜网)和搜索快报,了解搜索引擎有关新闻、使用技巧、排名规则、以及在商业上的应用。

3、在线查找搜索引擎,列出你所熟悉的中文引擎的前5名,英文引擎的前5名
4、列出至少20个搜索引擎(包括一个能够搜索—搜索引擎的引擎,报告中请注明)
5、使用不同的英文搜索引擎分别给出歌德巴赫猜想(Goldbach's conjecture)和世界名
画《蒙娜丽莎》(Mona Lisa )的英文详细介绍网址,并分别给出内容的英文简介。

6、针对你的选题自选检索词利用英文搜索引擎检索,记录检索结果
三、实验报告
1、搜索引擎的原理
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

1.从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

2.建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包
括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进
行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3.在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到
符合该关键词的所有相关网页。

因为所有相关网页针对该关键词的相
关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,
排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容
组织起来返回给用户。

2、搜索引擎的使用技巧
对于搜索引擎的使用,简单的就是输入你的语言想法。

通过提交获得,这中间就要求你懂得搜索引擎的一个搜索因素。

就是搜索关键字或关键词。

这个一般不会被大众用户所了解,普通用户只是简单的思考就形成一种搜索习惯。

比较准确一点的话就是关键词组,例如:考试模拟题,上海到北京线路等等这些就是关键词组,再比较专业一点的就是关键字,这个主要是一些特殊定义的词,例如:北京旅游,上海酒店,成人高考,一心一意等等。

另一方面就是搜索引擎的专业使用,主要是搜索引擎命令搜索和搜索引擎的分类搜索。

搜索引擎的命令搜索主要有查看网站收录情况,使用site:命令;查看网站的外链情况,使用domain:或者link:命令等。

搜索文档等,使用filetype:文档格式
(DOC,PDF,XLS,PPT等);还有使用函数符号搜索,使用加号(+)或者减号(-)号等来匹配内容;其次还有很多函数符号的使用,如:&,intitle,inurl,tag,“”,(),related,url,image等等。

另一方面就是类型搜索,如:百度文档搜索,百度音乐搜索,谷歌文档,字典搜索,地图,交通搜索等等。

搜索引擎的使用有很多比较巧妙的东西,很多都可以灵活运用,也可以综合使用。

如:在指定的网站中搜索某一类的东西:site: 欢乐谷,这里是在驴妈妈网站搜索关于欢乐谷的东西;site: 欢乐谷&攻略,这里是在驴妈妈网站搜索包含欢乐谷和攻略的信息。

Inurl:bbs欢乐谷这里是指在所有包含欢乐谷的信息,条件是同时要在url中出现bbs,这里还有一层意思是指,将bbs本身定义为论坛,这里总的意思也就是只在论坛中搜索包含欢乐谷的信息。

3、中文引擎前5名:
百度
谷歌/intl/zh-CN/
Bing(必应)
搜搜/
雅虎全能搜索/
英文引擎前5名:
4、不少于20个搜索引擎名称及链接地址
(1) 百度
(2) Google中文/intl/zh-CN/
(3) Alltheweb(Fast)
(4) Openfind中文/cn.web.php?u=cn
(5) 北大天网/
(6) Google
(7) Alltheweb(Fast)
(8) Altavista
(9) Inktomi
(10) Openfind
(11) Northernlight
(12) Wisenut
(13) Teoma
(14) Gigablast
(15) Inktomi/MSN
(16) 搜狗/
(17) Bing(必应) /
(18) 雅虎全能搜索/
(19) SOSO搜搜/
(20) 有道/
(21) 即刻搜索/
(22) 盘古搜索/
(23) 爱问搜索引擎/
(24)o123网址之家/
(25)120ask有问必答/
5、Goldbach's conjecture的详细介绍网址及英文简介
中文网址:/view/1808.htm
英文网址:/wiki/Goldbach's_conjecture
英文简介:Goldbach's conjecture is one of the oldest unsolved problems in number theory and in all of mathematics. It states:Every even integer greater than 2 can be expressed as the sum of two primes.[1] A Goldbach number is a number that can be expressed as the sum of two odd primes. Therefore, another statement of Goldbach's conjecture is that all even integers greater than
4 are Goldbach numbers.
The expression of a given even number as a sum of two primes is called a Goldbach
partition of the number. For example,
4 = 2 + 2
6 = 3 + 3
8 = 3 + 5
10 = 7 + 3 or 5 + 5
12 = 5 + 7
14 = 3 + 11 or 7 + 7
Mona Lisa的详细介绍网址及英文简介
中文网址:/view/27894.htm
英文网址:/entry/Mona_Lisa
英文简介:Mona Lisa (also known as La Gioconda) is a sixteenth century portrait painted in oil on a poplar panel by Leonardo da Vinci during the Italian Renaissance. The work is owned by the French government and hangs in the Musée du Louvre in Paris, France with the title Portrait of Lisa Gherardini, wife of Francesco del Giocondo.
The painting is a half-length portrait and depicts a woman whose expression is often described as enigmatic. The ambiguity of the sitter's expression, the monumentality of the
half-figure composition, and the subtle modeling of forms and atmospheric illusionism were novel qualities that have contributed to the painting's continuing fascination. Few other works of art have been subject to as much scrutiny, study, mythologizing and parody.
It is one of the great icons of Western painting, perhaps the best known painting in the entire world
6、使用引擎名称及链接:Google
检索词(至少2个):文本挖掘(Text Mining),知识发现(knowledge Discovery)
检索表达式:文本挖掘(Text Mining)*知识发现(knowledge Discovery)
第一个检索词的检索结果(摘录至少5条):
1. Text mining
2. KNOWLEDGE MANAGEMENT, DATA MINING, AND TEXT MINING IN MEDICAL INFORMATICS
3. Survey of Text Mining: Clustering, Classification, and Retrieval ...
4. <italic>The Text Mining Handbook: Advanced Approaches to ...
5. Text mining with Information Extratction
第二个检索词的检索结果(摘录至少5条):
1. From Data Mining toKnowledge Discovery inDatabases
2. An Internet-enabled Knowledge Discovery Process
3. Knowledge Discovery and Data Mining: Concepts and Fundamental Aspects *
4. Knowledge Discovery from data
5. Trends inData Mining and Knowledge Discovery
按以下内容给出一篇由检索表达式得到的检索结果:
[Title] From Data Mining toKnowledge Discovery inDatabases
[Author] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth [Organization] American Association for Artificial Intelligence
[Journal] 1996 37
[Key words] Data mining knowledge discovery Databases
[Abstract] Data mining and knowledge discovery indatabases have been attracting a significantamount of research, industry, and media atten-tion of late. What is all the excitemen t about?This article provides an overview of this emergingfield, clarifying how data mining and knowledgediscovery in databases are related both to eachother and to related fields, such as machinelearning, statistics, and databases. The articlementions parti cular real-world applications,specific data-mining techniques, challenges in-volved in real-world applications of knowledgediscovery, and current and future research direc-tions in the field.。

相关文档
最新文档