第八讲搜索引擎使用指南

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



搜索校务公开 用“xwgk” URL中出 现

校务公开 inurl:xwgk
搜索的关键字包含在网页标题中

Intitle的用法类似于上面的inurl,只是后者对 URL进行查询,而前者对网页的标题栏进行查 询。网页标题,就是HTML标记语言title中之间 的部分。网页设计的一个原则就是要把主页的 关键内容用简洁的语言表示在网页标题中。因 此,只查询标题栏,通常也可以找到高相关率的 专题页面

Google 使用技巧


英文字符大小写不敏感。 搜索整个短语或者句子 Google的关键字可以是单词(中间没有空格),也可 以是短语(中间有空格)。但是,用短语做关键字, 必须加英文引号,否则空格会被当作“与”操作符。 示例:搜索关于第一次世界大战的英文信息。 搜索:“"world war I"‖
可概括为以下几个过程

(1)信息的采集和存储。全文搜索引擎一般 运用“网络机器人”,定期对一定IP地址范围 内的互联网站进行搜索,自动收集网页信息并 存入数据库。而目录搜索引擎是通过编辑人员 对提交的网站进行浏览评判,把被接纳的网站 分门别类地存放在相应的目录中。 (2)索引系统的建立。信息采集和存储后, 要建立索引查询系统。要对采集到的网页信息 进行信息语词切分、语词词法分析、词性标注 及相关的自然语言处理,建立检索项索引。
搜索引擎使用指南
搜索引擎的基本功能

搜索:网站、网页、特定格式的文件(文本文 件、视频文件、音频文件等)
搜索引擎含义

搜索引擎(Search engine)是指通过网络搜 索软件或网站登录等方式,对互联网上各种资 源进行标引,并为检索者提供检索的工具。
搜索引擎的工作原理

搜索引擎通过网络机器人(Network Robot) 搜索软件,在因特网上自动跟踪和发掘各种网 页信息后,再利用索引软件为扫描到的每一个 网页建立倒排文档,从而构造出一个巨大的网 络信息库;最后用户在搜索引擎服务器的 WWW站点或网页上进行关键词检索或分类浏 览得到搜索结果。
搜索引擎忽略的字符以及强制搜索
如果要对忽略的关键字进行强制搜
索,则需要在该关键字前加上明文 的“+‖号。 搜索:“+www +的历史 internet‖ 结果:已搜索有关+www +的历史 internet的中文(简体)网页。 共约有 106,000项查询结果,这是第1-10 项 。 搜索用时0.05秒。


网易(Netease)— 网易搜索是ODP的国 内翻版,其目录由志愿管理员维护,是 google的网页搜索用户。 http://search.163.com/
国内目录索引

雅虎
http://cn.yahoo.com/
lycos中国 http://www.lycos.com.cn/ 法律网站 http://www.law-lib.com/lawseek 北极星 http://www.beijixing.com.cn
搜索结果要求不包含某些特定信息
Google用减号“-‖表示逻辑“非”操作。“A –B‖表示 搜包含A但没有B的网页。 示例:搜索所有包含“搜索引擎”和“历史”但不含 “文化”、“中国历史”和“世界历史”的中文网页 搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史” 结果:已搜索有关搜索引擎 历史 -文化 -中国历史 -世 界历史的中文(简体)网页。共约有48,000项查询结果, 这是第1-10项 。 搜索用时0.25秒


(3)检索界面的建立。通过人机交互的理论 和方法,搜索引擎检索界面接受检索者提交的 查询请求(可对查询内容、逻辑运算、相近关 系及出现位置等进行限制),并根据检索者所 输入的关键词在其索引数据库中进行检索,显 示相应的检索结果,提供用户相关性反馈机制。
(4)检索结果的处理。搜索引擎对检索结果 按相关程度进行排列,把最相关的结果排在最 前面。每个搜索引擎评判结果相关性的方法均 不同,搜索引擎确定相关性的方法有概率方法、 位置方法、摘要方法和分类方法。
字段检索

① filetype:查找特定格式的文件
② intitle:查找指定标题的网页 ③ inurl:在指定的路径上查找网页 ④ site:在指定网站上查找网页
高级搜索

例:在文理学院网站上查找“越文化” 文化 site:zscas.edu.cn


例:搜索中文教育科研网站(edu.cn)上的所 有包含“三个代表”的页面 三个代表 site:edu.cn

About.com — 有其自身特色的目录索引。
国外英文搜索引擎

Google — 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目 前搜索界的领军人物。 http://www.google.com/ Fast/AllTheWeb — 总部位于挪威的搜索引擎后起之秀,风头直逼 google。 http://www.AllTheWeb.com / AltaVista — 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引 擎之一。 由于种种原因,目前国内用户无法直接访问AltaVista。 Overture — 最著名的搜索引擎广告商,竞价排名的始作俑者,也是 全文搜索引擎。

Inktomi、Lycos、AlltheWeb、Ask Jeeves 国内最具代表性的是:百度、天网
目录式搜索引擎

其提供的资源的类型不同而分成不同的目录, 再一层层地进行分类
所以信息准确、导航质量高,缺点是需要人工 介入、维护量大、信息量少、信息更新不及时 搜索引擎的代表是:Yahoo!,Open Directory, 国内最具代表性的是搜狐分类目录
常用中文搜索引擎

百度搜索引擎、Google中文搜索引擎、中国搜 索联盟、搜狐搜索引擎、新浪搜索引擎、网易 搜索引擎、天网中文搜索引擎等。
常用英文搜索引擎

AllTheWeb搜索引擎、AltaVista搜索引擎、 Lycos搜索引擎、Yahoo!、SCIRUS等。
国内搜索引擎

百度(Baidu)— 国内唯一商业化的全文搜索 引擎,提供搜狐、新浪、263、Tom等站点的 网页搜索服务。 http://www.baidu.com/

Yahoo — 最著名的目录索引,搜索引擎开山鼻祖之一。 http://www.yahoo.com/ Dmoz.com/ODP — 由义务编辑维护的目录索引。 http://www.dmoz.com/ Ask Jeeves — 著名的自然语言搜索引擎,2002年初收购Teoma 全文搜索引擎。 http://www.ask.com LookSmart — 点击付费索引目录,2002年收购WiseNut全文搜 索引擎。 http://www.looksmart.com/




Lycos — 发源于西班牙的搜索引擎,网络遍布世界各地。 http://www.lycos.com /
HotBot — 隶属于Lycos Networks,搜索结果来自其他搜索引擎及 目录索引。 http://www.hotbot.com

国内目录索引

搜狐(Sohu)— 国内三大门户之一,最早 在国内推出搜索引擎收费登录服务。 http://dir.sohu.com/ 新浪(Sina)— 最大的中文门户网站,同 样也推出了搜索引擎收费索引项目。 http://search.sina.com.cn/
搜索引擎忽略的字符以及强制搜索


Google对一些网路上出现频率极高的英文单词,如 “i‖、“com‖、“www‖等,以及一些符号如“*”、 “.‖等,作忽略处理。 示例:搜索关于www起源的一些历史资料。 搜索:“www的历史 internet‖ 结果:以下的字词因为使用过于频繁,没有被列入搜 索范围: www 的. 已搜索有关www的历史 internet的 中文(简体)网页。 共约有75,100项查询结果,这是第 1-10项 。 搜索用时0.22秒。
搜索的关键字包含在URL链接中
Inurl
inurl语法返回的网页链接中包含第一个关键字,后 面的关键字则出现在链接中或者网页文档中。有 很多网站把某一类具有相同属性的资源名称显示 在目录名称或者网页名称中,比如“MP3‖、 “MIDI‖等,于是,就可以用INURL语法找到这些相 关资源链接,然后,用第二个关键词确定是否有某 项具体资料。INURL语法和基本搜索语法的最大 区别在于,前者通常能提供非常精确的专题资料。
百度产品
搜索引擎使用的逻辑运算符

空格在搜索引擎中被认为是一种特定的操作符,常常 被认为是“AND‖

用“,”或“︱”表示逻辑或
逗号的作用可以看成和“OR‖作用一样。 引号表示精确检索。 “+‖强调词汇必须出现在搜索结果中。 - 的作用是强调某个词汇必须不出现在搜索结果中。


搜索关于“电子商务”,但不包含“网络支付” 的资料,检索表达式:


百度文库
元搜索引擎:这类搜索引擎没有自己的数据, 它将用户的查询请求同时向多个搜索引擎递交, 将返回的结果进行重复排除、重新排序等处理 后,作为自己的结果返回给用户。
这类搜索引擎的代表是WebCrawler http://www.webcrawler.com/

著名搜索引擎简介
国外英文目录索引

高级搜索搜索的关键字包含在URL 链接中


示例:查找mp3曲“沧海一声笑”。
搜索:“沧海一声笑 inurl:mp3 ”
结果:已搜索有关inurl:mp3 沧海一声笑的中文(简 体)网页。共约有14项查询结果,这是第1-10项。搜 索用时0.01秒。
URL路径名包含syjq关于Photoshop的使用技巧的网 页 Photoshop inurl:syjq

搜索引擎的类型?

目录式搜索引擎(亦称分类搜索引擎)
机器搜索引擎(亦称全文搜索引擎)

元搜索引擎
搜索引擎分类

机器(全文)搜索引擎(Full Text Search Engine)
网络机器人收集信息--由索引器建立索引
由检索器根据用户的查询条件--输出查询结果

服务方式是面向网页的全文检索服务。 国外: Google, AltaVista、Excite、Infoseek、
搜索“我的太阳”
搜索“”我的太阳””
高级搜索
Site 表示搜索结果局限于某个具体网站或网站频
道,如“zscas.edu.cn‖ , ―sina.com.cn‖, 或者是某个 域名,如“com.cn‖, ―com‖ 等。 注:site后的冒号为英文字符,而且,冒号后不 能有空格。此外,网站域名不能有“http‖以及 “www‖前缀。
电子商务 -网络支付 -前要加空格

Google 使用技巧

基本搜索 自动使用“and‖进行查询。输入多个关键词,只要加空格 就可以。


搜索:“搜索引擎” 结果:已搜索有关搜索引擎的中文(简体)网页。 共约有 796,000项查询结果,这是第1-10项 。 搜索用时0.08秒。 示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网 页 搜索:“搜索引擎 历史” 结果:已搜索有关搜索引擎 历史的中文(简体)网页。 共约有 82,500项查询结果,这是第1-10项 。 搜索用时0.36秒。
搜索结果至少包含多个关键字中的任 意一个


Google用大写的“OR‖表示逻辑“或”操作。搜索“A OR B‖, 意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A 和B。在上例中,我们希望搜索结果中最好含有“archie‖、 “lycos‖、“蜘蛛”等关键字中的一个或者几个,这样可以进一 步的精简搜索结果。 示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”, 没有“文化”,可以含有以下关键字中人任何一个或者多个: “Archie‖、“蜘蛛”、“Lycos‖、“Yahoo‖。 搜索:“搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文 化” 结果:已搜索有关搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化的中文(简体)网页。 共约有7,440项查询结果,这是 第1-10项 。 搜索用时0.16秒。
相关文档
最新文档