搜索引擎的检索方法与

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎的检索方法与技巧 以google和百度为例
2020/10/11
吴爱民 图书馆信息部
2013年06月
1
为什么使用搜索引擎
• 2012年8月1日,CNNIC发布了最新 的《2009年中国搜索引擎用户行为 研究报告》。报告中显示,截至 2012年8月底,中国搜索引擎用户规 模达到4.51亿人。
2020/10/11
2020/10/11
11
分类Βιβλιοθήκη Baidu
– 3.元搜索引擎:这类搜索引擎没有自己的数 据,而是将用户的查询请求同时向多个搜索 引擎递交,将返回的结果进行重复排除、重 新排序等处理后,作为自己的结果返回给用 户。服务方式为面向网页的全文检索。这类 搜索引擎的优点是返回结果的信息量更大、 更全,缺点是不能够充分使用所使用搜索引 擎的功能,用户需要做更多的筛选。这类搜 索引擎的代表是WebCrawler、InfoMarket等 。
2
中国搜索引擎用户规模和使用率
2020/10/11
3
搜索引擎的用户感受
2020/10/11
4
2020/10/11
5
搜索引擎的应用现状
• 从用户使用的角度,国外的调查发现:
– 网上搜索信息的人很少考虑如何找到他们所需要 的信息,因此搜索信息时象动物猎食般盲目;
– 只有18%的用户表示总能在网上搜索到需要的信 息。68%的用户说他们对搜索引擎很失望;
2020/10/11
12
主要技术
• 一个搜索引擎由搜索器、索引器、检索器 和用户接口等四个部分组成。
• 搜索器
– 搜索器的功能是在互联网中漫游,发现和搜 集信息。它常常是一个计算机程序,日夜不 停地运行。它要尽可能多、尽可能快地搜集 各种类型的新信息,同时因为互联网上的信 息更新很快,所以还要定期更新已经搜集过 的旧信息,以避免死连接和无效连接。
务经常会变化,留意Powered by…
– 百度: http://www.baidu.com
2020/10/11
9
搜索引擎的分类及原理
2020/10/11
• 按照信息搜集方法和服务提供方式的不同 ,搜索引擎系统可以分为三大类:
– 1.目录式搜索引擎:以人工方式或半自动方 式搜集信息,由编辑员查看信息之后,人工 形成信息摘要,并将信息置于事先确定的分 类框架中。信息大多面向网站,提供目录浏 览服务和直接检索服务。该类搜索引擎因为 加入了人的智能,所以信息准确、导航质量 高,缺点是需要人工介入、维护量大、信息 量少、信息更新不及时。这类搜索引擎的代 表是:Yahoo、LookSmart、Open Directory 、Go Guide等。
10
搜索引擎分类
– 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的 机器人程序以某种策略自动地在互联网中搜集和发 现信息,由索引器为搜集到的信息建立索引,由检 索器根据用户的查询输入检索索引库,并将查询结 果返回给用户。服务方式是面向网页的全文检索服 务。该类搜索引擎的优点是信息量大、更新及时、 毋需人工干预,缺点是返回信息过多,有很多无关 信息,用户必须从结果中进行筛选。这类搜索引擎 的代表是:AltaVista、Northern Light、Excite、 Infoseek、Inktomi、FAST、Lycos、Google;国内代 表为:"天网"、悠游、OpenFind等。
• 略超过1/2的互联网用户属于search-dominant,
• 约1/5用户属于 link-dominant,
• 其它用户的搜索倾向属于混合行为型。
• search- dominant在到达一个网站后直接就奔向搜索按钮 ,他们对浏览网站不感兴趣,他们有明确的目的,倾向 于以最快速度找到信息。
• 相反,link-dominant喜欢点击浏览一个网站,即使他们 想找特殊信息时也是这样,只有在他们用点击超链的方 法已经实在找不到了,才会想起搜索按钮。
2020/10/11
13
索引器
• 2.索引器
– 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于表示文档以及生成文档库的索引表。
– 索引项有客观索引项和内容索引项两种:客观项与文档的语意内 容无关,如作者名、URL、更新时间、编码、长度、链接流行度 (Link Popularity)等等;内容索引项是用来反映文档内容的,如 关键词及其权重、短语、单字等等。内容索引项可以分为单索引 项和多索引项(或称短语索引项)两种。单索引项对于英文来讲 是英语单词,比较容易提取,因为单词之间有天然的分隔符(空 格);对于中文等连续书写的语言,必须进行词语的切分
2020/10/11
14
检索器和用户接口
• 3.检索器
– 检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价,对将要输出的结果进行排 序,并实现某种用户相关性反馈机制。
– 检索器常用的信息检索模型有集合理论模型、代数模型、 概率模型和混合模型四种。
• 4.用户接口
2020/10/11
8
值得推荐的几个中文搜索引擎
• 全文搜索
– 衡量搜索引擎的指标:
• 查全率 • 查准率 • 速度 • 哪个重要?
– Google: http://www.google.com (需要出国访问权限)
• 新浪使用了它的全文搜索引擎服务 • 说明:这是2004年4月的情形,各大门户网站使用的搜索引擎服
2020/10/11
7
什么是搜索引擎
• 搜索引擎其实也是一个网站,只不过 该网站专门为你提供信息“检索”服务 搜索引擎是指根据一定的策略、运用 特定的计算机程序从互联网上搜集信息, 在对信息进行组织和处理后,为用户提 供检索服务,将用户检索相关的信息展 示给用户的系统。 搜索引擎包括全文索引、目录索引、元 搜索引擎、垂直搜索引擎、集合式搜索 引擎、门户搜索引擎与免费链接列表等。
– 平均每个搜搜者在12分钟的徒劳搜索后就感到恼 火和受挫。
– 46%的人只会用同一个关键词搜啊搜啊,而且是 在同一个搜索引擎。
2020/10/11
6
国外的应用状况
– 那些每周平均花5个小时以上时间上网的人,将其 上网时间的71%都花在了搜索引擎上;
– 人机界面高手nielsen(google的设计者)研究表 明:
相关文档
最新文档