网页的高级检索 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中文Google主页
http://www.google.cn
3
检索功能
(1) 网页的基本检索
进入Google主页后就自动进入基本检索界面，只有一个简单的提问框，比较直观、简单。在检索框内输入提问词后就可以直接获取检索结果。
的基本检索规则(1)
一下
“整合天下信息，让人人能获取，使人人都受益 ”
——Google的使命
1
的起源与发展
1994年Google 创始人、在读研究生Larry Page 和 Sergey Brin
在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎，
然后迅速传播给全球的信息搜索者 1998年Google公司宣告正式成立
2006年4月12日Google将原中文名“科高”改为“谷歌”，意
为“丰收之歌”
2
的特色
检索响应速度极快，0.5秒内应答

P页智求a的能的geR重化网a要的页nk性 “ ，网G的说，节手页o搜“以约气级og提时不别索Gle供间错技o是引o相”术g目擎关功与le性能超前是，较，文全网因高直本球络此的接匹最上有搜连配索接分大寻人结到析果可，能客最观符评合价要网
是专业信息机构根据专业需求，将 Internet 上资源进行筛选整理、重新组织而形成专业信息检索系统，专业针对性较强。如：医学引擎：Medical Matrix、HealthWeb；地图引擎；音乐引擎
综合型搜索引擎
收录的信息涉及多个主题及多种信息类型，因此，利用它可以查找到几乎任何方面的信息。它往往基于检索词去匹配相关的内容，所以信息量大，时常也会因检出内容太泛而无法一一过目，有时会影响查准率。如：Google(谷歌)、Yahoo!(雅虎)、Baidu(百度)
数据检索掘模块在个性化服务中起到关键作用
信息挖掘
2.2 搜索引擎的分类
收录信息范围不同检索原理不同
(1) 收录范围划分
综合型搜索引擎又称通用搜索引擎，是综合性的信息检索系
统，它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。如：Google(谷歌)、Yahoo!(雅虎)、Baidu(百度) 专业型搜索引擎
元搜索引擎（Meta Search Engine）
又称集成搜索引擎，自身不采集信息，没有信息库，同时检索多个独立搜索引擎，以统一格式输出结果。搜索面广，信息量大，用时较短。例如：Vivisimo、Ixquick、MetaCrawler、搜星、万纬搜索等。
二综合型搜索引擎实例
且慢，先让我
The Google name was chosen to represent the gigantic amount of material available on the Web.
“google”一词源于单词“googol”，即10的100次幂，写出的形式为数字1后跟100个零，表示数量极大。
“网页快照”找从答服案务器的里终直极接取杀出手缓”存的网页。用不同
颜色标记检索词，很醒目。最好用的图像搜索工具
Google Print计划和Google Scholar计划使互联网用户方便获取图书馆书目信息及学术机构的学术信息成为可能
提供中文繁简体转换、英文单词解释和网页翻译功能
查询过程简图
网络信息资源的特点
数量巨大，增长迅速内容丰富，形式多样时效性强，变化迅速共享性和交互性结构复杂，分布广泛动态性强，缺乏管理良莠不齐
2 网络检索工具
网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点，实质是一种网页或网址检索系统。主要面向互联网信息检索，并通过Internet来提供服务，通常又称搜索引擎。当用户输入关键词查询时，该搜索引擎会告诉用户包含该关键词信息的所有网址，并提供通向该网址的链接。
源自文库专业型搜索引擎
专门收集某种类型或某一主题网络信息，因此它的针对性较强，查准率较高，在提供专业信息资源方面要远远优于综合型搜索引擎，可以满足用户个性化需求的需要。医药卫生学专业方面如：
Medical Matrix、HealthWeb、BIOME等
(2) 工作原理划分
独立检索工具目录/主题指南（Directory/Subject Guides）
负责按照一定的方式和要求对网络资源
网络检索工具的原理 2.1 进行搜集，并将搜集到的网页信息经网络负传责输对，收存集储到到的搜网索页引信擎息的进临行时分数析据，库从
主要有五个部中分提取：有检索或查询价值的内容——网
页关键词、网页的分类类别等，并对关
数据采集键（负词r责o进b形o行t成/s权p规i值d范e计r的）算索引数据库或便于数数据据分组析织负提负库与责高责，浏标提检帮获览取索助取引的用服用符层（户务户合次in相的用用型de关质一户分xe信量定需类r）息。的要目W，根方录W利据式结W用用检构信这户索息些以索信前引息检数来索据行为的学习统计及其登记的信息，信息挖
由人工采集网站并进行分类，由专业人员进行加工并建成树状等级目录。保证了查准率，但查全率降低。如：Yahoo!(雅虎) 搜索引擎/网页搜索通过网络机器人软件(Robot/crawler/spider)自动跟踪标引软件搜寻网页，自动进行关键词标引，它不需要人工干涉，数据更新快，查全率较高。如：Google(谷歌)等
本讲主要内容
一网络信息检索概述二综合型搜索引擎实例
Google(重点掌握) Baidu、Yahoo!、Sohu(一般了解) 三专业型搜索引擎实例(一般了解) 四小结
一网络信息检索概述
1 网络信息检索的对象及其特点网络信息资源(Network Information
Resource)是以数字化形式记录，以文字、图像、声音、动画等多媒体形式表达，存储在网络计算机磁介质、光介质以及各类通讯介质上，并通过计算机网络通讯方式进行传递的信息内容的集合。