网页的高级检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文Google主页
http://www.google.cn
3
检索功能
(1) 网页的基本检索
进入Google主页后就自动进入基 本检索界面,只有一个简单的提问框, 比较直观、简单。在检索框内输入提 问词后就可以直接获取检索结果。
的基本检索规则(1)
一下
“整合天下信息,让人人能获取,使人人都受益 ”
——Google的使命
1
的起源与发展
1994年Google 创始人、在读研究生Larry Page 和 Sergey Brin
在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎,
然后迅速传播给全球的信息搜索者 1998年Google公司宣告正式成立
2006年4月12日Google将原中文名“科高”改为“谷歌”,意
为“丰收之歌”
2
的特色
检索响应速度极快,0.5秒内应答
P页智求a的能的geR重化网a要 的 页nk性 “ ,网G的说, 节手页o搜“以 约气级og提时不别索Gle供间错技o是引o相”术g目擎关功与le性能超前是,较,文全网因高直本球络此的接匹最上有搜连配索接分大寻人结到析果可,能客最观符评合价要网
是 专 业 信 息 机 构 根 据 专 业 需 求 , 将 Internet 上资源进行筛选整理、重新组织而形成专业信息 检索系统,专业针对性较强。 如:医学引擎:Medical Matrix、HealthWeb;地 图引擎;音乐引擎
综合型搜索引擎
收录的信息涉及多个主题及多种信息类型, 因此,利用它可以查找到几乎任何方面的信息。 它往往基于检索词去匹配相关的内容,所以信 息量大,时常也会因检出内容太泛而无法一一 过目,有时会影响查准率。 如:Google(谷歌)、Yahoo!(雅虎)、Baidu(百度)
数据检索掘模块在个性化服务中起到关键作用
信息挖掘
2.2 搜索引擎的分类
收录信息范围不同 检索原理不同
(1) 收录范围划分
综合型搜索引擎 又称通用搜索引擎,是综合性的信息检索系
统,它往往基于检索词去匹配相关的内容。时常 也会因检出内容太泛而无法一一过目。 如:Google(谷歌)、Yahoo!(雅虎)、Baidu(百度) 专业型搜索引擎
元搜索引擎(Meta Search Engine)
又称集成搜索引擎,自身不采集信息, 没有信息库,同时检索多个独立搜索引擎, 以统一格式输出结果。搜索面广,信息量大, 用时较短。 例如:Vivisimo、Ixquick、MetaCrawler、 搜星、万纬搜索等。
二 综合型搜索引擎实例
且慢,先让我
The Google name was chosen to represent the gigantic amount of material available on the Web.
“google”一词源于单词“googol”, 即10的100次幂,写出的形式为数 字1后跟100个零,表示数量极大。
“网页快照”找从答服案务器的里终直极接取杀出手缓”存的网页。用不同
颜色标记检索词,很醒目。最好用的图像搜索工具
Google Print计划和Google Scholar计划使互联网用户方 便获取图书馆书目信息及学术机构的学术信息成为可能
提供中文繁简体转换、英文单词解释和网页翻译功能
查询过程简图
网络信息资源的特点
数量巨大,增长迅速 内容丰富,形式多样 时效性强,变化迅速 共享性和交互性 结构复杂,分布广泛 动态性强,缺乏管理 良莠不齐
2 网络检索工具
网络检索工具泛指因特网上提供网页信 息资源检索和网站导航服务的站点,实质是 一种网页或网址检索系统。主要面向互联网 信息检索,并通过Internet来提供服务,通常 又称搜索引擎。当用户输入关键词查询时, 该搜索引擎会告诉用户包含该关键词信息的 所有网址,并提供通向该网址的链接。
源自文库 专业型搜索引擎
专门收集某种类型或某一主题网络信息, 因此它的针对性较强,查准率较高,在提供 专业信息资源方面要远远优于综合型搜索引 擎,可以满足用户个性化需求的需要。 医药卫生学专业方面如:
Medical Matrix、HealthWeb、BIOME等
(2) 工作原理划分
独立检索工具 目录/主题指南(Directory/Subject Guides)
负责按照一定的方式和要求对网络资源
网络检索工具的原理 2.1 进行搜集,并将搜集到的网页信息经网 络 负传责输对,收存集储到到的搜网索页引信擎 息的 进临 行时 分数 析据 ,库 从
主要有五个部中分提取:有检索或查询价值的内容——网
页关键词、网页的分类类别等,并对关
数据采集键(负词r责o进b形o行t成/s权p规i值d范e计r的)算索引数据库或便于 数 数据据分组析织负 提 负 库与责 高 责 ,浏标提 检 帮 获览取索助取引的用服用符层(户务户合次in相的用用型de关质一户分xe信量定需类r)息。的要目W,根方录W利 据 式结W用 用 检构信这 户 索息些 以 索信 前 引息 检数来 索据 行为的学习统计及其登记的信息,信息挖
由人工采集网站并进行分类,由专业人员进行 加工并建成树状等级目录。保证了查准率,但 查全率降低。如:Yahoo!(雅虎) 搜索引擎/网页搜索 通过网络机器人软件(Robot/crawler/spider)自动 跟踪标引软件搜寻网页,自动进行关键词标引, 它不需要人工干涉,数据更新快,查全率较高。 如:Google(谷歌)等
本讲主要内容
一 网络信息检索概述 二 综合型搜索引擎实例
Google(重点掌握) Baidu、Yahoo!、Sohu(一般了解) 三 专业型搜索引擎实例(一般了解) 四 小结
一 网络信息检索概述
1 网络信息检索的对象及其特点 网络信息资源(Network Information
Resource)是以数字化形式记录,以文字、图 像、声音、动画等多媒体形式表达,存储在 网络计算机磁介质、光介质以及各类通讯介 质上,并通过计算机网络通讯方式进行传递 的信息内容的集合。