网络信息检索工具
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专业型搜索引擎
专门收集某种类型或某一主题网络信息, 因此它的针对性较强,查准率较高,在提供 专业信息资源方面要远远优于综合型搜索引 擎,可以满足用户个性化需求的需要。 ➢ 医药卫生学专业方面如:
Medical Matrix、HealthWeb、BIOME等
(2) 工作原理划分
独立检索工具 ➢ 目录/主题指南(Directory/Subject Guides)
The Google name was chosen to represent the gigantic amount of material available on the Web.
“google”一词源于单词“googol”, 即10的100次幂,写出的形式为数 字1后跟100个零,表示数量极大。
中文Google主页
http://www.google.cn
3
检索功能
(1) 网页的基本检索
进入Google主页后就自动进入基 本检索界面,只有一个简单的提问框, 比较直观、简单。在检索框内输入提 问词后就可以直接获取检索结果。
的基本检索规则(1)
➢ 逻辑与:无需用and,空格表示,不超过10个 检索词 白血病 骨髓移植; 肝肿瘤 护理;
数据检索掘模块在个性化服务中起到关键作用
➢ 信息挖掘
2.2 搜索引擎的分类 ➢收录信息范围不同 ➢检索原理不同
(1) 收录范围划分
➢综合型搜索引擎 又称通用搜索引擎,是综合性的信息检索系
统,它往往基于检索词去匹配相关的内容。时常 也会因检出内容太泛而无法一一过目。 如:Google(谷歌)、Yahoo!(雅虎)、Baidu(百度) ➢专业型搜索引擎
2 网络检索工具
网络检索工具泛指因特网上提供网页信 息资源检索和网站导航服务的站点,实质是 一种网页或网址检索系统。主要面向互联网 信息检索,并通过Internet来提供服务,通常 又称搜索引擎。当用户输入关键词查询时, 该搜索引擎会告诉用户包含该关键词信息的 所有网址,并提供通向该网址的链接。
负责按照一定的方式和要求对网络资源
学术搜索的基本检索界面 学术高级 检索入口
搜索猪流感的血清学调查方法
检索结果
网页或文章标题
仅显示近期 发表的文章
被引用次数 相关网页检索
该文献作多者个及原文献出处 文链接网址
“图书馆搜索”结果
点击可浏览全文 或下载保存
“在线阅读”界 面
PDF格式原文下载
学术搜索的高级检索界面
例1:查2000-2009年发表在《中华儿科 杂志》上有关“手足口病”的学术论文
由人工采集网站并进行分类,由专业人员进行 加工并建成树状等级目录。保证了查准率,但 查全率降低。如:Yahoo!(雅虎) ➢ 搜索引擎/网页搜索 通过网络机器人软件(Robot/crawler/spider)自动 跟踪标引软件搜寻网页,自动进行关键词标引, 它不需要人工干涉,数据更新快,查全率较高。 如:Google(谷歌)等
一下☺
“整合天下信息,让人人能获取,使人人都受益 ”
——Google的使命
1
的起源与发展
➢ 1994年Google 创始人、在读研究生Larry Page 和 Sergey Brin
在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎,
然后迅速传播给全球的信息搜索者 1998年Google公司宣告正式成立
找不到原来的网页时这使一用网页相关的网页
搜索结果中的不同文件类型
搜索结果1:word 文档(doc格式)
搜索结果2:网页 版式(html格式)
相似关键词的链接
当前页码
结果1:Word文档格式
结Biblioteka Baidu2:html网页格式
(2)网页的高级检索
高级检索模式通常用填表的方式, 列出众多的可限制条件,供用户构建较 复杂的检索表达式,能更精确地表达用 户的情报需求,返回结果的相关程度更 高。
➢ 逻辑或:OR必须大写 非小细胞肺癌 OR 肺结核
➢ 逻辑非:用-表示,但减号之前必须留一空格。 肝炎 –动物
➢ 对大小写不敏感
的基本检索规则(2)
➢ 词组/短语检索:几乎所有检索引擎都支持词 组/短语检索,而且其表达语法也都是用半角 的双引号(“ ”),即如果用半角的双引号 将一个词组或短语括起,系统将检索出与其 完全精确匹配的检索结果。这是提高检索结 果精确度的首选方法。 如“生物医学工程设备 ”
是 专 业 信 息 机 构 根 据 专 业 需 求 , 将 Internet 上资源进行筛选整理、重新组织而形成专业信息 检索系统,专业针对性较强。 如:医学引擎:Medical Matrix、HealthWeb;地 图引擎;音乐引擎
综合型搜索引擎
收录的信息涉及多个主题及多种信息类型, 因此,利用它可以查找到几乎任何方面的信息。 它往往基于检索词去匹配相关的内容,所以信 息量大,时常也会因检出内容太泛而无法一一 过目,有时会影响查准率。 ➢如:Google(谷歌)、Yahoo!(雅虎)、Baidu(百度)
点击“更多”
点击进入 图书搜索
图书高级 搜索入口
(6)图像检索
Google共收录互联网上的图像 超过几十亿张,据称是“互联网上 最好用的图片搜索工具”。
图片搜索界面
迪拜 七星级酒店
阿联酋迪拜 帆船酒店
(7)Google新增功能
音乐搜索
➢ 2009年3月31日正式推出 ➢ 来源:华纳、索尼、百代、环球等上百家
元搜索引擎(Meta Search Engine)
又称集成搜索引擎,自身不采集信息, 没有信息库,同时检索多个独立搜索引擎, 以统一格式输出结果。搜索面广,信息量大, 用时较短。 例如:Vivisimo、Ixquick、MetaCrawler、 搜星、万纬搜索等。
二 综合型搜索引擎实例
且慢,先让我
➢ 2006年4月12日Google将原中文名“科高”改为“谷歌”,意
为“丰收之歌”
2
的特色
➢ 检索响应速度极快,0.5秒内应答
➢ ➢
P页智求a的能的geR重化网a要 的 页nk性 “ ,网G的说, 节手页o搜“以 约气级og提时不别索Gle供间错技o是引o相”术g目擎关功与le性能超前是,较,文全因网高直本此球络的接匹有最上搜连配索接分人大寻结到析果可,能客最观符评合价要网
唱片公司 ➢ “这是一种新的音乐服务运作模式的实验,
用户无需为正版音乐付费。在线音乐广告 分成的模式让各方都找到了一个提升用户 体验、尊重歌手创作、尊重版权之间的平 衡。”
购物搜索
➢ 2009年6月10日正式推出 ➢ Google 购物搜索不卖商品,因而不能直接
从 Google 购物搜索买东西,只提供相关网 页的链接指向 ➢ Google搜集商品信息的两条途径 ✓ 商家通过网络主动提交的商品信息 ✓ Google 特有的爬虫程序在互联网上自动识 别的购物网页
学术高级搜索结果
(5)图书搜索
来源:
1 与全世界知名的图书馆合作 ➢以将其收藏的图书包括在图书搜索中 ➢仍受版权保护的图书——只显示目录信息 ➢不受版权保护的图书——整本阅读和下载 2 与 20,000 多个出版者和作者成为合作伙伴 ➢指向合作图书馆和书店的链接——借阅或 购买图书
图书搜索界面的进入
➢ 按相关度排序,考虑全文、作者、出版物及被 引情况,采取自动分析与抽取引文的方法
➢ 外文学术资源:与PubMed等数据库合作
➢ 中文学术资源:我国万方和维普两家公司已与 Google合作,期刊全文数据库的信息资源可以 检索
学术搜索界面的进入
点击“更 多”
点击进入 学术搜索
学术搜索的基本检索界面
例:查找生物芯片的原理
自动出现的智能 匹配下拉菜单
的检索结果格式
构建好检索提问式后回车,就进入 检索结果界面,检索结果按相关程度输 出,最相关的放在最前面。
网页标题:第一行是查询到的网 页的标题,有时会显示为网址
中文搜索结果、显
网址网决页了快无照文大效:本小链接“问网题页,快标 网 以单G以照题 粗页o击o备”下 体摘“gl示在文 显要e类解便用格本 示,似开时式搜: 。网始间以该索页寻的及文关”找统搜键本时与计索词是,使
网络检索工具的原理 2.1 进行搜集,并将搜集到的网页信息经网 络 负传责输对,收存集储到到的搜网索页引信擎 息的 进临 行时 分数 析据 ,库 从
主要有五个部中分提取:有检索或查询价值的内容——网
页关键词、网页的分类类别等,并对关
➢ 数据采集键(负词r责o进b形o行t成/s权p规i值d范e计r的)算索引数据库或便于 ➢➢ 数 数据据分组析织负 提 负 库与责 高 责 ,浏标提 检 帮 获览取索助取引的用服用符层(户务户合次in相的用用型de关质一户分xe信量定需类r)息。的要目W,根方录W利 据 式结W用 用 检构信这 户 索息些 以 索信 前 引息 检 数来 索 据 ➢ 行为的学习统计及其登记的信息,信息挖
最主要的大型中文分类搜索引擎, 也提供关键词的检索 http://www.sohu.com
(1)百度(http://www.baidu.com)
➢ 于2000年初成立,是最大的中文搜索 引擎
Google搜索: 显示所有相关网 页的网址
“手气不错”:自动进入专指 网站的主页,将完全看其它 的搜索结果
(4)学术信息的检索
学术搜索—Google Scholar
➢ 通过互联网方便获取学术信息的渠道之一
➢ 信息来源:学术著作出版商、专业性社团、预 印本、各大学及其他学术组织的经同行评论的 文章、论文、图书、摘要等
限定检索时间
时间的限定
限定检索词的搜索位置
结果显示格式
检索词出现在 文件中的位置
例:搜索近1年来我国政府机构在 SARS疫苗临床研究方面的进展情况
高级检索结果
一年内,在 gov.cn 中搜索 SARS疫苗 “临 床研究” 获得大 约 655 条查询结 果
来自政府网 站的报道
(3)网页的定位检索
按下“手气不错”按钮将自动进 入 Google 查询到的第一个网页,直接 将用户指引到可能最符合要求的网页, 用户将完全看不到其它的搜索结果。
例:通过“手气不错”按钮可以 直接定位到“中山大学”的主页
Google搜索: 显示所有相关网页 的网址
直接定位并显示专 指网站的主页
“Google搜索”的结果
输入商品信息,结果会按照产品型号进行分类, 且能看到商家价格、网络评论、产品参数等信息
首页列出了用户最近查询较多的商品,目 前以手机、数码相机等消费电子产品为主
(二)其他搜索引擎
中国人自己的搜索引擎,中文 搜索之王 http://www.baidu.com Internet 上最早的,也是最成功的 分类目录 http://www.yahoo.cn
Resource)是以数字化形式记录,以文字、图 像、声音、动画等多媒体形式表达,存储在 网络计算机磁介质、光介质以及各类通讯介 质上,并通过计算机网络通讯方式进行传递 的信息内容的集合。
网络信息资源的特点
➢ 数量巨大,增长迅速 ➢ 内容丰富,形式多样 ➢ 时效性强,变化迅速 ➢ 共享性和交互性 ➢ 结构复杂,分布广泛 ➢ 动态性强,缺乏管理 ➢ 良莠不齐
高级搜 索入口
高级检索页面
相相当当于于A短ND语检检索索 相当于OR检索 相当于NOT检索
将检索结果限定在某一 网站或某一域的范围, 如com,gov,edu等
限定搜索的文件类型
Office文档,如.Xls(Excel文档), ppt(power point文档),doc(word 文档),rtf, pdf文档等。
第四讲 网络信息检索工具
广州医学院图书馆 医学文献检索教研室
课堂讲授:
课件制作:邓小茹
本讲主要内容
一 网络信息检索概述 二 综合型搜索引擎实例
Google(重点掌握) Baidu、Yahoo!、Sohu(一般了解) 三 专业型搜索引擎实例(一般了解) 四 小结
一 网络信息检索概述
1 网络信息检索的对象及其特点 网络信息资源(Network Information
➢ “网页快照”找从答服案务器的里终直极接取杀出手缓”存的网页。用不同
颜色标记检索词,很醒目。最好用的图像搜索工具
➢ Google Print计划和Google Scholar计划使互联网用户方 便获取图书馆书目信息及学术机构的学术信息成为可能
➢ 提供中文繁简体转换、英文单词解释和网页翻译功能
查询过程简图