文件检索 第五章计算机信息检索(修订课件) 第五章计算机信息检索 山东轻工业学院 课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机信息检索系统的构成: 硬件部分——主机(服务器),外围设备---检索终 端,.网络设备,输入输出设备 软件部分——系统软件和应用软件 机读数据库——文献书目数据库,事实型数据库, 数值型数据库,全文数据库,多媒体数据库,超 文档数据库
计算机信息检索方法
1.布尔检索(复合检索) AND关系:称为逻辑与(逻辑乘). 例如:光度法 AND 铁 OR关系:称为逻辑或(逻辑加). 例如:光度法 OR 铁 NOT关系:称为逻辑非(逻辑减). 例如:光度法 NOT 铁
常用外文元搜索引擎: 1、Vivisimo ( /) 调用多种搜索引擎,并对返回的结果自动分类,界面友好 简单易用。 space 3.Dogpile 4.InfoGrid ( /) 提供与主要搜索网站的直接连结和目录检索,具有强大的 元搜索和新闻搜索功能。 5.MetaCrawler ( ) 支持调用12个独立搜索引擎,提供涵盖近20个主题的目录 检索服务。其检索特性非常丰富,包括常规检索、高级检 索、定制检索、国家或地区的资源检索等检索服务模式。 6. ()
计算机检索分类: 1.光盘检索:以菜单形式检索. a.光盘单机检索----(CD-ROM)只读 式光盘检索. b. b.光盘联机检索----局域网内的检 ---索. 2.网络检索 a.局域网检索 b.互联网检索
计算机信息检索原理: 计算机信息检索是用计算机代替人工检索的匹配 过程,与手工检索的基本原理相同。即, 采用人机交互式对话,计算机先接受检索提问 (即检索提问表达式),并且从数据库中查找 文献记录,然后在两者之间进行匹配运算,运 算过程的实质是检索提问式与数据库中文献记 录标识进行比较的过程。 用户对检索提问按照计算机匹配运算输出信息 的满意程度进行适当修改,直到得到检索结果 为止。 见教材P72
(2).超链接与超文本 用户通过浏览器观看一个网页时,会发现一些 带有下划线的文字或图形图片等,当鼠标指针指 向这一部分时,鼠标指针变成手形,称之为超链 接。当鼠标单击超链接时,浏览器就会显示出与 该超链接相关的内容。 具有超链接的文本就称为超文本。
(3)统一资源定位符(URL): 在www中用URL(uniform resource locator)定 义资源所在地,URL的地址格式为: 应用协议类型://信息资源所在主机名(域 名或IP地址)/路径名/…/文件名 例:/表示用HTTP协议 访问主机名为的web服务器的 主页。 (4)HTTP协议: 在web服务器和用户计算机间使用的超文本 传输协议。
■ 目录索引 目录索引虽然有搜索功能,但在严格意义上算 不上是真正的搜索引擎,仅仅是按目录分类的网 站链接列表而已。用户完全可以不用进行关键词 (Keywords)查询,仅靠分类目录也可找到需要 的信息。目录索引中最具代表性的莫过于大名鼎 鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内 的搜狐、新浪、网易搜索也都属于这一类。
发展概况: 一.脱机批处理检索阶段(1954~1964年)(off-line retrieval) 脱机检索就是利用单台计算机本机的输入输出装置进 行检索。 脱机检索的检索用户和计算机脱钩,不参与人机对话, 检索是以批处理进行的。 二.联机检索阶段(1965~1971)(on-line retrieval) 联机检索是指用户利用计算机终端设备,通过通讯 线路,从信息中心的计算机(主机)上获取所需的信息。 可实现人机对话,检索是以命令的形式进行的。 三.光盘检索阶段(1978-) 四.网络信息检索阶段(1990~) 又叫混合型检索.指Internet,具全球性的,知道网址就 可以随时随地访问。
4、知合网 /search/index.html 2005年8月推出,主要用作学习工值来排序。 5、K风元搜索 /k-metasearch/ 2007-1-2推出,由K风软件开发的元搜索引擎软件产品, 特色是IAsk,源搜索比较 丰富,但算机信息检索
第一节 计算机检索基础知识
第二节 Internet信息检索
第一节 计算机检索基础知识
概述: 20世纪90年代以来,随着Internet的发展, Internet上出现了庞大的信息资源。各种信息库、文献 数据库、事实数据库应有尽有,渗入了自然科学、社会 科学、工程技术等各个领域,包括一次文献和二次文献, 分布在全世界几百万台服务器上,运行于Internet上.如 何在茫茫的信息海洋中找到对你有用的信息,并以最快 的速度获取,这给每一位信息检索人员提出了新的课题, 也推动了信息检索学科的迅速发展。 美国报道生活新方式的期刊POV将互联网检索专家 作为未来十大热门职业之一。这充分说明了计算机信息 检索的重要性。
2.法定数检索(是布尔逻辑检索的一种改进) A*B*C*D 3.截词检索 右截词:又叫后端截词,前端一致. 如:chemi*表示查找结果含有chemical,chemist, chemistry等的信息。 左截词:又叫前端截词,后端一致。 如:*physics--- physics,biophysics, chemophysics, geophysics等。 中间截词:wom*n---woman,women.
4.词位置检索 nW关系:要求所连接的两个检索词在结果中相互 距离不超过n个词或字,而且前后顺序不能颠倒。 nN关系:前后顺序可以颠倒。 例如:A(2W)B;A(2N)B 5.字段检索 6.加权检索:加权符号为“+”或“-”. 例:+光度法-铁
第二节 Internet信息检索
一.Inernet信息常用获取方式 1.www(环球信息网) (1) www是world wide web(环球信息网)的缩写。中 文名称为万维网。它是在Internet环境下实现分布式超 文本检索的体系。 WWW采用的是客户/服务器结构,作用是整理 和储存各种WWW资源,并响应客户端软件的请求, 把客户所需的资源传送到Windows UNIX或Linux等平 台上。 www实际就是一个庞大的文件集合体,这些文件称 为网页或web页,存储在因特网上的成千上万台计算 机上,提供网页的计算机称为web服务器,或叫网站、 网点。
3.搜索引擎使用技巧 搜索引擎使用技巧
搜索引擎为用户查找信息提供了极大的方便, 你只需输入几个关键词,任何想要的资料都会从 世界各个角落汇集到你的电脑前。然而如果操作 不当,搜索效率也是会大打折扣的。 比方说你本想查询某方面的资料,可搜索引 擎返回的却是大量无关的信息。这种情况责任通 常不在搜索引擎,而是因为你没有掌握提高搜索 精度的技巧。那么如何才能提高信息检索的效率 呢?
搜索关键词提炼: 搜索关键词提炼:
无庸至疑,选择正确的关键词是一切的开始。 无庸至疑,选择正确的关键词是一切的开始。 学会从复杂搜索意图中提练出最具代表性 代表性和 学会从复杂搜索意图中提练出最具代表性和指示 的关键词对提高信息查询效率至关重要, 性的关键词对提高信息查询效率至关重要,这方 面的技巧(或者说经验)是所有搜索技巧之母。 面的技巧(或者说经验)是所有搜索技巧之母。
国内元搜索引擎: 1、BB猫 / 一个不得不提的中文元搜索引擎,.bbmao 的主要投资商是由 的创始人 Brad Greenspan 创立较理想。带有搜藏等功能,比较强大的一个元搜索引擎。 2、XISOSO元搜索 / oogle+Yahoo(只搜英文), 3、万纬搜索 / 一个老牌中文元搜索。核心一般、功能一般。
8.北斗搜索 北斗搜索 / 结果来自、搜狗、雅虎;左侧有深入搜索、相关搜 索;可以评价结果。
9.Xooda 元搜索引擎 支持本地搜索,一次输入,返回多个搜索引擎结果,并 对结果进行重新的优化排序。
10.Seekl 的结果,更科学更全面……
(5)浏览器及使用技巧 解决乱码: 关闭多媒体对象加快上网速度: 将常用主页设置为默认主页: 制作收藏夹: 代理服务器的使用:
2.电子邮件(E-mail) 3.远程登录(Telnet) 4.文件传输协议(FTP) 5五.电子公告版(BBS)用辅助工具 1.文件下载工具:网络蚂蚁(NetAnts) 网际快车Flashget(JetCar) 迅雷下载等等 2.文件压缩与解压工具:Winzip Winrar 3.PDF文件及其阅读软件:下载安装Adobe公司开 发的 Acrobat Reader 软件(免费),即可在不 同平台上阅读PDF文件。
四.Internet搜索引擎
1.概念:搜索引擎(Search Engines)指对WWW站点 资源和其他网络资源进行标引和检索的一类检索 系统机制。一般包括数据采集标引机制、数据组 织机制和用户检索机制。 www站点 搜索引擎基本结构图:
www站点 搜索引擎 用 户 系 统 采集标引机制 网 络 数据组织机制 用户检索机制 网 络 www站点 新闻组站点 Gopher站 点 FTP站点
2.搜 索 引 擎 分 类: 搜
搜索引擎按其工作方式主要可分为三种, 分别是: 全文搜索引擎(Full Text Search Engine) 目录索引类搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Engine)
■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎. 国外具代表性的有:Google、Fast/AllTheWeb、 AltaVista、Inktomi、T提取的各个网站的信息 (以网页文字为主)而建立的数据库中,检索与用户查 询条件匹配的相关记录,然后按一定的排列顺序将结果 返回给用户,因此他们是真正的搜索引擎。
■ 元搜索引擎 (META Search Engine) 元搜索引擎(Metasearch Engine),是一 种调用其它独立搜索引擎的引擎,亦称“搜索 引擎之母”。元搜索引擎就是对多个独立搜 索引擎的整合、调用、控制和优化利用。相 对元搜索引擎,可被利用的独立搜索引擎称 为“源搜索引擎”(source Engine),或 “搜索资源”(searcing resources),元搜 索引擎是用户同时利用多引擎进行网络搜索 的中介。检索时,元搜索引擎根据用户提交 的检索请求,调用源搜索引擎进行搜索,对 搜索结果进行汇集、筛选、删并等优化处理 后,以统一的格式在同一界面集中显示。