信息检索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
政府信息:是指国家组织、各国政府及其相关部门所发布的信息。
包括:有关组织机构的宗旨、业务范围、人员、出版物、最新消息发布,还有各种法律、法规或相关政策信息,从统计数据到立法建议等,内容相当广泛。
政策信息可以说是网上最有价值的一部分信息,由于出自官方,所以具有权威、可靠等特点。
另一个突出的特点是价廉,其中大部分是免费信息,有许多没有版权限制的政府文件,可以免费检索、获得。
万维网:www是world wide web的缩写也可以简称为web,中文名字为“万维网”。
它起源于1989年3月,由欧洲粒子物理实验室cern所发展出来的主从结构分布式超媒体系统。
通过万维网,人们只要通过使用简单的方法就可以迅速方便的取得丰富的信息资料。
RSS:RSS是一种用于共享新闻的其他web内容的数据交换规范,起源于Netscape公司1997年发展的技术,是将用户订阅的内容传送给他们的通信协同格式。
RSS原来是Rich Site Summary或RDF Site Summary的缩写,意思是把网站内容如标题、连接、部分内文甚至全文转换为“可扩展标示语言”的格式,以向其它网站提供信息,用户可以用一般的浏览器观看,也可以用一些特殊的RSS阅览器软件来阅读内容。
由于RSS提供非常方便的新闻内容授权与供稿模式,所以,后来RSS也就演变为really simple syndication缩写。
BBS:是电子布告栏系统,BBS是Internet上的一种电子信息服务系统,BBS提供一块公共电子黑板,每个用户都可以再上面书写,可发布信息或提出看法,像日常生活中的黑板报一样,电子公共牌按不同的主题分成很多个布告栏,布告栏设立的数据是按大多数BBS使用者的要求和喜好,使用者可以阅读他人关于某个主题的最新想法,也可以将自己的观点毫无保留地贴到布告栏上。
白页:网上白页是专用于查找因特尔用户个人信息的特殊工具,这些个人信息包括电话号码、e-mail地址、邮政编码甚至家庭住址等。
链接:链接是web页的元素,它是指向其他信息资源的指针。
网络资源目录:是由人工发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据,建立主题树分层目录,将采集、筛选后的信息分门类别地放入各大类或子类下面。
用户可以在这个分类结构中进行浏览。
中国期刊网:是中国知识基础设施工程的一个重要组成部分,于1999年6月正式启动,它的数据库主要有:中国期刊全文库,中国重要报纸全文库,中国优秀博硕士论文全文库,中国基础教育知识库,中国医院知识库,中国期刊题录数据库,中国专利数据库等。
黄页:是国际通用按企业性质和产品类别编排的工商电话号码薄,相当于城市或地区的工商企业的户口本,国际惯例用黄色纸张印制,故称黄页。
下位词:是概念上内涵更窄的关键词。
FTP:是因特网使用的文件传输协议。
该协议的主要功能是完全从一个系统到另一个系统完整的文件拷贝,即在因特网的联网计算机之间传输文件。
搜索引擎:是利用一个称为Robot的程序自动访问web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。
Robot搜集的网页被加入到搜索引擎的数据中,供用户检索使用,然后在用户录入关键字后进行检索,检索结果中一并附以摘要。
搜索提供商:是指为其他搜索引擎提供检索结果或技术支持的服务商,其主要经营项目不是为普通搜索者提供搜索服务,而是为目前大多数主流搜索引擎提供质量较优的结果和技术支持。
CNKI平台:中国国家知识基础设施工程,是中国学术期刊、清华同方光盘股份有限公司创建。
收录包括自然科学、工程科学、人文与社会科学等。
收录的文献类型有期刊、博士硕士论文、报纸、图书、会议论文。
北大法律信息网:是北大英华科技公司和北大法制信息中心共同创办的大型综合性法律网
站。
它是法律从业者的法律教学工作者查询和研究中国法律的重要的网络平台,其中的法律信息包括了英文版的中国的法律、法规、部门规章以及案例。
北大法律信息网事一个综合性并每月更新的中国法律信息平台,提供的网络服务包括法规中心、天问咨询、教育频道、法学文献、法律导航、法律动态等。
HTTP:是浏览器与web服务器之间相互通信的协议。
即www客户机和服务器用于在网上传输、响应用户请求的协议。
关键词:是直接来自文献本身,能够反映文献主题概念,具有实际检索意义的词语,以搜索引擎为代表的基于关键词的检索工具能够能利用全文索引技术,标引每一篇文档的每一个关键词,形成庞大的索引库,用户使用关键词进行检索,检索工具把用户输入的关键词与索引库中的词表进行匹配,所有出现该关键词的文档都将被检索到。
Archie:第一个网络信息检索工具FTP搜索引擎Archie它是一个基于关键词的检索工具。
万方数据资源系统:是一个以科技信息为主,集经济、金融、社会、人文信息为一体的网络化信息服务系统。
元搜素引擎:是一种基于搜索引擎的网络检索工具,它是将多个搜索引擎集成在一起通过一个统一的检索界面接收并处理用户的查询提问,在进行检索时调用一个或者多个独立搜索引擎的数据库,检索结果是来自独立搜索引擎的检索结果或者是来自多个搜索引擎检索结果集合的综合,呈现给用户的检索结构既可以是引用原始的独立搜索引擎的页面,也可以是由元搜索引擎重新制定后的形势。
HTML:是一种专门编程语言,具体规定和描述了文件显示的格式,也即web的描述语言,用于编制通过www显示的超文本文件。
Blog:指的是使个人在网站上写日志供大众阅读,Blog出版系统的进步,以及普遍应用RSS 供稿机制的缘故,许多相似主题的Blog之间自然串联成为一个个社群,Blog是重要的新闻来源,逐渐受到人们重视,人们以Blog形式来共享观念与思想变得越来越流行,由于RSS 是XML格式档,所以它很容易被其他程序所使用,Blog以RSS文档形式为其内容提供一个提要,该RSS文档可以通过一个普通的URL获得。
Google:是由斯坦福大学博士生Larry Page与Sergey Brin于1998年9月开发。
Google Inc.于1999年创立。
国家科技图书文献中心:由国家科技文献中心创建,是根据国务院领导的批示于2000年6月12日的一个虚拟的科技文献信息服务机构,由中国科技院图书馆、工程技术图书馆、中国科学技术信息研究所、机械工业信息研究所、冶金工业信息标准研究院,中国化工信息中心、中国农业科学院图书馆、中国医学科技院图书馆组成。
EconWPA:是由华盛顿大学经济学院组成创建的一个经济资源网络搜索引擎,可以免费检索经济学领域的学术文献,EconWAP主要致力于为作者提供免费发布经济学论文的平台。
文化信息:主要包括各类信息媒体的网站和世界各地图书馆的数字化馆藏及其联机公共查询目录。
浏览器:是一种应用于www的网络软件,它是运行在用户计算机上的客户程序,它不仅用于其它www服务器的链接,其更主要的用是帮助用户浏览、阅读和查询www信息资源。
浏览器可以分为3大类:行式浏览器、文本浏览器和使用图形界面的浏览器。
定性评价:即按照一定的评价标准对被评站点的各方面特征、质量作出主观评判。
一般有问卷调查、专家评议等方式。
超星数字图书馆:是国家“八六三”计划中国数字图书馆示范工程项目,由中国社科院、广东省立中山图书馆、深圳图书馆、美国加州大学等20几家单位和超星公司共同开办,已拥有数字图书30多万册,并以每天数百种的速度增加,其中部分可供免费浏览,浏览超星电子图书必须使用专门定制的浏览软件——超星图书阅览器,可在其网站内下载。
电子期刊:指通过计算机通信网络出版的一种电子期刊,有时也被成为网络期刊,目前电子期刊的编制单位众多,发展势头强劲,涵盖内容广泛,发行与订购方式、价格模式呈现多样化。
其主要类型有:1)期刊数据库2)期刊网站3)集合型期刊4)电子邮件期刊
Baidu:1)编制者:1999年底李彦宏和徐勇于美国硅谷创建百度。
2000年,百度回国发展,从此掀开了中文搜索引擎的新篇章2)数据库规模和范围:全国最大中文搜索引擎之一,百度以超过2亿的中文网页,全球独有的“超链分析“技术,快捷的反应速度,庞大的服务器群,接收来自全球各个国家的中文搜索请求。
利用百度可检索的资源类型包括:网页资源、新闻、5万个flash图片、超过60万德MP3音乐的地理资源,另外百度按照主题分类方式组织建立的网站资源列表,收录了上万个质量很好的网站,并有专职人员负责维护和更新,是很好的网络资源。
Telnet:在远程计算机上登录,是自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程计算机中对外开放的相应资源,简言之,就是通过远程登录后,可以访问、共享的远程系统中的资源。
学科分类法:是以知识分类为基础,按照学科性质及从属,层次关系来组织网络资源,类目排序以文字顺序为标准。
休闲娱乐信息:被称为是网上“最成功”的领域,包括:旅游信息,任一旅游城市的风景名胜、特产、风俗、以及宾馆、饭店、住宿、交通等信息均为可在网上找到。
购物信息,各种网上书店、网上商品、价格、销售信息。
还有为任何一种可想象出的兴趣,爱好而开设的网站、讨论组、网络俱乐部等。
科研信息:主要指各专业学术研究所设立的网站及其相关信息,包括:目标、宗旨、成员、主要出版物、最新学术活动安排、各种学术性电子期刊、学科专题论坛、讨论组、各学科应用工具性、研究型计算机软件等。
专利文献:是非常重要的技术信息源,通过检索、利用专利文献可以获得有关先进技术的发明及应用的最新信息,对技术创新、成果开发等有积极地借鉴、参考、启迪作用。
在研究工作中经常查阅专利文献可以缩短研究时间,节省研究费用。
同时,专利文献还提供相关的法权信息,在引进国外技术和设备时通过查阅专利可以比较各国、各公司的技术、设备先进程度、核实有关专利项目以保护自身利益。
主题分类法:其特征是一个主题充当一个类目,类目像主题词一样按字顺序排列,而不是以逻辑顺序排列,一个类目又可以分为若干细目,同位类的细目也是按字顺序排列,这种分类实质上时分类法和主题法相互融合的产物。
QBIC:由IBM公司于20世纪90年代开发,是一个图像和动态影像检索系统。
该系统由data population 和database query 两部分构成,data population负责对系统存储的图像进行多种特征抽取和维护特征索引库,data query负责对用户查询输入的对象进行同样的特征抽取,并将特征信息输入匹配引擎,检索出具有相似特征的图像,两部分中间使用一个过滤索引生成器相连,所有的查询,反馈过程都必须经过过滤索引生成器,才能进入匹配引擎,这样提高了系统的总体速度。
文档分析:主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出,其基本目的是为了获得最优秀的索引记录,使用户能很容易的检索所需的信息。
文档分析首先要经历信息过滤的步骤,即将html文档的词从大量用于描述文档格式的标签中分离出来。
OCLC FirstSearch:是由美国OCLC创建的,是一个非盈利,成员制的联机计算机图书馆服务和研究机构,也是世界上最大的文献信息服务机构之一,包括期刊论文、图书、专利、政府报告、报纸、学位论文、会议论文、视音频等文献类型。
学科范围包括艺术和人文学科、商业管理和经济学、会议和会议录、消费事物和人物、教育、工程技术、综合性学科、一般参考、生命学科、医院与卫生科学、新闻和时事、公共事务和法律、社会科学。
目录性检索工具:一般称为网络资源目录又称分类站点目录、站点导航系统、专题目录或主题指南等。
它是由网络开发者将网络资源收集后,以某种分类体系进行组织加工整理,并和检索法集成的一种可供分类浏览和检索的等级结构式目录。
网络资源目录一般是通过引导网络用户的查询概念来帮助用户找到所需的网络信息。
桌面元搜索引擎:不是通过网上调用方式在线使用,而是直接在用户的计算机上运行,相当于用户自己拥有一个元搜索引擎,他们往往是一个个小型的软件,这种软件是应那些不大熟悉各大搜索引擎,或者说没有精力去逐一访问各个搜索引擎进行检索的用户的需求而产生。
桌面元搜索引擎通常包括两个主要的功能模块:一个模块负责接收用户的检索提问,并翻译成对应不同搜索引擎的语法,通过网络接口连接多个在线搜索引擎,他们往往允许用户自定义检索式运行的搜索引擎集合,甚至可由用户添加新的搜索引擎;另一个模块负责结果的浏览,该模块往往由软件集成的web浏览器实现,各个搜素引起返回的结果在浏览器的不同窗口中显示。
年鉴:是指每年出版社的统计数据和事实的汇编,兼有限期性和回溯性内容,其包含的地区和科学领域可能较为宽广,也可能限于某一特定国家或特定的主题。
黄页信息服务:是指用于查询个人电环号码的网上信息查询服务,黄页就是电话号码薄,目前几乎世界每一个城市都有以这种纸张为载体所印制的电话号码薄。
随着人们对网络的广泛利用,网页信息也被搬到网上,被称为“网上黄页”但“网上黄页”不是传统黄页的翻版,其内容广泛,服务功能更多样化,除电话号码外,还提供如公司名称、地址、传真、邮编、网址、产品、行业和公司简介等信息。
eBay:是世界最大最著名的拍卖网站,于1995年5月1日由皮埃尔奥美迪亚尔创办。
eBay 易趣是全球最大的电子商务公司eBay和国内领先的门户网站,无线互联网公司TOM在线于2006年12月携手组建一家合资公司,1999年8月,易趣在上海创办,2002年易趣与eBay 结盟,更名为eBay易趣,并迅速发展成为国内最大的在线交易社区。
上位词:指概念上外延更广的关键词,或者可以说每一个关键词所覆盖的信息范围都是它的上位词所覆盖信息范围的子集。
URL:又称信息资源的统一定为格式或统一资源定位器,实际上是一个用以标识文档型及其所在网络地址的字符串,它的用途是用统一的方式指明因特网上信息资源的位置。
URL包括3部分:所使用的传输协议,服务器名称,该服务器上定位文档的全路径名。
教育信息:主要有各大学所设立的网站及相关信息。
简述网络资源目录使用的分类法:主题分类法,学科分类法,图书分类法,分面组配法。
简述自动归类的工作原理:自动归类是分析网页的内容特征,并与事先拟定的各种类别中的特征描述进行比较,然后将对象归入特征最接近的一类,并赋予相应的分类号。
简述在选择、使用各元搜素引擎时应注意的几个特点:1.所集成搜索引擎的数量和名称2.检索提问的输入及处理3.其他检索选项4.检索结果的处理
简述用关键词检索的技巧:1.有足够多的关键词2.清楚停用词和常用词3.注意关键词的分类和对象关键词4.使用截词检索和通配符5.选定合适的关键词级别6.利用同义词7.尽量使用词组检索8.使用英文专业术语检索。
简述因特网信息资源的定量评价:即利用数量分析方法,对调查统计数据进行分析,进而作出比较系统,客观的评价,目前对网络信息进行定量评价一般是以统计访问次数,登录情况,链接数量等进行统计分析,进而对用户兴趣,网站影响力,站点所提供信息的水平和可信度等做出评判。
论述进行网络信息资源评价的意义:从信息海洋中经过甄别,挑选出有学术价值或利用价值的精华部分,推荐给用户使用,可以较好的屏蔽一些信息污染或检索噪声,大大的提高用户利用因特网信息资源的效率。
网络用户懂得评价可使自己的上网“冲浪“是建立在某种分
析,判断基础上的”智能型“的访问,还能对自己所搜集,获取到的信息资源的价值有所判断。
能够使其在编辑,生产网络信息的过程中有所规范,以便在几个关键的方面注意按照标准的要求去做,进而提高,改善网络信息的质量。
简述因特网信息资源检索的标准:1检索范围大2检索效率高3检索工具强大4信息冗余大简述元搜素引擎与普通搜索引擎的区别:元搜索引擎与普通搜索引擎的区别在于普通搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多的是提供统一连接界面,形成一个由多个分布的,具有独立功能的搜索引擎构成的虚拟体系,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。
简述网上参考信息源的主要类型:1百科知识检索网站2人物信息检索网站3地理信息检索网站4时事、新闻信息检索服务5机构信息检索网站6词语信息检索网站7统计信息检索网站
论述网络信息检索中的法律问题:1侵犯隐私的风险2搜素技术本身的争议和“安全港”规定3网页缓存功能的争议4搜索引擎营销中的法律纠纷
简述网络资源目录检索的局限性:受人工标引的限制,网络资源目录的搜索范围较搜索引擎要小许多,要保证目录结构的清晰性,每一类目下的条目也不宜过多,因此大大的限制了网络资源目录的容量。
收录的网页数量和标引深度相对不足,很难检索到较专深的信息,且信息更新速度相对较慢。
难于控制主题等级类目的质量,各系统的分类体系和标引方式不统一,不规范,如果检索者的检索思路与目录的划分标准不一致则会导致误差、漏查。
简述元搜索引擎的功能:元搜索引擎是搜索引擎的搜索引擎,换句话说用户只需将检索需求提交给元搜索引擎,元搜素引擎负责将用户提问发送到众多搜索引擎中去检索,并将得到的所有结果处理后一并提交给用户。
论述分类浏览和关键词检索的优缺点:分类浏览一般是基于网站分类目录。
它浏览的对象是网站,目录分类的质量较高,检索效果好;但是成本高、信息更新慢、维护的工作量大。
关键词检索的对象不是网站,而是符合条件的网页。
关键词检索信息量大、更新及时、不需要人工干预;但是返回检索结果过多,检索效率不高。
简述搜索引擎的基本功能:1布尔检索2词组检索3禁用词检索4截词检索
简述影响搜索引擎进一步发展的瓶颈:1搜索引擎索引更新慢2检索结果的排序仍然不能令人满意3搜索引擎不能查找动态生成的网页
简述因特网信息资源的优缺点:优点1检索简单易行,利于上手2检索到的信息较新,时效性好3可以达到较高的检全率4符合检索语言的文献保障原则和用户保障原则。
缺点1关键词怨言难以反映词间的相关关系2分散主题,影响查准率3自动标引无法完全解决标引不一致的问题
论述网络信息检索策略:1确定自己的问题是否适合Internet2了解Internet信息检索的特殊性3了解可用的检索工具4仔细分析自己的信息需求并选择合适的工具5根据检索结果调整检索策略6检索必须找到地方,选择合适的提问方式
简述高级检索功能:1布尔检索2截词检索3位置检索4加权检索5字符串检索6限制检索7概念检索8模糊检索9深入检索
简述因特网上信息资源的种类:1web信息资源2telnet3ftp信息资源4用户组信息资源5rss 信息资源
简述网络信息检索模型:1布尔检索模型2向量空间模型3概率模型4扩展布尔模型
对因特网存在的误解:1)认为因特网无所不包、无所不能,所有信息都在网上找到。
2)认为因特网找到的下载下来的都是正确的。
3)认为因特网可以完全取代其他的媒体和信息渠道。
4)认为因特网上的信息无太多的利用价值仅仅限于聊天、菜谱、各种发烧友俱乐部等
非正式、娱乐性信息、缺乏严肃类信息。
因特网信息的特点:无限性和广泛性、多样性、共享性、廉价性、新颖性、无序性。
因特网上信息资源的种类:从媒体类型上分为:文本、图像、声音、视频多种信息;从访问权限上:开放信息、保密信息;从表现形式上分:全文型、事实型、数据型、目录型、实时型。
因特网信息资源的评价标准:1)目的:该网站的目的是什么?它的内容是否符合它的目的。
2)范围:该网站所覆盖的主题领域,所提供的信息的广度、深度、时间范围及所包含的网络资源类型范围。
3)内容:准确性、权威性、新颖性、独特性、可靠性、链结、图像和多媒体设计、信息展示和设计、可操作性。
关键词检索所提高的功能:布尔检索、截词检索、位置检索、加权检索、字符串检索、限制检索、概念检索、模糊检索、深入检索。
一个完整的搜索引擎应具备5个部分:搜索器、搜索引擎数据库、索引器、检索引擎、用户接口。
因特网检索工具的性能评价:1)收录范围。
2)检索功能:检索功能直接影响信息检索的检全率、检准率、检索的灵活性、方便性及检索速度,是评价与选择因特网信息检索工具的核心指标。
3)检索效率:包括检全率、检准率。
4)检索结果的处理与展示:这是最直观的指标。
5)用户界面设计。
国外搜索引擎的检索功能:1)基本检索:布尔检索、词组检索、禁用词检索、截词检索、同义词检索、Google不区分大小写。
2)网页特殊搜索:特殊文档检索、字段搜索。
3)网页目录。
元搜索引擎的分类:桌面元搜索引擎、ALL-IN-ONE式元搜索引擎、并行检索式元搜索引擎。
ALL-IN-ONE式元搜索引擎与并行检索式元搜索引擎区别:ALL-IN-ONE方式的元搜索引擎又称搜索引擎元目录,检索的还是某一搜索引擎的数据库,与普通单一搜索引擎的检索是一样的。
只不过是设立了又一层门户,通过其组织、检索界面,为用户选择合适的检索工具提供积极的帮助,以克服用户面对众多的检索工具的茫然和无所适从。
并行检索式元搜索引擎是将多个搜索引擎集成在一起,提供一个统一的检索界面,用户发出检索请求后,提问式被被同时分别提交、发送个哦多个独立搜索引擎,同时检索多个数据库,最终输出的检索结果是经过聚合、去重之后反馈的多个独立搜索引擎查询结果的综合。
元搜索引擎与普通搜索引擎的区别:普通搜索引擎与元搜索引擎的主要区别在于普通搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多的是提供一连接界面,形成一个有多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。
元搜索引擎中各嘟噜搜索引擎被称为“目标搜索引擎”或者“成员搜索引擎”,他们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。
中国期刊检索系统:中国期刊网是中共只是基础设施工程简称CNKI的一个重要组成部分,与1999年6月正式启动。
它的数据库主要有:中国期刊全文库、中国重要报纸全文库、中国优秀博硕士论文全文库、中国期刊基础教育知识库、中国医院知识库、中国期刊题录数据库、中国专利数据库等。
其中中国期刊全文库收录了1994年以来6600多种中文学术期刊,其中全文库收录期刊5000多种,数据每日更新。
内容涉及理、工、农、医、教育、经济、文史哲等9个专辑,126个专题。
法律信息检索工具:因特网上关于法律专业的信息纷繁复杂、数不胜数,在众多中外法律信息网络检索工具中,LexisNexis最为著名。
图像检索原理:从20世纪70年代开始,有关图像检索的研究就已经开始,当时主要是基于。