Google数字图书馆计划及其影响分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Google数字图书馆计划及其影响分析题型:
填空题(20个20分)
选择题(8个8分)
名词解释(5个20分)
简答题(5题40分)
论述题(12分)
数字图书馆考试重点
1.
2. MARC和DC
MARC机读编目格式标准(英语:MAchine-Readable Cataloging,缩写:MARC),是一种图书管理的通讯格式标准,用以让图书馆或出版商之间作目录信息交换用途。MARC标准源于美国国会图书馆于
1970年代开发的目录格式。虽然说是标准,但其实MARC是各国的机读编目格式标准的一个大集合,每个国家依然有自己的格式标准。
DC(Dublin Core) 是数字图书馆中使用的一组简单的包括15个“核心元素”的元数据元素集合,主要用于描述数字对象、馆藏管理和元数据交换。这15项元数据不仅适用于电子文献目录,也适用于各类电子化的公务文档目录,产品、商品、藏品目录,具有很好的实用性。
3. 数据压缩的含义和类型
数据压缩是指在不丢失信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间。数据压缩包括有损压缩和无损压缩。
4. 主要的存储设备;(磁盘阵列、光盘塔、光盘库、磁带机、磁带库、光盘网络镜像服务器)
(1)硬盘阵列由于它的访问速度非常快,所以它主要用于数据的实时共享,还可以用于小型的VOD点播系统。
(2)CD-ROM光盘塔的光驱访问速度相比于硬盘来说,速度慢了一些,而且光驱数量有限,数据源很少,所以供同时使用的用户数量也很少,但是由于光驱的价格很低,作为低端产品,它还是能够适用于一些用户的要求。
(3)CD-ROM光盘库的数据访问速度与CD-ROM光盘塔速度差不多,但是它所能提供的数据量更大些。
(4)磁带机是我们最常用的数据备份设备,按它的按带方式可分为人工加载磁带机和自动加载磁带机两大类。人工加载磁带机在换磁带时需要人工干预,只能备份一盘磁带,所以只适用于备份数据量较小的中小型企业选用(通常为8GB、24GB和40GB);自动加载磁带机则可在一盘磁带备份满后,自动卸载原有磁带,并加载新的空磁带,适用于备份数据量较大的大、中型企业选用。
(5)磁带库是像自动加载磁带机一样的基于磁带的备份系统,它能够提供同样的基本自动备份和数据恢复功能,但同时具有更先进的技术特点。它的存储容量可达到数百PB(1PB=100万GB),可以实现连续备份、自动搜索磁带,也可以在驱动管理软件控制下实现智能恢复、实时监控和统计,整个数据存储备份过程完全摆脱了人工干涉。
(6)光盘网络镜像服务器是继第一代的光盘库和第二代的光盘塔之后,新开发出的一种可在网络上实现光盘信息共享的网络存储设备。光盘镜像服务器有一台或几台CD-ROM驱动器。网络管理员可通过光
盘镜像服务器上的CD-ROM驱动器将光盘镜像到服务器硬盘中,也可
利用网络服务器或客户机上的CD-ROM驱动器将光盘从远程镜像到光
盘镜像服务器硬盘中。
光盘网络镜像服务器不仅具有大型光盘库的超大存储容量,而且
还具有与硬盘相同的访问速度,其单位存储成本(分摊到每张光盘上的设备成本)大大低于光盘库和光盘塔,因此光盘网络镜像服务器已开始取代光盘库和光盘塔,逐渐成为光盘网络共享设备中的主流产品。
5. 基于内容的信息检索含义,图像内容检索的特征p112;
基于内容的信息检索是通过对信息的模式识别和分析理解,从中
抽取信息的有关内容特征并加以标示和组织,用户以此作为检索的依据,完成信息数据库中存储信息的匹配,从而实现信息的直接定位和查找。多媒体数据类型、特征描述不同,其检索技术方法也会有区别。
基于内容的图像检索是把图像的可视特征如颜色、形状、纹理、
区域等作为图像的内容进行匹配、查找。
6. 跨语言信息检索主要技术(有翻译技术和优化技术,将检索技术和翻译技术结合)p117
跨语言信息检索有三种公认的主要翻译技术:机器翻译技术、基于词典的方法、基于平行或比较语料库的方法。一般而言,上述三种方法并不是孤立存在的,在构建实际系统时常常会综合利用。
第一、机器翻译技术。对于CLIR,机器翻译技术是一种显然的选择。实现跨语言检索系统最直接的方法是将机器翻译系统应用于检索过程中。具体来说有两种方法:一种方法是将用户的查询翻译为与文档相同的语种;另一种方法是将文档翻译为与查询相同的语种,然后再用单语种的信息检索系统进行检索。
第二、基于词典的方法。基于词典的方法主要是利用双语词典,将用户提交的提问式翻译成目标语种,然后进行检索。双语词典是跨语言信息检索系统中的基本资源,Lisa Ballesteros采用双语字典的方法达到了90%的单语检索的效果。在提问式翻译中,机器翻译方法不一定比基于词典翻译方法好。Ballesteros和Croft在报告中指出,基于词典翻译方法胜过流行的商业性机器翻译系统。
第三、基于语料库的方法。语料库是将同一信息或同一主题的信息用两种或多种语言进行描述,并由人工或计算机建立不同语种间信
息联系的集合,对单词用法的统计。基于语料库的方法从大规模的语料入手,从中抽取所需的信息,自动构建与应用有关的翻译技术。根据所使用的语料库的类型,基于语料库的方法可分为基于平行语料库的方法和基于比较语料库的方法。
跨语言信息检索优化技术主要有三类:查询扩展、检索反馈技术、消除检索词义性。
第一、查询扩展。查询扩展指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词语或者与原查询语义相关联的概念添加到原查询,得到比原查询更长的新查询,然后检索文档,以改善信
息检索的性能,解决信息检索领域长期困扰的词不匹配的问题,以弥补用户查询信息不足的缺陷。目前关键词查询扩展技术按照其扩展词的不同主要有全局分析、局部分析、基于关联规则的和基于用户查询日志的查询扩展技术等几种。
第二、检索反馈技术。在跨语言信息检索中,通过一次检索往往得不到想要的结果目的文献,这时就需要通过检索结果中反馈的信息对提问式检索方法或翻译方法进行改进。特别是当用户和信息系统进行交互式检索文献时,适当的用户反馈相当重要,大量的实验也表明使用检索反馈技术可以极大地改善系统。