都柏林核心集综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
标准化建设
都柏林核心集作为新兴的电子资源描述方案,他的基本项目框架已经 趋于成熟,而它的标准化建设问题将直接影响它的发展和应用。 都柏林核心集元素允许任何背景的人为自己的资源提供描述信息, 他们可以根据自己的需要和喜好为元数据赋值,这就造成了资源描述信 息的不规范性;另一方面,网上用户即使要得到某一特定主题的信息, 也可能选取不同的检索词,没有标准可以遵循。这两方面的原因都会削 弱都柏林核心集的使用效果。解决这个问题,如果没有给资源提供者提 出更好的办法,就违背了都柏林核心集创建的初衷。
可重复与可修饰性 其所有元素都可重复使用,解决了多著者与多出版等重复元素的著 录问题,对于需要详细著录的资料,引进了DC修饰词。[1] 国际通用性 获得万维网上资源发现界国际范围的认同,对有效的发现架构之发 展非常关键。[1] 灵活的可扩展性 提供了更加精心制作的描述模型 (如MARC 编目)以外的经济的选择, 既可以嵌入在HTML(RFC2731)中,也可基于XML进行描述,与当今互联 网上的相关置标语言标准有很强的亲和性;允许资料以地区性规范出现, 并保持元数据的一些特性,从而适应更丰富的资源标准内部的结构和更 详细描述的语义编码。
都柏林核心元素集的特点
简易性 DC只有15个元素,通俗易懂,如题名项不分正题名、副题名还是并 列题名等统称为题名即Title;著者项也没有细分第一责任者、其他责任 者等而统一用著者即Creator加以标识,使用起来非常简单。都柏林核心 希望能够同时为非编目人员及资源描述专家所用,且多数元素的语义都 能被普遍理解,这正适应了数字图书馆信息量迅速膨胀,由专业人员进 行著录已是不可能的事实。 通用性 不针对某个特定的学科或领域,支持对任何内容的资源进行描述, 这个有助于统一其他内容标准并普遍为人们所了解的描述符集合增加了 跨学科的语义互操作性的可能。 可选择性 著录项目可以简化,只要确保最低限度的 7个元素 (题名、出版者、 形式、类型、标识符、日期和主题)就可以了。
格式(Format) 标识:Format 定义:资源物理或数字化的特有表示。 解释:格式可包括媒体类型或资源容量。也可用于限定资源显示或操 作所需的软件、硬件或其它设备,如容量包括数据所占空间和存在期间。 标识(Identifier) 标识:Identifier 定义:依据有关规定分配给资源的标识性信息。 解释:推荐使用依据格式化标识系统规定的字符或号码标识资源。 语言(Language) 标识:Language 定义:资源知识内容使用的语种。 解释:推荐使用由 RFC1766 定义的语种代码,它由两位字符(源自 ISO639)组成。
都柏林核心集元数据就是通过对Web上的电子资源进行描述(编目), 来提高资源信息检索的效率(或有效性)。网页搜索引擎首先搜索网页 的<Head></Head>区域中元数据部分,即写在<META>标签后的信息。因此, 网页作者能否主动、准确地对网页或网站的元数据进行描述,将影响Web 电子资源的定位效率。根据实验统计,在采用都柏林核心集对网页进行 描述后,检索的准确效率比没有描述的网页提高10倍。
都柏林核心元素集在Web检索的应用
在网上发布信息就是要使尽可能多的人获得这些信息,要达到这个目 的就要充分的做宣传,让人们知道并访问它。最流行的方法是将你的站 点的材料提交给网上著名的搜索引擎或目录服务系统,它们会派出子集 的网页搜索软件,如“机器人(Robot)” 或“蜘蛛(Spider)”在网 上爬行,根据搜索到的站点及记录下来的站点信息,自动进行索引,并 以此形成自己的信息库。网页搜索软件会首先搜索网页的<Head></Head> 区域中元数据部分,及写在 <META>标签后的信息。这新信息所表示的内 容不出现在页面中,只是页面的基本设置信息,如,页面的标题、关键 词描述等,这些信息由资源提供者负责提供。如果资源的提供者没有给 出这些信息,网页搜索软件将要搜索这个网页的文本信息,自动抽取信 息进行索引。而这样抽取的信息是否能够真正反映页面的内容值得怀疑。 因此,主动提供对电子资源的元数据描述,将直接影响资源的定位效率。
贡献者(Contributor) 标识:Contributor 定义:制作资源有重要作用的责任实体。 解释:发行者包括个人、组织或机构。 应是用于标识发行者实体的有代表性的名称。 时间(Date) 标识:Date 定义:与资源使用期限相关的日期、时间。 解释:资源产生或有效使用的日期、时间。 类型(Type) 标识:Type 定义:资源内容方面的特征或体裁。 解释:类型包括种类、功能、体裁或作品集成级别等描述性术语。
都柏林核心集综述
Dublin Core
都柏林核心元素集(Dublin Core Element Set,以下简 称 DC )是一个致力于规范 Web 资源体系结构的国际性元数 据解决方案,它定义了一个所有 Web 资源都应遵循的通用 的核心标准,其内容较少,也比较通用,因此得到了其他 相关标准的广泛支持。面向其他类型资源的元数据标准, 基本上都兼容DC标准,并对它作了扩展。
来源(Source) 标识:Source 定义:可获取现存资源的有关信息。 解释:可从原资源整体或部分获得现有资源。建议使用正规标识系统确定的 字符或号码标引资源来源信息。 相关资源(Relation) 标识:Relation 定义:对相关资源的参照。 解释:推荐用依据正规标识系统确定的字符或号码标引资源参照信息。 范围(Coverage) 标识:Coverage 定义:资源内容的领域或范围。 解释:范围包括空间定位(地名或地理坐标),时代(年代、日期或日期范 围)或权限范围。 版权(Rights) 标识:Rights 定义:持有或拥有该资源权力的信息。 解释:版权项包括资源版权管理的说明。
应该是用于标识创作、制作者实体的具有代表性的名称。
主题及关键词(Subject and Keywords) 标识:Subject 定义:资源内容的主题。 解释:用以描述资源主要内容的关键词语或分类号码表示 的有代表性的主题词。 描述(Description) 标识:Description 定义:有关资源内容的说明。 解释:该说明可以包括但并不限于:摘要,内容目次,内 容图示或内容的文字说明。 出版者(Publisher) 标识:Publisher 定义:对资源内容负有发行责任的实体。 解释:如包括个人、组织或机构的出版者。 应是用于标识出版者实体的有代表性的名称。
数字图书馆最显著的特征在于它能够提供网上的电子信息资源服务, 都柏林核心集元数据的广泛应用将为电子出版和数字图书馆的建设作出 贡献。
都柏林百度文库心集应用现状及问题研究
应用现状
尽管都柏林核心集简便易学,而且它在提高检索准确率方面效果明 显。但是,它的利用情况并不能令人满意。据统计,因特网上使用一个 都柏林核心集元素(Title )的网页,只占21%;国内的网页中使用三个 元数据(Title,Description,Subject)的站点只占10%。
通过上述15项可以看出,元数据解决方案比较全面地概 括了电子资源的主要特征,涵盖了资源的重要检索点(标题、 创建者,主题项)、辅助检索点或关联检索点(出版者、贡 献人、标示符、语言、关联项),以及有价值的描述性信息 (描述、日期、类型、格式、来源信息、覆盖范围、权限 项);其次,它简洁和规范。这15个元素不仅可以用于电子 文档,也适用于各类电子化的公务文档,以及产品、商品、 藏品目录等,具有很高的实用性。
都柏林核心元素集的产生
1995年3月,由OCLC(Online Computer library Center, 联机计算机图书馆中心)和NCSA(National Center for Supercomputing Applications,美国国家超级计算应用 中心)联合在美国俄亥俄州的都柏林镇召开的第一届元数 据研讨会上,产生了一个精简的元数据集——都柏林核心 元素集(Dublin Core Element Set),简称DC。其目的 是,如何用一个简单的元数据记录来描述种类繁多的电子 信息,使非图书馆专业人员也有能够了解和使用这种著录 格式,达到有效地描述和检索网上资源。
都柏林核心元素集的数据
Dublin Core 的拟定者们参照图书馆卡片目录的模式,制定 了十五项广义的元数据
标题(Title) 标识:Title 定义:分配给资源的名称。 解释:使资源为众所周知的有代表性的正规名称。
创作、制作者(Creator)
标识:Creator
定义:制作资源内容的主要责任实体。 解释:创作、制作者包括个人、组织或机构。