科学数据库标准规范建设
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
元数据需求规格书 数据库设计说明书
数据库建设文档
应用开发文档 更新维护文档
数据库建库分析与文档建设
❖ 科学数据库文档模板草案
数据库设计说明书
❖ 数据分析说明 ❖ 元数据分析说明 ❖ 数据库外部设计说明 ❖ 结构设计说明 ❖ 运用设计说明
数据库应用需求说明书 数据更新维护说明书
❖ 2002年8.20-9.20向各建库单位征求意见, 2002年10月经专家委员会认可后发布执行
Searching Interface N
SDB Portal
Searching Interface A
Searching Interface B
DB1
DB2
DBN
DB1 DB2 DBN DB1 DB2 DBN
Group A
Group B
数据共享的需求
❖ 数据共享的必要性与可行性
科学内的协同工作 跨学科的联合研究 虚拟科研环境 信息技术的发展提供了可能
关于数据集的元数据
数据 数据 数据
元数据 元数据 元数据
数据类型相同 元数据结构和描述方法相同
数据集
数据集元数据
关于数据集内容、质量、 结构等相关属性的描述
关于数据集的元数据
❖ 数据集层面的元数据主要功能与作用
标识数据集 描述数据集的上下文信息 数据集的管理 帮助用户发现、定位、使用数据集及数据集
材料科学 ❖ 高分子材料、光学材料、材料腐蚀、纳米材料
天文学 ❖ 天文星表、天文观测
大气科学 ❖ 大气科学Hale Waihona Puke Baidu环境、算法与模式
海洋、能源及少量跨学科领域
科学数据库资源状况(cont.)
❖ 数据资源的基本来源
实验 观测 实地考察 调查 文献资料整理 统计分析 科学计算 镜像
科学数据库资源状况(cont.)
中的数据
科学数据库元数据标准/格式
❖ 形成数据集或某类数据资源的元数据的所有规 则集合。不同类型的资源可能有不同的元数据 标准/格式。
❖ 完整的元数据标准/格式应该包括 元数据项的结构和语义 元数据著录规则(控制词汇表) 元数据编码规则(语法)
❖ 同类资源的元数据遵循同样的元数据标准/格式 可以实现元数据共享与互操作,同时也容易实 现资源的共享
提纲
❖为什么需要进行标准规范建设 ❖标准规范建设的主要任务 ❖数据库分析设计流程与文档规范化 ❖元数据建设基本设想
科学数据库元数据的定义
❖ 科学数据库中元数据的基本定义
元数据是对科学数据库系统中的数据和数据 集的内容、质量、状态、使用等相关特性的 结构化的描述,其目的是使用户能快速、便 捷地发现和访问数据,正确地理解数据、评 价数据和使用数据;使管理者能有效地管理 数据并对数据访问进行控制。
非结构化的(Unstructured)
❖ File System(Flat File),如实验报告、图形、图像等
数据库建设过程中完全的自治性
❖ 科学数据库建设过程中完全的自治性 (autonomous)
❖数据选择 ❖数据表示和数据模型 ❖数据项的命名 ❖对数据所表示的概念和语义的解释 ❖系统的功能设计 ❖系统与其他系统之间关联和共享 ❖数据库的实现
❖ 部分建库单位不能提供长期稳定的数据服务 ❖ 对数据共享认识上的差异 ❖ 知识产权方面的顾虑与担心
提纲
❖为什么需要进行标准规范建设 ❖标准规范建设的主要任务 ❖数据库分析设计流程与文档规范化 ❖元数据建设基本设想
主要任务
❖ 元数据标准体系的研究和制订
数据集的元数据标准 各学科领域典型的元数据标准
❖ http://www.nbii.gov
Data Grid
实施数据共享面临的主要问题
❖ 建库过程中完全的自治性带来的各个层面的异构 性
系统异构性、语法异构性、语义的异构性等
❖ 建库过程中缺乏必要的建库文档所带来的数据库 的不透明性和不可控制性
❖ 缺乏对数据质量的评估,不能保证数据的精确性 和完整性
元数据标准的作用
❖ 标准化可以实现数据的交换和共享
关于数据的元数据
数据
元数据
数据内容 数据质量 数据状态
数据使用
关于数据的解释和说明
数据对象/信息 对象
关于数据的元数据
❖ 关于数据的元数据主要功能与作用
说明数据的内涵和意义 描述数据产生环境、条件及数据质量等相关
信息 保证数据的精确性和完整性
❖ 关于数据的元数据建设情况
以结构化的数据库组织管理的数据 以非结构化的形式组织管理的数据
提纲
❖为什么需要进行标准规范建设 ❖标准规范建设的主要任务 ❖数据库分析设计流程与文档规范化 ❖元数据建设基本设想
科学数据库资源状况
❖ 数据资源的学科分布
地球科学 ❖ 空间数据、自然资源、地球环境、地质
生命科学 ❖ 生物多样性、生态环境、基因、病毒
化学 ❖ 结构、谱图、反应、化工产品、化合物、化学过程、化学品安全
❖ GRID、Metadata
❖ 国际国内数据共享的范例
NSDI(National Spatial Data Infrastructure)
❖ http://www.fgdc.gov/nsdi/nsdi.html
NBII(National Biological Information Infrastructure)
自治性带来的异构性
❖ 自治性带来的异构性
硬件平台异构性 操作系统异构性 数据库系统的异构性
❖数据库管理系统的异构性 ❖语义异构性(主要来自于对数据所表示的概念和语义
的解释的自治性)
各自独立的数据服务
User User
Searching Interface 1
Searching Interface 2
❖ 科学数据库数据的基本类型
数值 事实 文献 图像 遥感影像 地图 Video/Audio
科学数据库资源状况(cont.)
❖ 科学数据库数据的组织管理方式
结构化(Structured)
❖ Relational Database
半结构化的(Semi-Structured)
❖ Web
❖ 数据标准体系研究
数据质量评估标准
❖ 管理规范体系研究
数据共享的政策与规范 科学数据库运行服务体系
提纲
❖为什么需要进行标准规范建设 ❖标准规范建设的主要任务 ❖数据库分析设计流程与文档规范化 ❖元数据建设基本设想
数据库建库分析与文档建设
数据资源分析 元数据分析 数据库设计 应用开发 更新维护
数据说明