什么叫做元数据
GIS重要名词解释
GIS重要名词解释:1、宗地:是地籍调查的基本单元,是指被权属界线所封闭的一个地块。
2、元数据:关于数据的数据,对数据内容的全面描述,其目的是促进数据集的高效利用和充分共享。
使用元数据的理由:性能上:完整性、可扩展性、特殊性、安全性;功能上,差错功能、浏览功能、程序生成。
3、C/S和B/S:C/S是Client/Server的简称,是客户端/服务器模式的网络架构;B/S是Browser/Server的简称,是浏览器/服务器模式的网络架构。
4、缓冲区:缓冲区又称为影响区或影响带,是指围绕某一地理要素的一定宽度的区域5、拓扑结构:空间拓扑结构是指两个空间目标在拓扑变换下保持不变的空间关系,比如相邻、相交、相接等关系。
6、SQL:SQL全称是“结构化查询语言(Structured Query Language)”,是一种数据库查询和程序设计语言,用、于存取数据以及查询、更新和管理关系数据库系统。
包括数据操作、数据定义和数据控制。
7、实用型GIS:实用型地理信息系统或者称为面向项目的信息系统,是一类有具体应用目标,为特定区域或者专题(专业)的管理决策服务的实用GIS。
8、电子地图: 电子地图是地图制作和应用的一个系统,是由电子计算机控制所生成的地图,是基于数字制图技术的屏幕地图,是可视化地图。
9、投影变换:投影变换是研究从一种地图投影点的坐标变换为另一种地图投影点的坐标的理论和方法。
10、数字高程模型:数字高程模型(Digital Elevation Model),简称DEM。
它是用一组有序数值阵列形式表示地面高程的一种实体地面模型,是数字地形模型(Digital Terrain Model,简称DTM)的一个分支。
一般认为,DTM是描述包括高程在内的各种地貌因子,如坡度、坡向、坡度变化率等因子在内的线性和非线性组合的空间分布。
71、数据字典:是描述数据的信息集合,是对系统中所有使用数据元素定义的集合。
元数据和数据质量的关系
元数据和数据质量的关系“元数据”的意思是“用与数据有关的结构化数据,对其他数据进行说明的数据”。
从系统构建时创建的文件中实质说明书、属性(attribute)说明书、表说明书等可见,数据名称中有说明,列名称中也有说明,可见为构成表而管理多种信息。
简单来说,这里说明的全部资料都可视为元数据的一部分。
在该表中存储的信息虽然只是数据,但指代该表的表名就是元数据。
企业建立管理了大量数据库,各个数据库中不断生成数量庞大的表,各个表又由多个列构成。
各个数据库、表、列内信息管理是基础,各自的说明、表间的连接关系、列间连接关系及各种信息在其他仓库(repository)中存储管理,叫做“元数据管理”。
如果正确管理元数据,当使用者需要在系统中查找信息时,不必问负责人员,只需在元数据管理系统中查找就可轻松知道在哪里以及怎样取得信息。
ETL操作中,感知到表变更相关的错误后,任何人都可以轻松知道何时、因谁引起、表如何变更,可在短时间内恢复错误操作。
元数据是与数据有关的信息,将数据质量认为是与线性数据相关的部分,可视为互相无关。
实际上,既有仅仅进行元数据管理的程序,也有不需说明元数据也可进行数据质量管理的程序。
企业中要构建全部管理数据相应的信息,虽然可以使用只管理元数据的程序,没有元数据,那么数据质量程序也就不可能存在。
从数据质量管理分析阶段就应开始收集元数据相关信息,进行以元数据为中心的数据质量管理。
要进行数据质量管理,首先进行的基本管理就是元数据管理。
首先要将企业内存在的全部数据相关信息登录一个仓库内管理,按各自不同的表、不同列利用工具一并将质量管理所需的信息存储在同一仓库内。
质量的对象虽然是数据,但在质量管理和数据间发挥媒介作用的是元数据。
数据质量可认为是种IT问题。
实际上,数据质量管理程序依靠IT部门实施和维护,最大的受益者却是现行部门。
并且,现行部门最了解各个应用软件中正在使用的数据用途和意义。
因此,理解了企业内部数据质量管理的作用,想要达到期望值就要取得现有部门和IT部门的同意。
数据中台学习笔记-元数据管理,指标管理,数据模型
数据中台学习笔记-元数据管理,指标管理,数据模型概述上⼀篇⽂章主要介绍了数据中台的原理知识,现在开始介绍数据中台的实现篇章,主要从3个⽅⾯来说明,第⼀个是元数据的管理,第⼆个是指标的规范的管理,第三个是数据模型的建⽴。
元数据在原理篇中,我提到数据中台的构建,需要确保全局指标的业务⼝径⼀致,要把原先⼝径不⼀致的、重复的指标进⾏梳理,整合成⼀个统⼀的指标字典。
⽽这项⼯作的前提,是要搞清楚这些指标的业务⼝径、数据来源和计算逻辑。
⽽这些数据呢都是元数据。
你可以认为,如果没有这些元数据,就没法去梳理指标,更谈不上构建⼀个统⼀的指标体系。
当你看到⼀个数 700W,如果你不知道这个数对应的指标是每⽇⽇活,就没办法理解这个数据的业务含义,也就⽆法去整合这些数据。
所以你必须要掌握元数据的管理,才能构建⼀个数据中台。
那么问题来了:元数据中⼼应该包括哪些元数据呢?什么样的数据是元数据?元数据分类结合我的实践经验,我把元数据划为三类:数据字典、数据⾎缘和数据特征。
我们还是通过⼀个例⼦来理解这三类元数据。
在这个图中,dwd_trd_order_df 是⼀张订单交易明细数据,任务 flow_dws_trd_sku_1d 读取这张表,按照 sku 粒度,计算每⽇ sku 的交易⾦额和订单数量,输出轻度汇总表 dws_trd_sku_1d。
数据字典描述的是数据的结构信息,我们以 dws_trd_sku_1d 为例,数据字典包括:数据⾎缘是指⼀个表是直接通过哪些表加⼯⽽来,在上⾯的例⼦中,dws_trd_sku_1d 是通过 dwd_trd_order_df 的数据计算⽽来,所以,dwd_trd_order_df 是dws_trd_sku_1d 的上游表。
数据⾎缘⼀般会帮我们做影响分析和故障溯源。
⽐如说有⼀天,你的⽼板看到某个指标的数据违反常识,让你去排查这个指标计算是否正确,你⾸先需要找到这个指标所在的表,然后顺着这个表的上游表逐个去排查校验数据,才能找到异常数据的根源。
媒体资产管理系统
数据化优势: 设备和介质的无关性; 可用多种手段传输; 有利于数据迁移、交换与共享; 有利于存储、复制、备份; 可以长期、稳定地保持可用性; 能支持检索。
媒体资产管理系统的建设目标: 最大化资产的价值; 减少分类、检索和保管素材的费用; 提供跨企业获取的能力,加速制作周期; 更好的安全防护,提供授权、水印等; 能够更灵活地应对技术和企业业务的发展变化; 集中化、统一的媒体资产管理。
1、直接连接存储(DAS)
以服务器为中心的存储体系,外部数据存储设备 直接挂接在内部总线上,存储系统是服务器的一 部分。
所有访问均通过服务器进行,包括应用服务和文 件服务。
2、网络连接存储(NAS)
数据存储采用专用的文件服务器来管理文件存储系统; 通过文件服务器访问存储设备,文件服务器作为一个核
6.4.1 数据的分级存储
1、数据的分级存储
数据的分级存储,是指将数据客体存放在不同 级别的存储设备中,通过分级存储管理软件 实现数据客体在存储设备之间的自动迁移。 数据迁移的规则可以人为控制,通常是根据 数据的访问频率、保留时间、容量、性能要 求等因素确定的最佳存储策略。
2、分级存储结构
(1)在线存储(On-line)——热数据 在线又称联机,存储设备以永久方式连接在计算机系统中,
心被所有用户访问,但不承担应用服务; 通常采用UDP/IP或TCP/IP协议提供标准化服务,能在异
构服务器间共享数据。
3、存储区域网络 (SAN)
存储区域网, SAN以光纤通道为基础,实现了存 储设备的共享,突破现有的距离限制和容量限制, 服务器通过存储网络直接同存储设备交换数据, 释放了宝贵的LAN资源,通过这种独立的专有网 络可以避免传统信息网络中存在的客户机与服务 器之间的流量冲突。 。
什么是元数据
什么是元数据元数据(Meta Date),关于数据的数据或者叫做⽤来描述数据的数据或者叫做信息的信息。
这些定义都很是抽象,我们可以把元数据简单的理解成,最⼩的数据单位。
元数据可以为数据说明其元素或属性(名称、⼤⼩、数据类型、等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。
举⼏个简单的例⼦:使⽤过数码相机的同学都应该知道,每张数码照⽚都会存在⼀个EXIF信息。
它就是⼀种⽤来描述数码图⽚的元数据。
根据,这些元数据包括:Image Description(图像描述、来源. 指⽣成图像的⼯具 )、Artist(作者)、Make( ⽣产者)、Model (型号)、….、等等。
⽣活中我们填写的《个⼈信息登记表》,包括姓名、性别、民族、政治⾯貌、⼀⼨照⽚、学历、职称等等这些就是锁定kent.zhu这个⼈的元数据。
通常情况下元数据可以分为以下三类:固有性元数据、管理性元数据、描述性元数据。
固有性元数据;与事物构成有关的元数据。
管理性元数据;与事物处理⽅式有关的元数据。
描述性元数据;与事物本质有关的元数据。
当然,并不是说所数据总能清晰的划分在以上3类中。
⽐如:⼀张由kent拍摄的⼤⼩为20K的JPG格式的印着⼀只⼩狗的圣诞卡照⽚。
它的固有性元数据包括:20K、JPG;管理性元数据:kent拍摄、圣诞卡;描述性元数据:狗、⼩狗、圣诞、照⽚、圣诞节、…但是,圣诞卡则可以放在以上任何⼀个分类中。
与事物构成有关(说明这个东东是什么)、与事物处理⽅式有关(说明这个东东的⽤途是什么)、与事物本质有关(可以直接⽤来描述这个东东)。
元数据之于信息架构的意义元数据是⼀种很有效的⽅法,⽤以确保⽹站上各种形式的内容确实都能被查找到。
⽐如我们常常为搜索很久之前看到的⼀张美⼥图⽚犯愁,⽽如果⼀个图⽚⽹站如果信息架构⾜够好,我们就能凭借我们回忆到的元数据(关于武藤兰的?2000年拍摄的?)清晰的找到。
元数据之于信息架构就像是房⼦的砖⽡,它可以根据需要摆放成不同的信息检索系统。
地理信息系统知识点大全
简述GIS 的理解(需具体说明) 地理信息系统、地理信息科学、地理信息服务、地理信息 解决方案 GIS 的概念GIS 是由计算机硬件' 软件' 用户、空间数据和不同方法组成的系统,该系统用来支持空间数据 采集' 管理、处理、分析' 建模和显示,以便解决复杂的规划和管理问题。
GIS 是以一种全新的思想和手段来解决复杂的规划'管理和地理相关问题,例如城市规划、商业选址' 环境评估' 资源管理、灾害监测、全球变化。
地理信息的定义理解1:地理信息是有关地理实体的性质、特征和运动状态的表征和一切有用的知识; 理解2:表征地理系统诸要素的数屋' 质呈、分布特征、相互联系和变化规律的数字' 文字、图 像和图形尊的总称;理解3: —切与空间位逐有关的信息都叫做地理信息。
它起源于地图,地图是地理信息的裁体, 具有存储、分析与显示地理信息的功能。
地理信息的特点空间分布性:地理信息的定位特征多维性:单点多重属性信息动态性(时间性〉:随时间动态变化数据呈大:具有空间扌寺征' 属性特征、时间特征 地理信息含义“有地理参照的信息"(Geographically Referenced Information )或者,“与地理位逐有关的信息"GIS 的定义、特点地理信息系统就是具有采集、存储、查询、分析、显示和输 出地理数据功能的计算机软硬件系统。
地理信息系统是一 种以地理坐标为骨干的信息系统。
GIS 的组成 ① 系统硬件GIS 主机:大型、中型、小型机,工作站/服务器、微型计 算机GIS 外部设备:输入设备:数字化仪、扫描仪、解析和数字 摄影测量设备、全站仪等;输出设备:绘图仪、打印机、图形显示 终端等;数据存贮与传送设备:磁带机、光盘机、活动硬盘、U 盘、MP3等GIS 网络设备:布线系统、网桥、路由器、交换机等硬件的三种应用模式单机模式:由基本外设、处理设备和输出设备构成适用于小型GIS 建设数据传输与资源共享不方便局域网模式: 部门或单位内部GIS 建设专线连接资源共享较方便广域网模式:用户分布地域广泛,不适合专线连接公共通讯连接资源共享方便 局部范围为局域网,通过若干通道与广域网连接② 系统软件"萦统软件主要是计算机的操作系统以及各种标准外设的 驱动软件,目前流行的有 DOS 、Windows98/Nnt/2000/XP 、UNIX 等。
ETL的经验总结
ETL的经验总结ETL的考虑做数据仓库系统,ETL是关键的⼀环。
说⼤了,ETL是数据整合解决⽅案,说⼩了,就是倒数据的⼯具。
回忆⼀下⼯作这么些年来,处理数据迁移、转换的⼯作倒还真的不少。
但是那些⼯作基本上是⼀次性⼯作或者很⼩数据量,使⽤access、DTS或是⾃⼰编个⼩程序搞定。
可是在数据仓库系统中,ETL上升到了⼀定的理论⾼度,和原来⼩打⼩闹的⼯具使⽤不同了。
究竟什么不同,从名字上就可以看到,⼈家已经将倒数据的过程分成3个步骤,E、T、L分别代表抽取、转换和装载。
其实ETL过程就是数据流动的过程,从不同的数据源流向不同的⽬标数据。
但在数据仓库中,ETL有⼏个特点,⼀是数据同步,它不是⼀次性倒完数据就拉到,它是经常性的活动,按照固定周期运⾏的,甚⾄现在还有⼈提出了实时ETL的概念。
⼆是数据量,⼀般都是巨⼤的,值得你将数据流动的过程拆分成E、T和L。
现在有很多成熟的⼯具提供ETL功能,例如datastage、powermart等,且不说他们的好坏。
从应⽤⾓度来说,ETL的过程其实不是⾮常复杂,这些⼯具给数据仓库⼯程带来和很⼤的便利性,特别是开发的便利和维护的便利。
但另⼀⽅⾯,开发⼈员容易迷失在这些⼯具中。
举个例⼦,VB是⼀种⾮常简单的语⾔并且也是⾮常易⽤的编程⼯具,上⼿特别快,但是真正VB的⾼⼿有多少?微软设计的产品通常有个原则是"将使⽤者当作傻⽠",在这个原则下,微软的东西确实⾮常好⽤,但是对于开发者,如果你⾃⼰也将⾃⼰当作傻⽠,那就真的傻了。
ETL⼯具也是⼀样,这些⼯具为我们提供图形化界⾯,让我们将主要的精⼒放在规则上,以期提⾼开发效率。
从使⽤效果来说,确实使⽤这些⼯具能够⾮常快速地构建⼀个job来处理某个数据,不过从整体来看,并不见得他的整体效率会⾼多少。
问题主要不是出在⼯具上,⽽是在设计、开发⼈员上。
他们迷失在⼯具中,没有去探求ETL的本质。
可以说这些⼯具应⽤了这么长时间,在这么多项⽬、环境中应⽤,它必然有它成功之处,它必定体现了ETL的本质。
元数据定义
元定义:元数据是与对象相关联的数据,用来满足潜在用户对对象的存在和特征的全面了解的需要(Dempsey & Heery,1997)。
元数据是对信息对象在任意层次上的聚集的总的描述(Gilliland-Swetland,2000)。
国际图联(IFLA)将元数据定义为描述数据的数据(Data about data),指可用来协助对网络数字资源进行识别(identification)、描述(description) 和定位(location)的任何资料。
元数据的类型,Gilliland-Swetland(2000)将其分为五种:管理型(Administrative)、描述型(Descriptive)、保存型(Preservation)、技术型(Technical)和使用型(Use)。
了元数据的五大功能,包括资源定位(Location)、发现(Discovery)、记录(Documentation)、评估(Evaluation)和选择(Selection)。
根据元数据的特征和结构,将它分为三类:第一类,来源于全文索引的元数据;第二类,结构简单和有着通用格式的元数据,如Dublin Core;第三类,结构复杂的特定领域元数据,如MARC和GILS(Government Information Locator Service),和属于更大的语义框架的一部分,如TEI headers和EAD(Encoded Archival Description)3.1 Metadata的应用目的(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。
(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。
数据挖掘 - 知识点
数据库面向应用数据是详细的保持当前数据数据是可更新的对数据的操作是重复的操作需求是事先可知的一个操作存取一个记录数据非冗余操作比较频繁查询基本是原始数据事务处理需要的是当前数据很少有复杂的计算支持事务处理 联机事物处理(On Line Transaction Processing ,OLTP )是在网络环境下的事务处理工作,以快速的响应和频繁 的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP数据仓库数据综合性数据历史数据不更新,但周期刷新响应时间合理用户数量相对较小面向决策人员,支持决策需要面向分析,分析驱动数据字典:是数据库中各类数据描述的集合,它在数据库设计中具有很重要的地位。
由:数据项;数据结构;数 据流;数据存储;处理过程 5 部份组成。
元数据(metadata )定义为关于数据的数据(data about data ),即元数据描述了数据仓库的数据和环境。
数据仓 库的元数据除对数据仓库中数据的描述 (数据仓库字典) 外,还有以下三类元数据 :(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据数据仓库 面向主题数据是综合和历史的保存过去和现在的数据 数据不更新对数据的操作是启示式的 操作需求是暂时决定的一个操作存取一个集合数据时常冗余操作相对不频繁查询基本是经过加工的数据决策分析需要过去和现在的数据 有不少复杂的计算支持决策分析 OLTP数据库数据 细节性数据 当前数据 时常更新 对响应时间要求高 用户数量大 面向操作人员,支持日常操作 面向应用,事务驱动DB-->DW-->OLAP-->DM-->KDD-->DSS-->AI知识发现(KDD):从数据中发现实用知识的整个过程。
数据挖掘(DM):KDD 过程中的一个特定步骤,它用专门算法从数据中抽取知识。
(1)数据仓库与数据挖掘的区别:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。
遥感图像处理考试重点整理
名词解释:1.图像:是对客观对象一种相似性的描述或写真,它包含了被描述物体或写真对象的信息,是人们最主要的信息源。
2.数字图像:指用计算机存储和处理的图像,是一种空间坐标和灰度均不连续、以离散数学原理表达的图像。
3.遥感系统:是一个从地面到空中乃至整个空间,从信息收集、存储、传输、处理到分析、判读、应用的技术体系,主要包括遥感试验、信息获取(传感器、遥感平台)、信息传输、信息处理、信息应用等5个部分。
4.传感器:又称为遥感器(remote sensor),是收集和记录电磁辐射能量信息的装置,是信息获取的核心部件,如航空摄影机、多光谱扫描仪、成像仪等。
传感器搭载在遥感平台上,通过传感器获取遥感数字图像数据。
5.元数据(meta data):是关于图像数据特征的表达,是关于数据的数据。
6.直方图规范化:又称为直方图匹配,这种方法经常作为图像镶嵌或应用遥感图像进行动态变化研究的预处理工作。
通过直方图匹配可以部分消除由于太阳高度角或大气影像造成的相邻图像的色调差异,从而可以降低目视解译的错误。
7.辐射校正:消除图像数据中依附在辐亮度中的各种失真的过程成为辐射量校正(radiometric calibration),简称辐射校正。
8.辐射通亮:单位时间内通过某一表面的辐射能量称为辐射通量(radiant flux),单位为W。
9.辐照度:指单位时间内单位面积上接受的辐射通量,单位为W/m^2。
10.辐亮度:和辐射度两个概念的含义相同,指的是沿辐射方向、单位面积、单位立体角上的辐射通量,单位为W/(m2.sr)。
11.反射率:是反射能量与入射能量的比值。
12.吸收率:是吸收能量与入射能量的比值。
13.透射率:是透射能量与入射能量的比值。
在介质内部,反射率吸收率和透射率的和为1。
14.反照率:不同于反射率,指的是界面反射的辐照度与内部的反射的辐照度之和与入射的辐照度的比值。
15.几何精纠正:又称为几何配准(registration),是把不同传感器具有几何精度的图像、地图或数据集中的相同地物元素精确地彼此匹配、叠加在一起的过程。
元数据定义和范围
元数据定义和范围
元数据(Metadata)是指描述数据的数据,它提供了关于
数据的结构、内容、属性和特性的信息。
它可以帮助我们理解
和解释数据,提高数据的可理解性和可用性。
元数据可以包括
数据的定义、数据的来源、数据的格式、数据的编码方式、数
据的大小、数据的精度、数据的有效期等信息。
元数据的范围非常广泛,可以应用于各种领域和行业。
以下
是几个常见领域的元数据范围:
1.数据库管理:在数据库中,元数据包括表的定义、字段的
定义、关系的定义、索引的定义等信息。
通过元数据,可以了
解数据库的结构和关系,方便进行数据查询和管理。
2.文档管理:在文档管理系统中,元数据包括文档的标题、
作者、创建时间、修改时间、文件大小等信息。
通过元数据,
可以方便地进行文档检索和分类。
3.图像管理:在图像管理系统中,元数据包括图像的分辨率、色彩模式、拍摄时间、拍摄设备等信息。
通过元数据,可以方
便地对图像进行分类、检索和处理。
4.元数据管理系统:元数据管理系统是一种专门用于管理元
数据的系统。
它可以对元数据进行集中管理和维护,并提供元
数据的查询、修改、删除等功能。
5.知识图谱:在知识图谱中,元数据包括实体的定义、属性的定义、关系的定义等信息。
通过元数据,可以构建出知识图谱的结构,方便进行知识推理和应用开发。
总而言之,元数据的范围非常广泛,几乎涵盖了所有数据相关的领域和行业。
通过合理管理和利用元数据,可以提高数据的质量和可用性,帮助我们更好地理解和使用数据。
有关财会信息资源元数据标准的研究
有关财会信息资源元数据标准的研究摘要:挖掘和研究非标准的、大量的信息资源,关键的技术是建立财务和会计的信息资源的数据仓库,这样可以方便地在进行数据分析研究和挖掘时利用各种工具。
在建立数据仓库时,最需要的是建立相关领域的元数据规范和应用管理开发这些信息资源的元数据标准。
关键词:财会信息元数据标准元数据国外1 概述中国会计信息化已经发展了三十多年,企业的信息化程度得到了比较大的提升。
在这三十年的发展当中,政府相关管理机构和企业都累积了很多关于会计、财务等方面的管理数据和业务信息。
很多企业都有信息系统数据库,在这些数据库等储存介质中,存在有大量的财会信息和财会数据,这些数据和信息以电子文档的形式进行存储,由大大小小的财务活动和会计活动形成,还有些以其他介质进行存储。
这些数据和信息统称为财会信息资源,这种信息资源很有价值,是企业业务经营的最重要信息资源。
企业在经济决策或在制定发展战略时,都要参考这些信息资源。
如果企业不利用这些信息资源,那就是对资源的浪费,监管部门也要十分重视这些资源。
企业今后的重要研究课题之一就是如何利用这些信息资源。
对财会信息进行利用、保存和管理,要运用一种管理工具,叫做元数据。
还要建立一套规范体系,来规范对该工具的运用,叫做财会信息资源元数据标准。
高德纳咨询公司是it顾问咨询和研究公司,具有权威性,该公司曾将对元数据的管理列为年度战略技术。
2 元数据元数据这个词最早出现在美国,1988年,在美国出版的《目录交换格式》一书中,将元数据定义为关于数据的结构化数据或关于数据的数据。
元数据的用途是描述数据的属性和特征,提供资源信息结构方面的数据,定位、描述和标识信息资源。
元数据有以下用途:2.1 元数据促进了数据仓库的建设在提取和采集数据时,元数据会对资源进行描述并标识,在数据存储、数据提炼、数据转换时,元数据具有桥梁的作用。
在数据检索和数据利用时,元数据能够帮助用户快速而准确地获得数据。
关于档案元数据能够保证电子文件原始性的商榷
元 数据 在 图 书 出版 领 域 的应 用 是 比较 成熟 的 ,概 念 也是 比较
明确的。 但在档案领域情况就不同了, 得到广泛关注的同时 , 对元数 据的作用产生了一些不同于计算机和图书专业的理解。这里最突出 的就是元数据可以保证电子文件 的原始性 , 并把其作为保证电子文
件 原始 『最 首要 手段 的观 点。那么 元数 据 真能保 证 电子 文件 的原 始 生
的 。但 通 过 特定 的 软件 是 可 以改 动 的 。
件数据, 能帮助用户更好地利用 电子文件信息。元数据是解决 电子
文件 管 理 问题 不 可或 缺 的关 键 之 一 。”
一
、
元 数据 的定 义
1 od .w r 文档与 p f d 文档中的元数据。由于引发很多争议的缘 故, 微软 w r od文档的元数据可能是最有名的元数据类 型了。其元 数据可能包含该文件作者的名字 , 成文时间 , 文件 的文本及标注删 节的过程等。通常情况下 , 有些元数据内容是不可见的。如果想删 除 dc o 文档 中的元数据 , 以通过文档 自身功能进行简单 的设置 , 可 也可以下载插件进行更改。微 软官方 网站就提供这样 的插件 , 名 为 :rm v hde dt” “e oe idn a 。在初次安装 pf a d 浏览器时 , 程序要求 用户输入一些个人信息 , 输入的信息就成为元数据的一部分了。 如 果想看这些 内容 , 在进入 A o e coa 后 , Cr D 后会出现 db A rbt 按“ t— ” l 属性窗 口, 可进行一些修改 , 有一些是不能直接修改的。如 同对待
S UI NA 团曰 圈 囝 HZ ATt L
口 辽宁大学 丁
摘 要
宇
数据库模拟题
.. 综合练习一、判断题1.采用规范的方法,使分解后的模式属于第二或第三范式,只能保证无损连接,不能绝对保持依赖。
()2.原则上,两个不同的对象所具有的属性值不能相同,但在给定关系中的元组可以是完全相同的。
()3.概念设计可以独立于数据库管理系统。
()4.执行查询语句时DBMS 从数据字典中调出相应的模式描述,并从外模式映像到内模式,从而确定所需要的物理数据。
()5.在视图中插入一个元组,该元组会同时插入到基本表中。
()6.对象查询语言中,可以用运算符ELEMENT 从多个元素的聚集中提取单个元素。
()7.对于表只能有惟一的主键码,但可有任意数量的UNIQUE 属性或属性集。
()8.如果一个关系没有一个属性能由所有其他属性函数决定,则该关系根本不存在非平凡函数依赖。
()9.超类可以自动继承子类的所有特性。
()10.任何一张二维表格都表示一个关系。
()11.关系是元组的集合。
()12.数据库开发的需求分析阶段必须要有用户参与。
()13.主键字段允许为空。
主键字段允许为空。
( () 14.数据库的名称一旦建立就不能重命名。
数据库的名称一旦建立就不能重命名。
( () 15.固定数据库角色:固定数据库角色:db_datarader db_datarader db_datarader 的成员可修改本数据库内表中的数据。
的成员可修改本数据库内表中的数据。
的成员可修改本数据库内表中的数据。
( () 16.因为通过视图可以插入因为通过视图可以插入..修改或删除数据,因此视图也是一个实在表,修改或删除数据,因此视图也是一个实在表,SQL SERVER SQL SERVER 将它保存在syscommens 系统表中。
()17. guest 用户必须关联一个登录账号才可以在数据库中创建。
数据库中的非guest 用户账号都必须关联一个登录账号。
()18.可以在企业管理器中修改数据库的名称。
()19.数据库不允许存在数据冗余。
图书馆员基本专业知识问答
图书馆员基本专业知识问答目录第一部分专业知识 (1)一、基础知识 (1)二、采编知识 (14)三、读者服务知识 (25)四、信息技术知识 (34)第二部分我馆概况 (37)一、总况 (37)二、读者服务与资源利用 (41)第三部分计算机、网络基本知识 (16)图书馆员基本专业知识问答第一部分专业知识一、基础知识什么是文献?文献是记录知识的一切载体,包括纸质的图书、报刊等出版物和非纸质的录音资料、影像资料、缩微资料、计算机文档等。
文献是人类脑力劳动成果的一种表现形式,根据文献的性质和功能可分为一次文献、二次文献和三次文献。
什么是一次文献?二次文献?三次文献?一次文献,即原始文献。
凡直接记录事件经过、研究成果、新知识、新技术的文献都是一次文献。
比较常见的是专著、论文、调查报告、档案材料等。
二次文献,也叫检索性文献。
指对一次文献进行加工整理(如著录其文献特征、摘录其内容要点),并按一定方法编排成系统的便于考查的文献。
主要的二次文献有书目、索引、文摘。
三次文献,可以叫做参考性文献。
是在利用二次文献的基础上依据一次文献做出系统整理并概括论述的文献。
如:动态综述、专题评述、进展报告等单篇文献,以及百科全书、词典、年鉴、手册(指南)、表谱等专书文献。
文献有哪几种类型?按文献记录技术手段和载体形式划分可分为:印刷型文献:图书、报刊、特种文献。
非印刷型文献:缩微胶片、缩微资料、缩微胶卷、缩微卡片、听觉资料、视听资料、视觉资料、音像资料。
机读文献:电子出版物、软件出版物、网络出版物。
什么叫古籍?从图书馆古籍工作的实际来看,古籍主要是指1911年以前历朝的刻本、写本、稿本、拓本等。
什么是古籍版本?古籍版本有侠义与广义之分。
狭义的版本,最初专指用木板雕版印刷的书;广义的版本,则指古籍图书的各种印刷、抄写的本子,包括:稿本、写本、抄本、雕印本、排印本、活字本、影印本、拓印本等等。
什么是善本?善本的最初概念是指经过严格校勘,无文字讹误的书本。
元数据MetaData解释
元数据(MetaData)作者:阮一峰日期: 2007年3月11日元数据是用来描述数据的数据(Data that describes other data)。
单单这样说,不太好理解,我来举个例子。
下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑)。
有了这些信息,我们就可以大致想像出瓦莲卡是个什么样的人。
推而广之,只要提供这几类的信息,我们也可以推测出其他人的样子。
这个例子中的"年龄"、"身高"、"相貌"、"性格",就是元数据,因为它们是用来描述具体数据/信息的数据/信息。
当然,这几个元数据用来刻画个人状况还不够精确。
我们每个人从小到大,都填过《个人情况登记表》之类的东西吧,其中包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等......这一套元数据才算比较完备。
在日常生活中,元数据无所不在。
有一类事物,就可以定义一套元数据。
喜欢拍摄数码照片的朋友应该知道,每张数码照片都包含EXIF信息。
它就是一种用来描述数码图片的元数据。
按照Exif 2.1标准,其中主要包含这样一些信息:Image Description 图像描述、来源. 指生成图像的工具Artist 作者有些相机可以输入使用者的名字Make 生产者指产品生产厂家Model 型号指设备型号Orientation方向有的相机支持,有的不支持XResolution/YResolution X/Y方向分辨率本栏目已有专门条目解释此问题。
软件工程的3要素
软件工程的3要素展开全文软件工程的方法(开发方法)、工具(支持方法的工具)、过程(管理过程)称为软件工程的三要素。
一、软件的开发方法(面向过程、面向对象、面向数据)1.1a) 面向过程的方法:也被称为传统的软件开发方法特点:程序的基本执行过程主要不是由用户控制,而是由程序控制的,并却按时序进行。
面向过程的方法的优点是简单实用,缺点是维护困难。
强调“‘自顶向下,逐步求精”。
面向过程的方法在军事上的实时跟踪系统中就有很好的应用。
b) 面向对象的方法:也称为现代的软件工程开发方法面向对象是认识论和方法学的一个基本原则。
面向对象方法(Ohject--Oriented Method,OOM)是一种运用对象、类、消息传递、继承、封装、聚合、多态性等概念来构造软件系统的软件开发方法。
c) 面向数据的方法:面向“元数据”的方法,也是建设信息系统数据库和数据仓库的基本方法。
元数据是关于数据的数据,组织数据的数据。
例如,数据库概念设计中的实体名和属性名,数据库物力设计中的表名称和字段名。
它们就是“元数据”,而某个具体的实例就不是元数据,它们叫做对象或记录,是被元数据组织或统帅的数据。
概括起来,要点如下:1.数据位于企业信息系统的中国心。
信息系统就是对数据的输入、处理、传输、查询和输出。
2.只要企业的业务方向不变和内容不变,企业的元数据室稳定的,由元数据构成的数据模型(Data Model)也是稳定的。
3.对元数据的处理方法是可变的,4.信息系统的核心是数据模型。
数据模型包括概念数据模型(Comceptual Data Model,CDM)和物理数据模型(Physics Data Model,PDM)。
5.信息系统的实现主要是面向对象,其次才是面向数据和面向过程。
特点:在程序的执行过程中,根据数据流动和处理的需要,有时由程序控制(如触发器和存储过程的执行),有时由用户控制(如用户在界面上的选择)。
1.2软件工程的5个面向理论:面向流程分析、面向数据设计、面向对象实现、面向功能测试、面向过程管理。
数据挖掘知识点整理
第一章1、数据挖掘的概念及其特点数据挖掘概念:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘 (从数据中发现知识)特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)2、数据挖掘的核心(KDD)是什么?知识挖掘(KDD)数据挖掘与知识发现从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理: (这个可能要占全过程60%的工作量)1、数据集成2、数据选择3、数据变换4、数据挖掘(选择适当的算法来找到感兴趣的模式)5、模式评估6、知识表示3、数据挖掘的体制结构。
4、数据挖掘的主要方法(能够区分)常用模式5、6、7、分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示: 判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值聚类分析的说明:例:对WEB日志的数据进行聚类,以发现相同的用户访问模式孤立点分析的说明(应用)信用卡欺诈检测/移动电话欺诈检测/客户划分/医疗分析(异常)第二章1、数据仓库的概念(特点就在概念里)数据仓库是一个(1)面向主题的、(2)集成的、(3)随时间而变化的、(4)不容易丢失的数据集合,支持管理部门的决策过程.2、OLAP(联机分析处理)和OLTP(联机事务处理)的区别1、用户和系统的面向性:面向顾客(事务) VS. 面向市场(分析)2、数据内容:当前的、详细的数据(事务)VS. 历史的、汇总的数据(分析)3、数据库设计:实体-联系模型(ER)和面向应用的数据库设计(事务) VS. 星型/雪花模型和面向主题的数据库设计(分析)4、数据视图:当前的、企业内部的数据(事务)VS. 经过演化的、集成的数据(分析)5、访问模式:事务操作(事务)VS. 只读查询(但很多是复杂的查询)(分析)6、任务单位:简短的事务 VS. 复杂的查询7、访问数据量:数十个 VS. 数百万个8、用户数:数千个 VS. 数百个9、数据库规模:100M-数GB VS. 100GB-数TB10、设计优先性:高性能、高可用性 VS. 高灵活性、端点用户自治11、度量:事务吞吐量 VS. 查询吞吐量、响应时间3、多维数据模型在多维数据模型中,数据以数据立方体(data cube)的形式存在数据立方体允许以多维数据建模和观察。
数据仓库、商业智能相关面试题(带答案)
1商务智能1.1数据仓库1.1.1数据仓库的4大特点(特征)?面向主题的,集成的,相对稳定的,反映历史变化的。
1.1.2数据仓库的四个层次体系结构?1. 数据源是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
内部信息包括存放于RDBMS 中的各种业务处理数据和各类文档数据。
外部信息包括各类法律法规、市场信息和竞争对手的信息等等;2. 数据的存储与管理是整个数据仓库系统的核心。
数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)3. OLAP 服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP (混合型线上分析处理)。
ROLAP 基本数据和聚合数据均存放在RDBMS 之中;MOLAP 基本数据和聚合数据均存放于多维数据库中;HOLAP 基本数据存放于RDBMS 之中,聚合数据存放于多维数据库中。
4. 前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或者数据集市的应用开辟工具。
其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
1.1.3描述一下联机分析处理OLAP?(维的概念,基本多维操作,层次结构,与OLTP的区别)OLAP (联机分析处理On-Line Analytical Processing)也叫多维DBMS。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么叫做元数据
胡经国
本文作者的话
云计算具有很强的知识性和专业性。
对于业外读者来说,云计算可谓“博大精深”。
业外公众要学习云计算,有必要循序渐进地学习有关云计算的一系列基础知识。
本文作为《漫话云计算》系列文稿和学习云计算笔录之一,供云计算业外读者进一步学习和研究参考。
希望能够得到大家的指教和喜欢!
下面是正文
一、元数据基本概念
1、元数据基本概念解读(1)
元数据(Meta data),又叫做中介数据、中继数据,是指描述数据的数据(data about data,关于数据的数据),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
元数据算是一种电子式目录,为了达到编制目录的目的,必须描述并收藏数据的内容或特色,进而达到协助数据检索的目的。
元数据是关于数据的组织、数据域及其关系的信息。
简言之,元数据就是关于数据的数据(data about data)。
元数据(Meta Data)是关于数据仓库的数据,是指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。
同时,元数据还包含关于数据含义的商业信息。
所有这些信息都应当妥善保存,并很好地管理,为数据仓库的发展和使用提供方便。
元数据是一种二进制信息,用以对存储在公共语言运行库中的可移植可执行文件——PE文件或存储在内存中的程序进行描述。
将您的代码编译为PE文件时,便会将元数据插入到该文件的一部分中;而将代码转换为Microsoft中间语言(MSIL)并将其插入到该文件的另一部分中。
在模块或程序集中定义和引用的每个类型和成员,都将在元数据中进行说明。
当执行代码时,运行库将元数据加载到内存中,并引用它来发现有关代码的类型、成员、继承等信息。
链接:PE文件
PE文件(Portable Executable File,可移植可执行文件),一种文件格式,用于编写可执行程序和链接在一起形成可执行程序的文件。
链接:MSIL
MSIL(Microsoft Intermediate Language,微软中间语言)。
MSIL反汇编程序是MSIL汇编程序(Ilasm.exe)的伙伴工具。
Ildasm.exe采用包含Microsoft中间语言(MSI L)代码的可迁移可执行(PE)文件,并创建相应的文本文件作为Ilasm.exe的输入。
反汇编程序是一种语言转换程序,它的功能和汇编程序相反,能把二进制机器语言程序转换为(返回到)汇编语言程序,来查阅目标码程序的正确性。
它也可作为一种“破译”程序。
链接:运行库
从字面上看,运行库是指程序在运行时所需要的库文件。
在运行库中一般包括编程时常用的函数,如字符串操作、文件操作、界面等内容。
由于不同的语言所支持的函数通常是不同的,因而不同的语言所使用的运行库也是完全不同的。
链接:程序集
程序集(assembly)是一个及一个以上托管模块,以及一些资源文件的逻辑组合。
.程序集是包含一个或者多个类型定义文件和资源文件的集合。
程序集是经由编译器编译得到的,供CLR进一步编译执行的那个中间产物。
程序集必须依靠CLR才能顺利执行。
CLR(Common Language Runtime,公共语言运行时),负责资源管理(内存分配和垃圾收集),并保证应用和底层操作系统之间必要的分离。
CLR存在两种不同的释义:公共语言运行时和公共语言运行库。
2、元数据基本概念解读(2)
元数据(Metadata)是描述其它数据的数据或关于其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。
元数据是描述信息资源或数据等对象的数据。
元数据使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
元数据的基本特点主要有:⑴、元数据一经建立便可共享。
元数据的结构和完整性,依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要。
⑵、元数据首先是一种编码体系。
元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系。
这导致了元数据和传统数据编码体系的根本区别。
元数据的最为重要的特征和功能,是为数字化信息资源建立一种机器可理解框架。
由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。
如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。
用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
链接:数据元
数据元(Data element,数据元素),是指通过定义、标识、表示以及允许值等一系列属性描述的数据单元。
在特定的语义环境中被认为是不可再分的最小数据单元。
数据元素(data element),单个数据单元,是数据的基本单位。
数据元素(data element),泛指结构化数据中的最小组成单位。
二、元数据定义解释
元数据被定义为:描述数据及其环境的数据。
1、数据仓库领域的元数据
在数据仓库领域中,元数据是指描述数据仓库内数据的结构和建立方法的数据。
元数据按用途分为技术元数据和业务元数据。
链接:数据仓库
数据仓库(Data Warehouse,DW或DWH),是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。
它是单个数据存储,出于分析性报告和决策支持目的而创建。
为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库是决策支持系统(Decision Support System,DSS)和联机分析应用数据源的结构化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
数据仓库的特征在于面向主题、集成性、稳定性和时变性。
链接:技术元数据和业务元数据
在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据;可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。
技术元数据,是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。
业务元数据,从业务角度描述了数据仓库中的数据;它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。
语义层(Semantic Layer)技术,通过对数据库里的有关数据项定义,把数据库中的数据定义成有明确的业务含义的名称。
业务人员所面对的不再是表、字段和它们之间复杂的关联、计算关系,而是他所熟悉的业务术语和指标名称。
2、软件构造领域的云数据定义
在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序行为的数据。
它在程序运行过程中起着以解释方式控制程序行为的作用。
在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。
链接:软件构造
软件构造(Software Construction,SC),是指通过编码、验证、单元测试、集成测试和排错组合,具体创建一个可以工作的、有意义的软件。
3、图书馆与信息界的云数据定义
在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。
其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。
一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。
从已有的结论看,元数据的含义是逐渐发展的。
元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。
目前,元数据这一术语实际用于各种类型信息资源的描述记录。
此外,元数据在地理界,生命科学界等领域也有其相应的定义和应用。
2017年2月24日编写于重庆
2017年2月26日修改于重庆。