Data Catalog Studio1.4 使用手册——【Data Catalog 精】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.Data Catalog
1.1 Data Catalog简介
近年来,数据资产管理发生了根本性的变化:它不再是一个完全在IT部门中实施的技术规程,业务在管理数据方面扮演着日益重要的角色。

我们正在迅速进入一个业务协作和人工智能成为数据管理支柱的时代。

数据资产目录是将它们粘合在一起的粘合剂。

从最初作为元数据管理并向数据分析师提供数据查询的一种方式,数据资产目录的功能、受欢迎程度和重要性都有所提高。

现在数据资产目录是数据管理、数据管控和数据治理的核心。

IDC在2017年的一项调查显示,数据分析人员花在数据分析上的时间只是搜索和准备数据所花费时间的一小部分。

对管理数据资产、提高分析质量和生产率而言,数据资产目录的战略意义日益重要。

在没有数据资产目录的情况下管理数据是不明智和不切实际的。

企业数据资产的规划与建设可以分为多个阶段来完成:第一阶段进行元数据管理,帮助技术人员完善数据管理流程;第二阶段构建包含业务字典在内的数据资产目录,搭建业务与技术之间的沟通桥梁;第三阶段打造企业的统一数据资产管理平台,打通数据壁垒,促进数据的价值业务化体现。

Transwarp Data Catalog 为企业数据治理的各个阶段提供可靠、便捷、智能的全流程工具支撑。

üüü
ü
ü
ü
Data Catalog功能介绍
模块功能介绍
元数据管理元数据管理模块支持自动化元数据采集、维护和展现,绘制血缘影响图谱和数据地图,展示数
据资产的组织关系和数据特征。

该模块支持SQL管理,通过采集SQL历史记录,分析、展示
执行情况及相关数据表和存储过程信息。

资产目录数据资产目录模块提供自定义目录编目、标签系统、多人协作以及基于星环大数据检索技术的
资产搜索功能,同时支持用户搭建全局知识库,沉淀业务理解。

人工智能人工智能模块提供基于机器学习相关技术的数据资产推荐、智能标签和资产相似性分析等功
能,帮助用户理解、洞察数据资产。

数据共享流转数据资产目录提供基于容器化和多租户隔离技术的数据共享和流转功能,支持配置数据权限和
审批流程,在保障数据安全的前提下完成数据共享、申请、流转的使用过程。

报表管理报表管理模块支持采集BI系统元数据,展现报表详情及后台数据逻辑链路,将相关数据集、
业务信息打通,向用户展示全景式BI关系图谱。

数据字典数据字典模块支持用户创建业务术语和数据标准管理系统,用户可以自由创建业务术语和数据
标准的存储和展现形式,并配合机器学习技术关联、组织相关数据资产。

安全管理安全管理模块基于星环大数据安全技术,支持Kerberos、LDAP、Access Token以及单点登
录等认证方式、细粒度的权限控制和日志审计功能。

数据质量管理数据质量模块基于星环大数据平台提供海量数据的质量检查和数据转换能力,支持执行与管理
数据质量检查规则和检查任务,形成质量问题报告,实现对数据质量问题的改善与监控。

数据资产可视化数据资产目录提供全局视角的数据资产地图,展现各业务系统间的数据流向、数据质量、数据
血缘以及数据特征等信息,同时以Restful API形式提供数据资产和数据治理的指标和流程信
息,搭建数据大屏和领导驾驶舱等应用。

数据社区数据社区模块提供用户评论、打分、推荐、分享等功能,通过收集用户评分、评论等信息,丰
富元数据,将组织隐性知识转化为共享的、持久的显性知识。

Data Catalog功能特性
✓AI赋能数据治理
✓全链路数据分析
✓支持主流数据源
✓全生命周期管理
✓数据资产可视化
✓搜索引擎风格的资产搜索
✓自动采集、更新元数据
✓自助式业务字典
✓跨租户数据共享流转
1.2. 关于本手册
本手册说明的范围包括:
1.在TDH的Manager上如何进行Data Catalog组件安装;
2.如何开启Guardian保障Data Catalog服务安全;
3.如何开启Data Catalog插件功能
4.Data Catalog的具体使用操作介绍
2. 安装部署
2.1. Data Catalog的安装
Data Catalog自动地从Inceptor中获取元数据信息并实时更新,因此要使用Data Catalog,您必须先安装Inceptor和Data Catalog,再为Inceptor开启Data Catalog插件。

本文假设您的集群已安装Inceptor,关于服务安装的更多细节请参考《Transwarp运维手册》中管理服务一节。

如果当前TDH版本无法直接安装Catalog以及对应agent插件,需要进行一定的手工安装流程,具体细节可以参考安装wiki。

安装Data Catalog服务
点击集群名称左侧的添加按钮,将进入添加服务向导:
进入1.【选择服务】有时Data Catalog框显示为灰色,禁止添加。

这是因为Data Catalog中的某些功能依赖于集群中的其他服务,在安装Data Catalog之前,您必须先安装这些依赖的服务。

鼠标悬停在Data Catalog框上,会提示您还有哪些依赖的服务尚未安装。

Data Catalog依赖服务:Hyperbase、Search、Kafka、Zookeeper、HDFS、Txsql。

若集群中Data Catalog依赖的服务已全部安装完成,直接勾选您需要的Data Catalog版本进行安装。

点击下一步进入2.【分配角色】,可以选择Catalog Web和Catalog Platform分别启动在哪个节点上,同时在右侧可以选则需要依赖的服务是哪些。

点击下一步进入3.【配置服务】,在【属性】栏可以填写服务名称,在【基础参数】栏填写端口及相关参数,自定义参数可以支持扩展参数。

点击下一步进入4.【配置安全】,选择Guardian插件打开,并填写Guardian用户名(KAdmin票据名)和密码。

Guardian是集群服务之间的访问以及用户对服务的访问的认证的统一管理机构,这里需要使用Kerberos认证方式。

点击下一步进入5.【服务总览】,确认上述步骤的相关配置项
点击下一步开始Data Catalog服务的安装,安装完成后可以在TDH Manager首页面看到Catalog 组件。

●Inceptor开启Data Catalog插件
点击Inceptor 组件图标进入,选择左侧栏最后的齿轮图标,如下:
在配置安全这一步时,注意若在打开Data Catalog插件服务前,Inceptor或Data Catalog依赖的服务已经使用了Kerberos认证模式,则打开Data Catalog插件时必须选择Kerberos认证模式。

为Inceptor开启Data Catalog插件将会停止并重启Inceptor服务,请确保您的应用可以忍受此次停止。

2.2. Guardian集成
TDH 提供了安全组件Guardian统一管理集群服务认证、用户管理和权限配额管理。

在安装了Guardian的集群中,服务的认证方式有以下两种:
1.简单认证模式:服务不需要认证即可以使用。

2.Guardian认证模式:统一认证和授权,使用Guardian用户身份登录服务。

集群中服务的安全可以单独启停,但没有开启Guardian安全的服务不能访问开启了Guardian安全的服务,因此我们建议统一地为集群开启或关闭Guardian安全。

若Inceptor开启了Guardian认证,则Data Catalog也必须开启安全。

您可以在服务安装时开启Guardian安全,或者安装完成后在服务的配置页面开启。

关于Guardian和集群安全的更多信息请参考《Transwarp 安全手册》。

●查看Data Catalog的安全模式
进入Data Catalog服务配置页面,点击进入服务安全页面。

页面状态如下时,表示Data Catalog已开启Guardian的Kerberos认证:
服务未开启Guardian的Kerberos认证时,您会看到以下页面:
点击开启启用Kerberos。

启用了Kerberos之后,Data Catalog使用Guardian服务进行统一的用户管理,即可以直接使用Guardian账号登录Data Catalog。

一键开启/关闭集群安全
进入Guardian服务配置页面,点击更多操作→启用/关闭Guardian安全
2.3.内外网IP映射方案
许多部署环境中会出现生产环境和使用环境使用两套网关的情况,即分为了内外网。

在部署Data Catalog的时候需要将内外网IP进行映射,操作方法如下所述:
在TDH上(TDC不用考虑),修改catalog web的配置文件(位于catalog web安装节点的
/etc/catalog1/conf目录下的web-application.properties文件),将配置文件中:
catalog.web.server.address
catalog.cas.server.address
两项配置改为外网ip和端口的地址即可。

3. 使用说明
3.1.仪表盘
仪表盘是由几个组件组成的平台,可用于访问数据,监视数据,查看用户和数据的各项描述信息。

目前已有的仪表盘小部件有:数据源数据统计、数据变化历史、您的热点数据、新手教程。

默认情况下,仪表盘窗格显示排序中优先级最高的仪表盘。

仪表盘展示
在Data Catalog任意左上角有数据资产路径的页面,点击数据资产,进入仪表盘页面。

用户可点击左上角的,选择其它仪表盘的名称,在页面展示其它仪表盘。

●仪表盘管理
点击左上角的,选择“仪表盘管理”,进入仪表盘管理页面。

➢收藏仪表盘页面:可设置已收藏的仪表板的排列顺序。

选择置顶,则该仪表板会变成主页面默认显示的仪表盘。

➢我的仪表盘页面:展示当前登录用户建立的仪表板。

➢所有仪表板页面:展示当前登录用户可见的所有仪表板,并显示仪表板的使用热度。

点击操作列的编辑按钮,可对仪表盘进行编辑、复制和删除操作。

●新建仪表盘
点击新建仪表盘按钮,进入新建仪表盘页面,用户可以选择克隆当前已有的仪表盘或者新建空仪表盘。

●编辑仪表盘
➢编辑仪表盘:在仪表盘管理页面点击仪表盘名称或点击操作列下的编辑按钮,或在仪表盘详情展示页面点击编辑按钮,可以进入仪表盘的编辑页面。

➢仪表盘布局:在编辑页面拖动仪表盘的小部件,改变摆放位置;也可将鼠标置于仪表盘小部件的右下角,进行拖动可以改变仪表盘小部件的大小。

➢新增仪表盘:点击新增仪表盘按钮,为当前仪表盘增加新的内容。

更改后点击保存按钮,保存设置;若点击返回按钮离开当前页面,则不保存更改。

3.2. 数据源管理
●数据源添加
提供多数据源的接入功能,支持Inceptor、ArgoDB、HDFS、Hyperbase、Mysql、SQL Server、Oracle、DB2、Hive、TD、Hbase、Teradata、Pilot Enterprise、ArgoDB以及第三方报表工具。

在添加数据源之前,请确保已部署对应类型的agent。

在左侧导航栏点击数据源管理,进入数据源管理页面。

数据源管理页面显示已添加的数据源信息列表,包含连接状态、连接类型、已接入数据量、连入时间等信息。

同时,支持添加数据源、删除数据源和修改数据源配置。

点击新建连接,添加新的数据源。

选择想要的连接类型,点击下一步。

填写数据源连接的各项参数,目前Catalog新建数据源支持的认证模式有None、LDAP、Kerberos、Password和Access Token。

用户可选是否设置数据源数据的更新频率,点击“Cron表达式”按钮,出现更新频率编辑页面,如下图所示。

填写完成后点击测试连接。

连接测试通过后,选择需要的数据库,点击确定。

添加后,您就可以在左侧的导航栏中找到该数据源及其数据库。

新建数据源连接
Catalog添加数据源时允许用户填写数据源的连接,Catalog自动为用创建agent,并提供agent管理页面。

数据源连接页面显示已添加的数据源连接列表,包含连接ID、连接类型、连接状态、IP、端口、已创建数据源、创建时间等信息。

同时,支持添加连接、删除连接和修改连接配置。

点击新建连接,添加新的连接。

选择想要的连接类型,点击下一步。

填写新建连接的各项参数,目前Catalog新建连接支持的认证模式有None、LDAP、Kerberos和Access Token,完成后点击测试连接。

完成后点击确定。

添加后,您就可以在数据源连接页面找到该连接。

数据源浏览
通过左侧导航栏或搜索,找到您感兴趣的数据源,点击进入数据源详情页面。

概览页面包含数据源的名称、标签、描述、物理集群、权限,包含的数据库等元数据信息。

您也可以对该数据源进行配置修改、资产关联(详见《3.7数据理解-关联资产》)等操作。

通过Tab选项切换,您可以查看该数据源下的所有数据库,以及该数据源的所有关联资产。

3.3. 元数据管理
添加对应数据源后,Data Catalog会自动抓取该数据源下的数据表、视图和存储过程。

您可以查看并管理该数据源的元数据、采样数据、血缘影响分析等信息。

元数据浏览
点击左侧导航栏或搜索,找到您所感兴趣的数据库,点击进入数据库详情页面。

通过Tab选项,您可以查看数据库的元数据描述信息、数据表、视图、存储过程、关联资产等信息。

在表或视图的详情页面,通过Tab选项可以查看具体的列信息、采样数据、关系表、使用记录和关联资产。

列信息,包括字段详情和字段相似性分析
点击右侧查看详情按钮,可查看字段相似性详情,点击具体字段可跳转至对应字段详情页。

采样数据,包括随机100条采样数据的数据名称和数据类型
关系表,添加方式包括自动添加的关系表和手动添加的关系表,其中手动添加的关系表可以修改和删除,自动添加的关系表不可以操作;关联类型包括当前表、血缘表和影响表。

使用记录包含了使用记录与修改记录,操作类型包括DDL和DML,结果包含了成功和失败,可以通过下拉筛选框勾选。

血缘影响分析
Data Catalog支持数据表的血缘影响分析,通过整合分散在各个系统、应用、数据库等不同数据源中的元数据,将它们集中在一起,提供统一的元数据查询管理接口。

通过元数据追踪,Data Catalog记录了每一次元数据转化的输入与输出,从表级和列级两个粒度上,描述多表间的关系,为数据平台中的元数据勾勒出一幅完整的数据流动变化关系图谱,使用户更全面的掌握数据,把握数据变化。

Data Catalog使用血缘分析和影响分析来描绘元数据间的关联图谱,包括元数据来源于哪些表,又去往了哪些表。

其中血缘分析关注当前对象与其上游对象的关联,影响分析关注当前对象对下游对象的影响。

a)自定义血缘影响关系
Data Catalog支持用户自定义添加血缘影响关联,用户可在左侧导航栏进入添加关系表页面。

点击添加数据表,进入数据表选择页面,选择您想要添加关系的数据表作为当前表。

用户也可以从数据表详情页进入添加关系表页面。

点击添加血缘按钮,自动将该表设为当前表。

点击添加血缘表或点击添加影响表,选择要添加的数据表,编辑SQL语句后,点击确定即成功添加了血缘影响关系。

在添加关系页面只能添加一层关系,成功添加血缘影响关系后的页面如下。

用户点击编辑按钮,可以修改关系表;点击删除按钮,可以删除关系。

b)查看血缘影响关联
用户可以在数据表详情页查看当前表的所有血缘影响关联。

举例:在数据浏览页面左侧导航选择数据源inc,选择下拉数据库test3,选择下侧的数据表table2,点击右上角,进入如下的分析页面。

血缘影响图是将查询表的血缘和影响集成在一张图中进行展示。

以目标对象的第一代祖先为起点,以目标分析对象为终点,按照转化关系逐层扩展。

血缘图直观的展示了目标对象的产生过程,包括从哪些表转换而来,经历了哪些转换,从而帮助推测出它在此过程中被赋予的含义,以及会受到的潜在影响。

影响图的起点是当前分析对象,终点是受其影响的最末端子代,按照影响关系逐层扩展。

影响分析图反映了当前对象在统一数据集成平台中,参与了哪些元数据的形成。

用户可以借助影响分析图观察该对象的影响能力,即对于当前元数据修改,会对哪些后代元数据造成影响。

➢展示类型:用户可以点击左上角的图标,选择是否展示血缘表和影响表;
➢深度:更改深度数值,可以选择血缘影响的查看深度;
➢放大缩小:点击放大缩小按钮,可以改变页面展示的图形大小;
➢布局:用户可以在页面上拖动数据表图形或拖动页面,改变图形的展示位置;
➢刷新:点击刷新按钮,刷新当前页面的布局;
➢扩展至全局:点击按钮,可以将血缘影响关系图放大至整个页面;
➢具体信息:点击图中的某一张表,可以查看该表的具体信息。

➢列血缘影响:血缘影响分析图还支持列的血缘影响分析。

点击血缘图中任意一张表的展开,查看该表的血缘影响字段。

➢环血缘:Data Catalog支持从自身到自身的血缘影响映射。

3.4. 报表浏览
接入Pilot Enterprise数据源后,该数据源中的报表即自动加载到数据目录中。

通过点击左侧导航或搜索,您可以查看相关报表。

点击右上角按钮,可以跳转至Pilot中进行查看。

3.5. HDFS文件
通过点击左侧导航或搜索,打开HDFS数据源的详情页面,通过切换Tab选项,您可以查看该数据源的概览、HDFS路径、关联资产等信息。

上传文件
点击HDFS文件列表详情页上方的上传按钮,可进行文件(支持大文件)上传。

在弹窗中选择需要上传的文件,点击确定按钮上传文件。

文件上传任务管理
点击左侧导航栏任务列表可查看上传任务信息,并可对上传任务进行暂停,重跑,取消等操作。

●文件下载
选择(可多选)文件列表内容,点击文件下载按钮,可对文件进行批量下载。

●添加分类
您可以自由定义HDFS数据源下的路径结构,根据需要添加文件夹,归类相应的文件。

文件夹的详情页展示了该文件夹下属子文件夹和文件的名称、大小、所属用户和组、当前用户对其拥有的权限等信息。

点击添加文件或添加文件夹,即可在该文件夹下创建新的子文件夹和文件。

●文件管理
在文件夹详情页,通过左侧的多选框,您可以对子文件夹和文件进行批量的复制、移动和删除的操作。

页面右侧的搜索框支持对该数据源下所有文件夹以及文件名称的搜索。

直接点击搜索结果中的文件夹或文件的名称,便可快速进入对应的详情页。

此外,点击页面上方的全局路径可以快速定位。

点击,可以返回上级目录。

在每个文件的详情页中,您可以浏览文件的描述标签、路径、文件大小、关联资产等信息。

同时,支持对文件添加标签和描述内容(详见《3.7数据理解-标签描述》)。

3.6. 业务字典
业务字典是一个管理业务术语和数据标准的模块。

您可以自由创建业务元数据和数据标准的存储和展现形式,并配合机器学习技术关联、组织相关数据资产。

●新建业务字典
在左侧导航栏上部,点击,打开新建业务字典弹窗。

输入字典名称,点击确定,完成新建。

●添加目录及编辑属性
业务字典支持自定义目录的结构和属性。

属性规定了该目录以及它所有级别的子目录下,所有词条的存储和展现的形式。

若您定义了某一个目录的属性,则它包含的所有子目录都将继承它的属性,不可以再定义子目录自己的属性。

注意,一旦定义了属性或者添加了词条,属性就不可更改。

点击打开添加目录的页面,输入目录名称和描述。

如果父目录没有定义过属性并且没有添加过词条,则添加子目录时允许定义该目录的属性。

每个目录内置有2个默认字段:词条名称/字符型、词条描述/字符型。

在2个默认属性的基础上,您可以点击,为词条添加其他自定义的字段。

填写字段名,选择该字段可选或必填,并选择字段类型。

支持的字段类型包括字符型、数值型、自定义枚举值(字段填写时的下拉选项)。

若选择的字段类型为自定义枚举值,您需要输入枚举值列表,即后续在创建词条时该字段的下拉选项列表。

例如,创建一个必填字段叫做“检查频率”,该字段有”每日“、”每周“2个值。

具体步骤为:
1.点击【添加属性】;
2.【字段名】填写”检查频率“;
3.【是否必填】选择必填项;
4.【字段类型】选择自定义枚举值;
5.下方输入栏填写”每日“,点击;
6.下方输入栏填写”每周“,点击;
7.点击确定,完成该字段的创建。

如果父目录已经定义过属性或者已经添加了词条,则添加子目录时不允许定义属性,该子目录的属性为自动继承。

词条管理
业务字典目录的详情页展示了目录的描述、包含的词条和子目录等信息。

词条的展示格式由用户定义的目录属性决定。

该页面支持对词条和目录的添加、批量删除、单个编辑等操作。

点击添加词条,按照定义的字段和字段类型,填写相应的字段内容,其中带的字段为必填字段。

词条的详情页面展示词条的标签描述、字段信息,以及关联的资产。

鼠标移入某一字段时,出现,点击后可编辑该字段值。

导入导出
对于存量词条,支持以Excel模板的形式批量导入和导出。

在目录的详情页上,点击下载Excel模板文件。

填写完毕后,点击,上传填写好的Excel文件,系统会自动导入词条到当前目录中。

注意,重名的词条会导入失败。

对于词条的导出,可以通过复选框勾选需要导出的词条,点击导出Excel文件。

注意,子目录将不会被导出。

3.7. 业务目录
业务目录支持从业务的视角,归类整合相同业务主题的数据资产。

在由业务需求驱动的数据应用中,业务目录可以帮助您理解数据表、数据报表等资产的业务含义,并且快速定位常用的数据资产,提高数据应用的效率。

添加分类
点击按钮,输入目录名称,点击确定,新建一个子目录。

添加业务数据
在目标目录的页面点击,选择想要添加的数据表,填写该数据表的别名(推荐填写能表达业务含义的别名)。

您可以通过多选框,一次性添加多个数据表。

●编辑业务数据
业务数据添加后,可以在列表的操作栏点击按钮,对该业务数据进行修改。

重新输入别名,或者重新选择数据表。

3.8. 数据理解
●标签
Catalog支持对数据源和数据资产添加标签,并且能够以标签为关键词搜索关联的数据资产。

在数据资产的概览页面中,您可以查看该资产的标签信息。

标签分为自动的智能标签和人工的普通标签两类。

其中,智能标签使用AI技术,运用业务信息、技术元数据、资产描述信息以及用户使用信息,自动标记数据资产。

智能标签的右侧会出现推荐匹配度的百分比。

当鼠标移入该标签时,您可以选择确认或删除。

确认后,智能标签就变为普通标签。

点击,输入标签文字,您就可以手动添加普通标签。

描述
在数据资产详情页上,点击,可以对资产添加描述文字。

●智能推荐
Data Catalog基于机器学习相关技术提供资产相似性分析和数据资产推荐功能,帮助您理解、洞察数据资产。

在资产的概览页下方,您会看到推荐的相关数据资产名称、描述、标签等信息,点击即可直接跳转至该资产的页面浏览。

●关联资产
为了更好地描述资产之间的关系和资产的业务属性,您可以为某一数据资产设置它的关联资产。

关联关系可以存在于数据库、文件、报表和业务字典之间。

在数据资产的详情页上,点击按钮,进入设置关联资产的页面。

在设置关联的页面,点击选择您要关联的对象,填写关联说明(可选),完成关联。

相关文档
最新文档