大数据下的数据挖掘处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最大的效用。
05
快速生成
元数据是生成其 他数据模型的基 础,有了元数据, 就可以借用相应 的代码生成器或 者相应的工具生 成可直接使用的 其他数据模型和
代码信息。
06
理解系统
元数据可以为运行 中的系统提供统一 的可读的系统模型, 使系统在运行时可 以使那些实体对象 通过元数据来了解 其本身的特征、结 构、地位以及其他 对象之间的关系等。
产生。
02
理解数据
元数据为运行时 的系统提供了统 一的可读的系统 模型,系统运行 时可以使得实体 对象通过运行时 的元数据模型来 得知自身的结构、
自身的特征。
03
质量前提
元数据做到了 对数据结构的 描述,因此是 开展数据质量 校验的前提。
04
通用移植
元数据是独立性 强,是与平台无 关的,无论使用 什么技术平台, 元数据自身不收 到任何影响,这 就保证了元数据 的通用性和移植 性,能使它发挥
数据存储
2020 老令书屋
数据服务
2020 老令书屋
数据处理过程
2020 老令书屋
数据源
元数据管理
数据质量标准
数据预处理
建模
数据服务
关系型数 据库
文件数据 元数据
流式数据
数据库、表、字段、索引、表空间 质量结果
元数据采集
数据质量管理
元数据
智能生成
引用标准
标准数据
数据资产
清洗处理
质量规则 满足标准
1 元数据 例如某个字段属 性
3 主数据 元数据和引用数 据的集合
Fra Baidu bibliotek元数据
主数据
基础
引用数据
数据
2 引用数据 例如字段属性的 取值范围
业务活动
4 交易活动数据 各类信息系统、业务 过程中产生的数据
交易活动数据
交易审计数据
5 交易审计数据 记录数据的所有活
动的数据
数据全景图
2020 老令书屋
企业数据按照数据结构分类通常分为结构化数据、半结构化数据以及非结构化数据,而其在企业中的流转过程也通常划分为数据采集、数 据存储、数据处理、数据应用等几个部分。
模型训练
算法
数据服务接口
数据共享
数据发布
数据模型
ES索引
大数据平 台
业务数据/数据清理
02 元数据及数据标准
2020 老令书屋
元数据 及数据标准
元数据概念及特点 元数据作用 元数据管理 常用Hive元数据表 元数据管理系统 大数据标准体系框架 数据质量标准化
元数据概念及特点
2020 老令书屋
元数据
描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、 文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索 的目的。
01
集成必备
数据仓库是由外 部数据、业务数 据以及文档资料 通过某些抽取工 具而得到的,数 据集市就是数据 仓库经过元数据 的定义,约定它 的结构等信息所
元数据管理
2020 老令书屋
数据的表结构Schema信
01

狭义的元数据通指的就是这部分内容,无
论是SQL还是NoSQL的数据存储组件,自身
基本都有管理和查询表格Schema的能力。如,
Hive自身的表结构信息本来就存储在外部DB
数据库中,Hive也提供类似 show table,
describe table之类的语法对这些信息进行查
SQL查询引擎
Sqoop 统计数据
非实时数据采集
ETL
Sqoop
实时查询(Spark)
Hadoop分布式文件系统 Hive MadReduce
HBase
实时数据采集 Spark Streaming
服务器集群 …
对外访问接口
批量处理引擎 Hive Spark
平台监控/管理 监测告警 实时监控 定时调度 资源管理 ……
元数据可以为用户提供信息资源本身的位置方面的信息,方便准备地获取信息资源所 在的位置,方便信息资源管理。
元数据可以用于信息资源的保存和管理,包括资源的加工存储结构、使用管理等方面 的信息,也包括使用权、版权所有权、防伪方式、电子签名、电子水印等信息。
保存信息资源的使用情况、被评价等相关信息,管理者可利用这些信息对资源进行统 计分析,并反馈给资源建立和管理者,使其更好的组织资源,更好的为用户服务。
用户操作等行为日志 交易订单及管理数据
数据来源
数据采集
企业经营 交易数据
交易数据
Sqoop
PC
Internet
Web
App
审计数据
Flume
外部数据 终端日志
API Kafka
数据仓库
交易数据 汇总数据
交易数据 查询
关系型 数据库
H I V E
HBase 文档音视频
查询计 算引擎
实时计 算引擎
信息检索
询。
数据的存储空间、读写记录、权限归属
和其它各类统计信息
02
用于数据质量管理和数据安全管理,信息包
括数据占据了多少底层存储空间,最近是否有过
分析数据
离线计 算引擎 数据
分析
MapReduce
分布式文件系统 HDFS
应用中心
统计查询 多维分析 可视化分析
个性化推荐 内容推荐 数据搜索
……
访问内容分析 用户位置分析 热点内容预测
统计分析用户 交易用户
离线分析用户
审计数据
交易数据
数据分析
日志搜索
数据采集
2020 老令书屋
数据仓库 实时数据 历史数据
XXX 大数据下的数据挖掘处理
目录
2020 老令书屋
目录
01
总体介绍
02
元数据及数据质量标准
03
数据预处理
04
数据仓库及建模
01 总体介绍
2020 老令书屋
总体介绍
企业数据分类 数据全景图 数据采集 数据存储 数据服务 数据处理过程
企业数据分类
2020 老令书屋
数据是存储在某种介质上的能够识别的物理符号;数据是企业最具价值的资产之一;从数据分类模型可将数据分为五类。
元数据作用
2020 老令书屋
元数据在信息资源组织方面的作用可以概括在以后六个方面:描述、检索、选择、定位、管理和评估。
资源描述 资源检索 资源选择 资源定位 资源管理 资源评估
元数据的最基本的功能就是对信息资源对象进行描述,这也就是对数据的解释和说明, 这里可以描述信息资源的主题、内容、属性、特点等。
可以利用元数据更方便快捷地组织信息资源,并建立各资源对象之间的联系,为用户提供更 多途径、多层次的检索方式,有利于方便快速地发现自己所真正需要的资源和信息。
元数据可以帮助用户更快的进行信息的取舍。在元数据的支持下,用户可以不必浏览 信息本身对象,就可以对信息进行基本的了解和认识,并且挑选自己需要的信息
相关文档
最新文档