财政大数据中心建设方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其他库 … 芜湖市及区县
……
数据 同步
数据 同步
数据 同步
省本级备份池
当年库 …
当年库 …
历…史库
…
…
合肥、淮北备份池
当年库 当年库
…
…
… …历史库…
……
宣城、芜湖备份池
当年库 当年库
…
…
… 历…史库…
生产系统
组织外数据
国地税数据 …
备份中心
统计局数据 …
发改委数据 …
Merit数据资源管理平台
简单分析展现
中间数据
数据库 数据库
其他格式数据
12
数据资源管理
数据源管理
源库管理
对象管理
数据采集及加工
目标库管理
任务配置管理
目标库管理
任务周期管理 任务配置管理
视图授权
目标对象管理 序列任务管理 任务日志管理
数据清洗 遗漏值处理 噪音数据处理
不一致数据处理
数据集成 数据消减 数据变换
异常管理
任务监听
异常报警
异常记录
数据采集及加工 任务配置管理
权限管理 数据清洗
数据集成
10
数据资源管理
数据资源管理之ETL:数据源分析方法论
1 逻辑范围
2 物理范围
4 更新频率
5 更新方式
7 数据量分析 8 质量分析
3 格式分析 6 存储周期 9 ETL过程
11
数据资源管理
数据源 数据库 结构化数据
其他数据
ETL
抽取
清洗
加工
加载
……
……
8
目录
建设思路及总体架构 数据源获取 数据资源管理 数据分析、展现及应用
9
数据资源管理
Merit数据资源管理总体功能结构
统一编码管理
元数据管理
功能结构
数据资源管理 基础数据库管理
分析主题库管理
简单分析展现
标准分类管理
数据源管理 数据变换
标准文件管理
目标库管理 异常管理
数据标准管理 审批发布管理
ETL
数据库查找替换:过滤所需数据,并且根据规则进 行数据的替换 自定义转换:调用java程序执行特殊的数据处理 内置数据质量检查:边检查编入库 同时对节点状态和数据状态监控与统计 中文特色处理:全角半角转化,汉字转拼音等
ETL转换
数据仓库
报表引擎
数据目的
14
……
数据资源管理
财政数据中心ETL要点
政
贯
通
支撑平台库
业 务
其他库
…
淮北市及区县
……
数据 同步
数据 同步
省本级备份池
当年库 …
当年库 …
历…史库
…
…
合肥、淮北备份池
当年库 当年库
…
…
… …历史库…
……
数据 抽取
综合查询库
数据 抽取 转换 清洗 汇总
数据同步
决策支持 数据仓库
……
数据 分析 利用 (省本 级)
数据 抽取
监督检查库
四里河灾备中心设备情况: • 10台华为pc-sever,每台4个
收支统计
地区排名
多年比较
...
统一编码管理
功能结构 元数据管理
基础数据库管理
依
分析主题库管理
资源注册管理
简单分析展现
照
当 年
标准分类管理
标准文件管理
审批发布管理
标
准
数据源管理
目标库管理
任务配置管理
)
数据变换
数据清洗
数据集成
……
分布式技术框架
Spark计算框架 Hadoop体系
基础数据规范 标准存储规范 清洗转换规则
……
公安数据
互联网数据
……
…
…
财政数据中心
4
目录
建设思路及总体架构 数据源获取 数据资源管理 数据分析、展现及应用
5
数据源获取
组织内数据源获取:灾备中心利用
统一门户管理
基础库、预算、支付、账务Байду номын сангаас业务
综合查询
决策支持 监督检查
支撑平台库 其他库 …
省本级
上
支撑平台库
下 级
其他库
…
财 合肥市及区县
13
数据资源管理
应用业务系统
非结构化数据
异构数据库 ORACLE SQL SERVER
WEB SERVICE
数据源
增量抽取:对于发生改变的进行增量更新,MD5等 列映射:数据类型转换、列名变换、删除列、增加列 派生列:增加新列,其值为表达式的值 条件分支:根据一定的条件将数据的拆分、过滤
OLAP引擎
结构化数据
非结构化数据
预算编 预算执 会计核 … 项目
…
制
行
算
文件
Merit-ETL
Merit-ETL (
美林Tempo数据分析平台
财政数据分析挖掘主题
现金流量分析 宏观经济分析
财政预警分析
项目监控分析
中期规划测算
……
数据分析主题
算法管理 分析建模管理 分析配置向导 分析元素定义 分析元素关联 展示模板管理
组织外数据源获取及管理:积极拓展外部数据源
来源类型
统计局数据
对应的分析主题
地区生产总值、营业税与第三产业增加值增长速度等
国地税数据
行业税收增长贡献率及拉动作用分析
兄弟省份财政收支月报数据 经济体量相近省市地方公共财政预算收入总量、增幅对比等
公安数据
财政供养人员信息联合校验等
互联网数据
财政政策评估、舆情监控等
组织内数据 (灾备中心)
省本级当年库
省本级历史库
合肥市当年库
合肥市历史库
依托财政基础数据规范及标准 存储规范(当年);
当年生产库每晚ETL,依照记录 追加和记录更新方式装载;
历史年度库每年年初ETL,依照 全部覆盖方式装载。
ETL
……
组织外数据
其他部门结 构化数据
非结构化数据
互联网数据
结构化的组织外数据依托数 据交换标准规范及财政基础 数据规范、标准存储规范 (当年)
cpu,4核/U;内存:256G,2 台存储,合计120T磁盘空间; • 目前启用8台服务器,共建立 93个虚拟机,每个虚拟机16G, 磁盘100G;
支撑平台库
宣城、芜湖备份池
数据
其他库 … 宣城市及区县
数据 同步
当年库 当年库
…
…
综合查询库
决策支持 数据仓库
分析 利用 (…
市)
• 目前系统的cpu,内存使用率 较低;
财政大数据中心建设方案
目录
建设思路及总体架构 数据源获取 数据资源管理 数据分析、展现及应用
2
建设思路及总体架构
• 组织内数据(灾备中心) • 组织外(国地税、统计
局等)
数据源 获取
• ETL及标准规范 • 数据资源管理 • 技术架构
数据资源 管理
深化应用 发展
• 反馈业务系统 • 深化财政业务改革 • 拓展分析主题
分析主题 构建
• 构建方法 • 算法模型 • 展现方式
3
建设思路及总体架构
数据源
统一门户管理
数据资源及标准存储管理
数据分析和数据挖掘
组织内数据
支撑平台库 其他库 …
省本级
支撑平台库
上 其他库 …
下 合肥市及区县
级
财
政
支撑平台库
贯 其他库 …
通 业
淮北市及区县
务
支撑平台库
其他库 … 宣城市及区县
支撑平台库
支撑平台库
… 历 …史库…
……
其他库 …
监督检查库
• 部分市县数据未同步。
芜湖市及区县
备份中心
6
生产系统
预算执行数据中心
数据源获取
组织内数据源获取:灾备中心利用
1
• 灾备制度落实,确保全省财政数据及时备份
2
• 充分利用现有硬件资源,建设数据中心
3
• 每年度历史数据ETL服务(依照当年标准)
7
数据源获取
……
数据 同步
数据 同步
数据 同步
省本级备份池
当年库 …
当年库 …
历…史库
…
…
合肥、淮北备份池
当年库 当年库
…
…
… …历史库…
……
宣城、芜湖备份池
当年库 当年库
…
…
… 历…史库…
生产系统
组织外数据
国地税数据 …
备份中心
统计局数据 …
发改委数据 …
Merit数据资源管理平台
简单分析展现
中间数据
数据库 数据库
其他格式数据
12
数据资源管理
数据源管理
源库管理
对象管理
数据采集及加工
目标库管理
任务配置管理
目标库管理
任务周期管理 任务配置管理
视图授权
目标对象管理 序列任务管理 任务日志管理
数据清洗 遗漏值处理 噪音数据处理
不一致数据处理
数据集成 数据消减 数据变换
异常管理
任务监听
异常报警
异常记录
数据采集及加工 任务配置管理
权限管理 数据清洗
数据集成
10
数据资源管理
数据资源管理之ETL:数据源分析方法论
1 逻辑范围
2 物理范围
4 更新频率
5 更新方式
7 数据量分析 8 质量分析
3 格式分析 6 存储周期 9 ETL过程
11
数据资源管理
数据源 数据库 结构化数据
其他数据
ETL
抽取
清洗
加工
加载
……
……
8
目录
建设思路及总体架构 数据源获取 数据资源管理 数据分析、展现及应用
9
数据资源管理
Merit数据资源管理总体功能结构
统一编码管理
元数据管理
功能结构
数据资源管理 基础数据库管理
分析主题库管理
简单分析展现
标准分类管理
数据源管理 数据变换
标准文件管理
目标库管理 异常管理
数据标准管理 审批发布管理
ETL
数据库查找替换:过滤所需数据,并且根据规则进 行数据的替换 自定义转换:调用java程序执行特殊的数据处理 内置数据质量检查:边检查编入库 同时对节点状态和数据状态监控与统计 中文特色处理:全角半角转化,汉字转拼音等
ETL转换
数据仓库
报表引擎
数据目的
14
……
数据资源管理
财政数据中心ETL要点
政
贯
通
支撑平台库
业 务
其他库
…
淮北市及区县
……
数据 同步
数据 同步
省本级备份池
当年库 …
当年库 …
历…史库
…
…
合肥、淮北备份池
当年库 当年库
…
…
… …历史库…
……
数据 抽取
综合查询库
数据 抽取 转换 清洗 汇总
数据同步
决策支持 数据仓库
……
数据 分析 利用 (省本 级)
数据 抽取
监督检查库
四里河灾备中心设备情况: • 10台华为pc-sever,每台4个
收支统计
地区排名
多年比较
...
统一编码管理
功能结构 元数据管理
基础数据库管理
依
分析主题库管理
资源注册管理
简单分析展现
照
当 年
标准分类管理
标准文件管理
审批发布管理
标
准
数据源管理
目标库管理
任务配置管理
)
数据变换
数据清洗
数据集成
……
分布式技术框架
Spark计算框架 Hadoop体系
基础数据规范 标准存储规范 清洗转换规则
……
公安数据
互联网数据
……
…
…
财政数据中心
4
目录
建设思路及总体架构 数据源获取 数据资源管理 数据分析、展现及应用
5
数据源获取
组织内数据源获取:灾备中心利用
统一门户管理
基础库、预算、支付、账务Байду номын сангаас业务
综合查询
决策支持 监督检查
支撑平台库 其他库 …
省本级
上
支撑平台库
下 级
其他库
…
财 合肥市及区县
13
数据资源管理
应用业务系统
非结构化数据
异构数据库 ORACLE SQL SERVER
WEB SERVICE
数据源
增量抽取:对于发生改变的进行增量更新,MD5等 列映射:数据类型转换、列名变换、删除列、增加列 派生列:增加新列,其值为表达式的值 条件分支:根据一定的条件将数据的拆分、过滤
OLAP引擎
结构化数据
非结构化数据
预算编 预算执 会计核 … 项目
…
制
行
算
文件
Merit-ETL
Merit-ETL (
美林Tempo数据分析平台
财政数据分析挖掘主题
现金流量分析 宏观经济分析
财政预警分析
项目监控分析
中期规划测算
……
数据分析主题
算法管理 分析建模管理 分析配置向导 分析元素定义 分析元素关联 展示模板管理
组织外数据源获取及管理:积极拓展外部数据源
来源类型
统计局数据
对应的分析主题
地区生产总值、营业税与第三产业增加值增长速度等
国地税数据
行业税收增长贡献率及拉动作用分析
兄弟省份财政收支月报数据 经济体量相近省市地方公共财政预算收入总量、增幅对比等
公安数据
财政供养人员信息联合校验等
互联网数据
财政政策评估、舆情监控等
组织内数据 (灾备中心)
省本级当年库
省本级历史库
合肥市当年库
合肥市历史库
依托财政基础数据规范及标准 存储规范(当年);
当年生产库每晚ETL,依照记录 追加和记录更新方式装载;
历史年度库每年年初ETL,依照 全部覆盖方式装载。
ETL
……
组织外数据
其他部门结 构化数据
非结构化数据
互联网数据
结构化的组织外数据依托数 据交换标准规范及财政基础 数据规范、标准存储规范 (当年)
cpu,4核/U;内存:256G,2 台存储,合计120T磁盘空间; • 目前启用8台服务器,共建立 93个虚拟机,每个虚拟机16G, 磁盘100G;
支撑平台库
宣城、芜湖备份池
数据
其他库 … 宣城市及区县
数据 同步
当年库 当年库
…
…
综合查询库
决策支持 数据仓库
分析 利用 (…
市)
• 目前系统的cpu,内存使用率 较低;
财政大数据中心建设方案
目录
建设思路及总体架构 数据源获取 数据资源管理 数据分析、展现及应用
2
建设思路及总体架构
• 组织内数据(灾备中心) • 组织外(国地税、统计
局等)
数据源 获取
• ETL及标准规范 • 数据资源管理 • 技术架构
数据资源 管理
深化应用 发展
• 反馈业务系统 • 深化财政业务改革 • 拓展分析主题
分析主题 构建
• 构建方法 • 算法模型 • 展现方式
3
建设思路及总体架构
数据源
统一门户管理
数据资源及标准存储管理
数据分析和数据挖掘
组织内数据
支撑平台库 其他库 …
省本级
支撑平台库
上 其他库 …
下 合肥市及区县
级
财
政
支撑平台库
贯 其他库 …
通 业
淮北市及区县
务
支撑平台库
其他库 … 宣城市及区县
支撑平台库
支撑平台库
… 历 …史库…
……
其他库 …
监督检查库
• 部分市县数据未同步。
芜湖市及区县
备份中心
6
生产系统
预算执行数据中心
数据源获取
组织内数据源获取:灾备中心利用
1
• 灾备制度落实,确保全省财政数据及时备份
2
• 充分利用现有硬件资源,建设数据中心
3
• 每年度历史数据ETL服务(依照当年标准)
7
数据源获取