大数据与审计ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 2、如何建立数据分析指引: ➢ 将审计事项清单能用SQL语句实现的,写上SQL语句,不能查
所谓大数据,泛指规模达到PB级,包含结构化、 非结构化以及半结构化数据集合,如文本、图像、 声音、视频等。
.
大数据4V特征
1. 海量(Volume)
数据量巨大
全球在2010 年正式进入ZB 时 代,预计到 2020 年,全球 将总共拥有44ZB 的数据量
3.速度( Velocity)
数据更新速度快 据统计,淘宝每日的数据量约在10万G 左右,百度搜索每日的搜索量达70亿次, 新浪微博每日更新数达5千万次,人人 网的每日访问量达4亿次。
✓MapReduce:Simplified Data Processing on Large Clusters ✓分布式并行计算
✓Bigtable:A Distributed Storage System for Structured Data ✓分布式数据库
.
Hadoop的诞生
Hadoop之父Doug Cutting
.
数据的量
在2006年个人PC迈入TB,全球产生数据总量为180EB(0.18ZB) 在2010年时,全球数据总量增加到了1.8ZB 据预计到2020年,全球将总共拥有44ZB的数据量 我国将达到8ZB,占全球总量的18%
.
大数据起源(Big Data)
2008年9月《科学》(Science)杂志发表了一篇文 章“BigData: Science in the Petabyte Era”,从此 “大数据”这个词开始广泛传播
Doug Cutting 根据Google公开的三篇 论文思想,以JAVA语言,实现了论文 中关于分布式存储、分布式并行计算的 机制,由此开启了大数据应用的新时代
.
大数据核心技术
大数据
分布式存储 HDFS
.
分布式处理 MapReduce
HADOOP的体系结构
Sqoop
(数据库TEL 工具)
Zookeeper
.
2. 多样(Variety)
结构化数据、半结构化数据和非结 构化数据
如今的数据类型早已不是单一的文本形 式,网络日志、 音频、视频、图片、 地理位置信息等,对数据的处理 能力 提出了更高要求
4. 价值(value)
沙里淘金,价值密度低
虽然数据量很大,但是价值密度较 低。通过强大的机器算法更迅速地 完成数据价值“提纯”,是目前 大数据亟待解决的难题
(分布式协调服务)
HBase
(分布式数据库)
Ambari (安装、部署配置和管理工具)
Hive 数据仓库
Pig 数据流处理
Mahout 数据挖掘
MapperReduce2/Yarn
Flume
(日志收集)
HDFS 分布式文件管理系统
.Biblioteka Baidu
大数据平台下数据挖掘算法
分类(Classification) 支持向量机 (SVM) 神经网络 (Neural Network)
大图数据算法
图聚类
图分类 /图划分
图模式匹配(子图同构、最 大公共子图…)
13
大数据与传统数据
传统数据
GB/TB级 高质量 干净 强结构化 关系简单
.
传统数据
vs 大数据
大数据
PB级以上 有冗余 非结构化 有缺失 关系复杂
特征 分布式存储 分布式并行计算
当前大数据审计的开展形式
两项工作: ➢ 1、建立标准表
第二次变革 1995年前后 互联网
数据传输
雅虎、谷歌、阿里巴巴 、百度、腾讯等
第三次变革
.
2010年前后
物联网、云计 算和大数据
数据存储
ARM,高通,通用电气, 思科,华为,海尔,大 唐电信
数据的度
计算机中数据大小的表示
1Byte = 8 Bit (=bps) 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
大数据的定义
定义 大数据是指无法在一定时间内用常规软件
工具对其内容进行抓取、管理和处理的数据 集合。
——维基百科
大数据是指无法在一定时间范围内用常 规软件工具进行捕捉、管理和处理的数据集 . 合,是需要新处理模式才能具有更强的决策8
google的三大论文(三驾马车)
Google公开的三篇论文(2003,2004,2006) ✓The Google File System ✓分布式文件存储系统
大数据与审计概述 马西涛
.
目录
➢1.信息技术的相关背景知识 ➢2.大数据的由来及技术体系 ➢3.大数据在审计中的应用 ➢4.关于大数据审计的几点建议
.
信息化技术发展的三次变革
信息化变革
发生时间
标志
第一次变革 1980年前后 个人计算机
解决问题
代表企业
数据处理
Intel、AMD、IBM、苹 果、微软、联想、戴尔 、惠普等
➢ 2、建立数据分析指引
.
15
大数据审计的标准表
➢ 1、标准表含义: ➢ 就是按一定规则对被审计单位数据整理后的具有一定规则的
数据表
➢ 2、如何建立标准表: ➢ 1)部分市局已经统一建立(如财政) ➢ 2)个别可以交给专业人员建立,或者直接使用
.
16
大数据审计的数据分析指引
➢ 1、数据分析指引的含义: ➢ 就是审计项目中所有问题形成的清单
与深度计算 朴素贝叶斯 (Naïve Bayes) 决策树 (Decision Trees) 聚类 (Clustering) 关联规则挖掘
.
参数估计 (Parameters Estimation)
高维度数据降维 (Dimension Reduction)
集成学习 (Ensemble Learning )
所谓大数据,泛指规模达到PB级,包含结构化、 非结构化以及半结构化数据集合,如文本、图像、 声音、视频等。
.
大数据4V特征
1. 海量(Volume)
数据量巨大
全球在2010 年正式进入ZB 时 代,预计到 2020 年,全球 将总共拥有44ZB 的数据量
3.速度( Velocity)
数据更新速度快 据统计,淘宝每日的数据量约在10万G 左右,百度搜索每日的搜索量达70亿次, 新浪微博每日更新数达5千万次,人人 网的每日访问量达4亿次。
✓MapReduce:Simplified Data Processing on Large Clusters ✓分布式并行计算
✓Bigtable:A Distributed Storage System for Structured Data ✓分布式数据库
.
Hadoop的诞生
Hadoop之父Doug Cutting
.
数据的量
在2006年个人PC迈入TB,全球产生数据总量为180EB(0.18ZB) 在2010年时,全球数据总量增加到了1.8ZB 据预计到2020年,全球将总共拥有44ZB的数据量 我国将达到8ZB,占全球总量的18%
.
大数据起源(Big Data)
2008年9月《科学》(Science)杂志发表了一篇文 章“BigData: Science in the Petabyte Era”,从此 “大数据”这个词开始广泛传播
Doug Cutting 根据Google公开的三篇 论文思想,以JAVA语言,实现了论文 中关于分布式存储、分布式并行计算的 机制,由此开启了大数据应用的新时代
.
大数据核心技术
大数据
分布式存储 HDFS
.
分布式处理 MapReduce
HADOOP的体系结构
Sqoop
(数据库TEL 工具)
Zookeeper
.
2. 多样(Variety)
结构化数据、半结构化数据和非结 构化数据
如今的数据类型早已不是单一的文本形 式,网络日志、 音频、视频、图片、 地理位置信息等,对数据的处理 能力 提出了更高要求
4. 价值(value)
沙里淘金,价值密度低
虽然数据量很大,但是价值密度较 低。通过强大的机器算法更迅速地 完成数据价值“提纯”,是目前 大数据亟待解决的难题
(分布式协调服务)
HBase
(分布式数据库)
Ambari (安装、部署配置和管理工具)
Hive 数据仓库
Pig 数据流处理
Mahout 数据挖掘
MapperReduce2/Yarn
Flume
(日志收集)
HDFS 分布式文件管理系统
.Biblioteka Baidu
大数据平台下数据挖掘算法
分类(Classification) 支持向量机 (SVM) 神经网络 (Neural Network)
大图数据算法
图聚类
图分类 /图划分
图模式匹配(子图同构、最 大公共子图…)
13
大数据与传统数据
传统数据
GB/TB级 高质量 干净 强结构化 关系简单
.
传统数据
vs 大数据
大数据
PB级以上 有冗余 非结构化 有缺失 关系复杂
特征 分布式存储 分布式并行计算
当前大数据审计的开展形式
两项工作: ➢ 1、建立标准表
第二次变革 1995年前后 互联网
数据传输
雅虎、谷歌、阿里巴巴 、百度、腾讯等
第三次变革
.
2010年前后
物联网、云计 算和大数据
数据存储
ARM,高通,通用电气, 思科,华为,海尔,大 唐电信
数据的度
计算机中数据大小的表示
1Byte = 8 Bit (=bps) 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
大数据的定义
定义 大数据是指无法在一定时间内用常规软件
工具对其内容进行抓取、管理和处理的数据 集合。
——维基百科
大数据是指无法在一定时间范围内用常 规软件工具进行捕捉、管理和处理的数据集 . 合,是需要新处理模式才能具有更强的决策8
google的三大论文(三驾马车)
Google公开的三篇论文(2003,2004,2006) ✓The Google File System ✓分布式文件存储系统
大数据与审计概述 马西涛
.
目录
➢1.信息技术的相关背景知识 ➢2.大数据的由来及技术体系 ➢3.大数据在审计中的应用 ➢4.关于大数据审计的几点建议
.
信息化技术发展的三次变革
信息化变革
发生时间
标志
第一次变革 1980年前后 个人计算机
解决问题
代表企业
数据处理
Intel、AMD、IBM、苹 果、微软、联想、戴尔 、惠普等
➢ 2、建立数据分析指引
.
15
大数据审计的标准表
➢ 1、标准表含义: ➢ 就是按一定规则对被审计单位数据整理后的具有一定规则的
数据表
➢ 2、如何建立标准表: ➢ 1)部分市局已经统一建立(如财政) ➢ 2)个别可以交给专业人员建立,或者直接使用
.
16
大数据审计的数据分析指引
➢ 1、数据分析指引的含义: ➢ 就是审计项目中所有问题形成的清单
与深度计算 朴素贝叶斯 (Naïve Bayes) 决策树 (Decision Trees) 聚类 (Clustering) 关联规则挖掘
.
参数估计 (Parameters Estimation)
高维度数据降维 (Dimension Reduction)
集成学习 (Ensemble Learning )