大数据与审计ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据的量
在2006年个人PC迈入TB,全球产生数据总量为180EB(0.18ZB) 在2010年时,全球数据总量增加到了1.8ZB 据预计到2020年,全球将总共拥有44ZB的数据量 我国将达到8ZB,占全球总量的18%
大数据起源(Big Data)
2008年9月《科学》(Science)杂志发表了一篇文 章“BigData: Science in the Petabyte Era”,从此 “大数据”这个词开始广泛传播
第二次变革 1995年前后 互联网
数据传输
雅虎、谷歌、阿里巴巴 、百度、腾讯等
第三次变革
2010年前后
物联网、云计 算和大数据
数据存储
ARM,高通,通用电气, 思科,华为,海尔,大 唐电信
数据的度
计算机中数据大小的表示
1Byte = 8 Bit (=bps) 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
Bigtable:A Distributed Storage System for Structured Data 分布式数据库
Hadoop的诞生
Hadoop之父Doug Cutting
Doug Cutting 根据Google公开的三篇 论文思想,以JAVA语言,实现了论文 中关于分布式存储、分布式并行计算的 机制,由此开启了大数据应用的新时代
大数据与审计概述
马西涛
目录
1.信息技术的相关背景知识 2.大数据的由来及技术体系 3.大数据在审计中的应用 4.关于大数据审计的几点建议
信息化技术发展的三次变革
信息化变革
发生时间
标志
第一次变革 1980年前后 个人计算机
解决问题
代表企业
数据处理
Intel、AMD、IBM、苹 果、微软、联想、戴尔 、惠普等
2. 多样(Variety)
结构化数据、半结构化数据和非结 构化数据
如今的数据类型早已不是单一的文本形式 ,网络日志、 音频、视频、图片、地理 位置信息等,对数据的处理 能力提出了 更高要求
4. 价值(value)
沙里淘金,价ຫໍສະໝຸດ Baidu密度低
虽然数据量很大,但是价值密度较 低 。 通过强大的机器算法更迅速地 完成数据价值“提纯”,是目前 大数据亟待解决的难题
大数据核心技术
大数据
分布式存储 HDFS
分布式处理 MapReduce
HADOOP的体系结构
Sqoo p
(数据库TEL 工具)
Zookeeper
(分布式协调服务)
HBase
(分布式数据库)
Ambari (安装、部署配置和管理工具)
Hive 数据仓库
Pig
Mahout
数据流处理 数据挖掘
MapperReduce2/Yarn
大数据的定义
定义
大数据是指无法在一定时间内用常规软件工具对其 内容进行抓取、管理和处理的数据集合。
——维基百科
大数据是指无法在一定时间范围内用常规软件 工具进行捕捉、管理和处理的数据集合,是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优 化能力的海量、高增长率和多样化的信息资产。
——百度百科
传统数据
vs 大数据
大数据
PB级以上 有冗余 非结构化 有缺失 关系复杂
特征 分布式存储 分布式并行计算
当前大数据审计的开展形式
两项工作: 1、建立标准表
2、建立数据分析指引
16
大数据审计的标准表
1、标准表含义: 就是按一定规则对被审计单位数据整理后的具有一定规则的
数据表
2、如何建立标准表: 1)部分市局已经统一建立(如财政) 2)个别可以交给专业人员建立,或者直接使用
所谓大数据,泛指规模达到PB级,包含结构化、 非结构化以及半结构化数据集合,如文本、图像、 声音、视频等。
大数据4V特征
1. 海量(Volume)
数据量巨大
全球在2010 年正式进入ZB 时 代,预计到 2020 年,全球 将总共拥有44ZB 的数据量
3.速度( Velocity)
数据更新速度快 据统计,淘宝每日的数据量约在10万G 左右,百度搜索每日的搜索量达70亿次, 新浪微博每日更新数达5千万次,人人 网的每日访问量达4亿次。
参数估计 (Parameters Estimation)
高维度数据降维 (Dimension Reduction)
集成学习 (Ensemble Learning )
大图数据算法
图聚类
图分类 /图划分 图模式匹配(子图同构、最
大公共子图…)
14
大数据与传统数据
传统数据
GB/TB级 高质量 干净 强结构化 关系简单
8
google的三大论文(三驾马车)
Google公开的三篇论文(2003,2004,2006) The Google File System 分布式文件存储系统
MapReduce:Simplified Data Processing on Large Clusters 分布式并行计算
17
Flume
(日志收集)
HDFS 分布式文件管理系统
大数据平台下数据挖掘算法
分类(Classification) 支持向量机 (SVM) 神经网络 (Neural Network)
与深度计算
朴素贝叶斯 (Naïve Bayes) 决策树 (Decision Trees) 聚类 (Clustering) 关联规则挖掘