大数据分析的审计概论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据分析的审计概论

当下,大数据分析之于审计是十分必要的,也是时髦的,我亦凑个热闹撰此文以抛砖引玉。

大数据,在数据业界已经应用得趋于成熟了,但对于我们审计人员来说,还是比较新鲜的事物。何谓大数据?通常地说,大数据指无法在一定时间范围内用常规软件工具捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力、流程优化能力的海量的、高增长率和多样化的信息资产。根据此定义,我们要把关注点放在大数据是数据集合与数据资产这两个方面,同时还要关注大数据在得到充分有效分析之后,可以给数据资产拥有者所提供的决策力、洞察力和流程优化能力。基于此,我们进一步挖掘大数据分析的概念是什么?《大数据时代-生活、工作与思维的大变革》的作者肯尼思-库克耶认为:大数据分析是指不用随机分析,而采用所有数据分析处理的分析方法。

大数据的概念基本清楚了,与此对应的小数据又是什么?其实,小数据的概念是大数据概念出来以后才应运而生的。小数据指通过抽样调查方法获得的数据;小数据分析遵循统计分析原理,运用统计工具、统计理论来开展分析论证,因此小数据也就是我们平常说的统计数据,小数据分析也就是我们平常所应用的各种抽样调查分析。

基于以上,我们就比较清楚地知道了,小数据和小数据分析是与大数据和大数据分析应运而生的概念,是与大数据和大数据分析相对的概念。

说了半天大数据的相关概念,我们不妨再看看大数据具有哪些特征?

第一个特征是全量数据(volume)。全量数据是什么意思?大数据,数据大,大到全量,大到百分百的数据,占有一定比重的数据不是大数据;但若以占有一定比重的某个特征数据作为整体进一步挖掘分析时,这一部分数据就成为大数据了,是某个特征数据的大数据。因此,我们可以进一步说,全量数据就是事关于此的全部的所有数据。就商业银行来说,各项存款总额、各项贷款总额、不良贷款总额、银行卡透支总额、信用卡发卡总卡片数、员工总数等等,所有这些纳入分析范畴之维度下的总数据就是该类大数据概念下的全量数据。根据大数据的全量数据这一特征,我们应正确定义,没有使用全量数据的分析,就不能说是大数据分析。这是大数据分析的第一个显著特征,也是衡量是不是大数据分析的第一个标准。

第二个特征是高速(velocity)。高速是指高速产生数据和高速处理数据。大数据是高速产生的,产生于日常生产和生活之中,处于时刻产生与时刻变化之中,且速度非常快。比如我们曾经在“光棍节”那一天看到马云在阿里巴巴电子显

示屏前观看交易量数据变化的情形就很直观了。对于老百姓,每天要生活,就要与对方产生交易,这种非常多的交易数据产生并储存于交易对手的生产系统中,形成了高速产生的大数据。基于大数据的高速特征,数据使用者做大数据分析也只有高速分析才能适应大数据产生的这种高速特征。

第三个特征是多样性特征(variety)。这个特征表现为数据种类多样和数据渠道来源多样;数据种类包含了数字、音频、视频、符号、方位等等日常生活中所涉及的种类和所有能采集得到的渠道。比如我们国家天网系统中所产生、收集、存储的视频、声频数据,通讯服务商所收集存储用户的短信字符、使用位置等大数据。大数据多样性来源于老百姓日常生活交易种类和场景的多样性和提供给生产交易的多样性。

第四个特征是大数据的低价值密度和大数据的高价值度同时存在(value)。这个特征,读起来有点儿拗口,但略加思考就很好懂了。大数据全量数据中真正有价值的数据并不多,受到污染的数据需要清洗掉,但数据一旦结构化且不断挖掘的话,合理运用大数据就能以低成本创造出高价值;相同的数据聚合在一起,“团结就是力量”的真理就体现出来了,我们可以比较形象地表述为,离散的乌合之众,每天聚合在一起就有连续的力量了。大数据的离散只是空间上的离散,成乌合之众状;但在时间上是连续的,成连续状;在数据质量上有同质性和统一性,同质性就是同一个生产系统提供的

大数据结构都是一样的,且统一于一个生产系统内,由一家公司掌握着。

第五个特征是真实(veracity)。因为是同类数据的集合,且数据的生产者与数据的利用者是隔离的,更多情况下数据的生产者并不知晓自己的交易数据被数据利用者集合起来做大数据分析了。基于这样的机理,数据的生产者并无造假冲动,且都是实际生产生活中,具有实际交易背景下所产生的数据,因此,使得大数据具有真实性的显著特征。

以上就是大数据的五个最显著的基本特征,因其英文的第一个字母都是V,因此又被业界通称为大数据的5V特征。

交待好大数据及其特征以后,我们可以进入本文主题了:大数据分析审计具有哪些特征?

前面所说大数据及其特征,在大数据分析审计中均存在,除此以外,大数据分析审计还应具备以下特征:

第一,分析审计结果的可视化。大数据分析审计以后输出的结果需具备可视化特征,即呈现出来的结果,所有阅读大数据分析审计报告的人都看得懂,或者以阅读者的需要而输出结果;按照大数据分析审计深入程度之不同,这种可视化的成果可以分为描述性分析审计成果、预测性分析审计成果、指导性分析审计成果三个层次。描述性分析审计成果就是大数据的事实描述,这是审计人员就某一类审计专题所作出来的大数据分析审计的事实描述。比如商业银行裸贷客户

治理专题,属于事实性描述的有:客户总数,其中符合裸贷认定标准的客户总数及其占比,再其中对公类裸贷客户总数及其占比、机构类裸贷客户总数及其占比等等就属于描述性分析审计成果。预测性分析审计是在描述性分析成果的基础上,根据大数据分析所具有的洞察力所作出的预测。比如不良贷款的大数据分析审计预测,现有的大数据描述性分析审计结果显示该类客户的不良率是多少,即可以预测未来该类客户的不良率亦将是多少。同时,据此可以呈现指导性分析审计成果,即为尚未出现不良的该类客户出具审计建议。我们可以清晰地观察到,大数据分析审计的洞察力、流程优化能力、决策力在大数据分析审计所呈现出来的三类成果中都能充分有效地实现。大数据分析审计的魅力大概也就在于此了。

第二,大数据分析审计过程在逻辑结构上的圈层挖掘。大数据分析要象挖掘机那样在宽度和深度这两个维度上进行圈、层化的挖掘;所谓的圈就是宽度,不断增加挖掘的宽度也就是增加分析审计的维度;所谓的层就是深度,在同一维度下持续向下层挖掘;无论怎么圈层挖掘,其数据总是表现出全量数据且分析圈层下加总等于全量数据的数据封闭状态,不应该出现数据敞口或者丢失的现象,否则就不是真正意义上的大数据分析;大数据圈层挖掘,呈现出来的成果可以用大数据分析树来呈现,分析树的种类有多种,目前,

相关文档
最新文档