大数据审计技术与案例交流
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
税两个税种。
结构分析 深究原因
延伸企业 分析政策
我们深入分析了企业所 得税爆发性增长的企业 的利润表,发现其利润 绝大部分来自于“投资 收益”,而2015年恰逢
股市牛市。
我们选择了几家金额较大,且 投资收益占比超过95%的企业 延伸,发现其几乎没有实体经 营行为,仅仅是帮助母公司利 用当地开发区的税收优惠政策 进行股票减持。自此,该省税 收优惠政策形成事实上的税收
H行
IP地址1
党校
IP地址2
案例三:涉农贷款分析
汇集
控制 人
手机 绑定
手机 定位
多个农户的个贷 资金向少数几个
账户汇集
查 看 登 录 IP 和 MAC判断是否为 同一实际控制人
对同一部手机绑定多个 根据手机GPS定位
不同人员账号的情况以 找到获得涉农贷款
及手机频繁绑定解绑的 的农户经常登录位置
情况予以关注
謝謝您的聆聽
愿与大家多切磋交流
大数据审计技术与 案例交流
前言
胡泽君审计长明确指出:“审计信息化建设必须加强, 必须与时俱进、驰而不息地大力向前推。这是我们适应国 家治理体系和治理能力现代化的要求,也是努力实现审计 技术现代化的重要途径和手段。提高在信息化环境下查核 问题的能力,是审计人员必须具备的基本素质”。
袁野副审计长指出:要探索大数据在审计中的实践和 应用,坚持“数据先行”和“数据引领”,打破信息壁垒 和信息孤岛。
统计学方法、机器学习、自 然语言处理、人工智能……
二维表、柱状图、饼图、 关系图、热力图……
相对比较单一,绝大部分使用 SQL语言分析的阶段,新技术新 方法使用较少
数据来自各个不同部门,可靠 程度总体较高,但互相之间普 遍缺少关联
方法 来源
绝大部分为关系型数据库,还有少 形态 量是非结构化文档和半结构化表格
设备供应商
H行采购中的问题
A君 之子
某商贸公司
法定及股东
B君
H行
采购决策人
A君
IP地址
MAC 地址
重合度很高!!
➢ 审计人员发现某商贸公司向A君之子 转账都采用网银,调取用户行为系 统数据后发现,该商贸公司与A君的 个人账户经常在同一个IP地址和同 一个MAC地址的计算机上登录和操 作!
➢ 领导谨慎对待:这仅仅提供了可能 是同一控制人的线索,如何坐实?
新技术方法是为了解决一些
传统方法难以应付的问题
3
No.3 结构分析
No.1 总体分析 No.2 趋势分析
总体分析 发现异常
我们分析了某省20142017年的税收情况, 发现2015年其税收有
了爆发性增长,但 2016年迅速回落。
趋势分析 找出税种
我们分析了各个税种的 变化趋势,发现2015 年税收的增长主要来自 企业所得税和个人所得
的执行情况与效果
尝试更新的方法
尝试新的技术、工具和方法,对数据进行 更加深入的挖掘
比如 NoSQL 不是 No SQL, 而是 Not Only SQL
关系型 数据库
NoSQL 数据库
Excel 表格
传统数据 分析方法
新的技术 方法
数据挖 掘、图 论等
SQL语 言
二者不是对立而
是相互关联的
爬虫wenku.baidu.com 新采集 工具
A
B
D
某公司
C
E
某公司
甲
乙
丙
A
B
C
DE
把关系抽象成图
把实体比如账号抽象成顶点,顶点之间发生了关系(比 如A向B转账)就在其间用一条有向边将其连接起来
问题就转化为了先将顶点分成几 个连通区域(Connected
Components),然后在各个区域 中找到最重要的汇集的那个节点
图算法的应用
数据清理
计算结果
A
B
D
某公司
C
E
节点A-E: 0.093023 某公司: 0.534884
计算结果
节点ABCDE:0.047365 节点甲乙丙: 0.137359 某公司: 0.396092
某公司
甲
乙
丙
A
B
C
DE
找问题就 是找关系
图数据库自带了 诸如深度优先、 广度优先遍历, 最短路径等算法
传统的RDBMS 弱于处理关系
主流的图数据库
Neo4j
最早流行的图数据 库,发布于2007年, 用Java和Scala开 发,使用自定义的 Cypher查询语言。
ArangoDB
高可用多模型数据 库,发布于2012年,
用C++和 JavaScript开发, 使用自定义的AQL
查询语言
OrientDB
分布式多模型数据 库,发布于2010年, 用Java开发,使用 扩展的类似SQL的
图算法库 igraph networkx
Python 其它
图数据库
审计方式的可能转变
了解大数据分析常用的技术, 重点在于了解名词和概念,明 白一个技术的应用场景,而不 必深入其技术细节。
对于计算机审计人员来说, Python 很 可 能 将 成 为 继 SQL 之 后 的 又 一 门 必 知 必 会的语言。
PageRank算法的思想 移植过来,解决审计需求
关键字词频
人造高词频,严重干扰算法执行
被引用越多,被越重要的 顶点引用,才越重要 被更多的账户转账,或者被更重要 的账户转账,这个账户就越值得关注
借助第三方库来实现
Python iGraph Python Graph-Tool Python Networkx
图的模型对于分 析关系更加直观
图数据库常见应用场景
已知一个顶点, 查询所有跟它 有某些关系的顶点
已知两个顶点, 查询它们之间 所有存在的关系
已知两个顶点, 查询它们之间
的最短路径
接下来请大家看我做一个简单的演示
查看发票的集中度、进销项差等,锁定疑点目标 通过工商找到关联企业,再查找有没有发票路径 按照集中度高的原则选取了J集团的十大上下游企业
在城市的予以关注
添加标题
对交易流水中的数千 万个账号进行快速聚 类,将发生过交易的 账号聚在一起。
添加标题
锁定一个账号聚类中 资金最终汇聚的账号, 即最重要的那个账号。
添加标题
请对账号进行进一步 分析和延伸调查,确 定问题。
常规的做法是选出跟大于给定阈值的个人账户发生交易的账户,或是选出与个人账户交 易总金额大于给定阈值的账户。比如选出有20个以上个人账户给它转入资金的账户,或 是选出从个人账户归集资金金额超过300万元的账户。
与高校和公司的合作可能会更多 更紧密。大数据分析技术门槛更 高,在把审计业务人员培养成数 据分析骨干的同时,更需要让专 业的人来做专业的事情。
不得不说的几个问题
大数据分析不是万能的,也有其问题和瓶颈
问题 与
思考
大数据技术尚处于试验阶段,很多技术尚未成型
大数据分析需要投入大量的人力、时间和经费
Questions?
“洼地”的情况已基本摸清。
问题来了:审计一家国有商业银行需要采集分析哪些数据?
负债端数据
中间业务数据
银行机构的财务数据
资产端数据
工商、税务、环保等外部数据
网银用户登录的 MAC地址和IP地址
用户行为数据
手机银行用户登录 的GPS定位信息
手机银行用户绑定 的手机IMEI串号
用户登录后查看了 哪些页面和产品
广度优先搜索 获取连通区域
PageRank算法 找寻重要顶点
回归原始数据 锁定疑点账号
PageRank算法简介
PageRank算法是谷歌的创始 人Sergey Brin与Larry Page 于1998年在WWW7会议上提 出来的,用来解决链接分析中 网页排名的问题,衡量一个网
页排名的算法。
以前解决网页排序的方案 遇到的困难与挑战
目录
1 2 3
4
审计大数据分析现状 大数据分析三原则 案例交流 体会与展望
1
审计大数据分析现状
Volume:数据量巨大 Velocity:时效性要求高
Variety:数据形态多变 Veracity:数据可信度存疑
1
数据采 集存储
2
数据分 析技术
3
数据 可视化
关系型数据库、NoSQL数据库、 数据仓库、爬虫、云计算……
数据量日益增加,从TB级逐渐 增加到PB级,且增速明显加快
数量
找差异 数据互相关联 不同来源的数据并库 数据清洗、转换、整理 采集各个部门的数据
审计人员戏称这种数据分析方式为
2
采集更多的数据
采集更多部门、更多领域的数据,采集以 前不关注的、与财务、账务无关的数据
提供更广的视角
审计大数据不仅能够发现微观的问题和个 案,更能从中观、宏观的角度来分析政策
查询语言
图数据库与图算法的比较
图数据库实现了部分 图算法,并为用户提 供了简便的查询方式
图数据库提供了方 便的存储管理功能, 而图算法需要借助
其他存储手段
图算法还有很多没有 在图数据库中实现, 图算法灵活性更高
图数据库是内存杀手, 需要配置很好的设备
才能发挥作用
4
数据清理 不可或缺
数据采集是基础
采集了国税电子底账系统数据和工商数据
某科技发展公司
某机电设备公司
J集团物资公司
某钢材贸易公司
某贸易有限公司
J集团物资公司
某工贸有限公司
某钢研有限公司
某科技股份公司
进一步数据分析发现,中间的这些公司基本仅与上述公司有增值税发票,且进项与销项 差额很小。去企业延伸后得知,J集团物资公司从上游购买货物是现货交易,而卖给下游 公司则是赊销方式,实际根本不掌握货物,其实质是违规开展融资性贸易。
数据的采集清理 我们要不等不靠
可能会涉及的领域
用爬虫技术去抓取部 委网站上的一些非结 构化数据,比如政策 文件、处罚名单等
用自然语言处理技术 去分析非结构化文本, 比如会议纪要、政策 文件等
用图算法和图数据 库去分析数据中存 在的各类关系
机器学习、数据可 视化等技术应该也 大有用武之地
非现场审计的作用和重要性会大大提升!
结构分析 深究原因
延伸企业 分析政策
我们深入分析了企业所 得税爆发性增长的企业 的利润表,发现其利润 绝大部分来自于“投资 收益”,而2015年恰逢
股市牛市。
我们选择了几家金额较大,且 投资收益占比超过95%的企业 延伸,发现其几乎没有实体经 营行为,仅仅是帮助母公司利 用当地开发区的税收优惠政策 进行股票减持。自此,该省税 收优惠政策形成事实上的税收
H行
IP地址1
党校
IP地址2
案例三:涉农贷款分析
汇集
控制 人
手机 绑定
手机 定位
多个农户的个贷 资金向少数几个
账户汇集
查 看 登 录 IP 和 MAC判断是否为 同一实际控制人
对同一部手机绑定多个 根据手机GPS定位
不同人员账号的情况以 找到获得涉农贷款
及手机频繁绑定解绑的 的农户经常登录位置
情况予以关注
謝謝您的聆聽
愿与大家多切磋交流
大数据审计技术与 案例交流
前言
胡泽君审计长明确指出:“审计信息化建设必须加强, 必须与时俱进、驰而不息地大力向前推。这是我们适应国 家治理体系和治理能力现代化的要求,也是努力实现审计 技术现代化的重要途径和手段。提高在信息化环境下查核 问题的能力,是审计人员必须具备的基本素质”。
袁野副审计长指出:要探索大数据在审计中的实践和 应用,坚持“数据先行”和“数据引领”,打破信息壁垒 和信息孤岛。
统计学方法、机器学习、自 然语言处理、人工智能……
二维表、柱状图、饼图、 关系图、热力图……
相对比较单一,绝大部分使用 SQL语言分析的阶段,新技术新 方法使用较少
数据来自各个不同部门,可靠 程度总体较高,但互相之间普 遍缺少关联
方法 来源
绝大部分为关系型数据库,还有少 形态 量是非结构化文档和半结构化表格
设备供应商
H行采购中的问题
A君 之子
某商贸公司
法定及股东
B君
H行
采购决策人
A君
IP地址
MAC 地址
重合度很高!!
➢ 审计人员发现某商贸公司向A君之子 转账都采用网银,调取用户行为系 统数据后发现,该商贸公司与A君的 个人账户经常在同一个IP地址和同 一个MAC地址的计算机上登录和操 作!
➢ 领导谨慎对待:这仅仅提供了可能 是同一控制人的线索,如何坐实?
新技术方法是为了解决一些
传统方法难以应付的问题
3
No.3 结构分析
No.1 总体分析 No.2 趋势分析
总体分析 发现异常
我们分析了某省20142017年的税收情况, 发现2015年其税收有
了爆发性增长,但 2016年迅速回落。
趋势分析 找出税种
我们分析了各个税种的 变化趋势,发现2015 年税收的增长主要来自 企业所得税和个人所得
的执行情况与效果
尝试更新的方法
尝试新的技术、工具和方法,对数据进行 更加深入的挖掘
比如 NoSQL 不是 No SQL, 而是 Not Only SQL
关系型 数据库
NoSQL 数据库
Excel 表格
传统数据 分析方法
新的技术 方法
数据挖 掘、图 论等
SQL语 言
二者不是对立而
是相互关联的
爬虫wenku.baidu.com 新采集 工具
A
B
D
某公司
C
E
某公司
甲
乙
丙
A
B
C
DE
把关系抽象成图
把实体比如账号抽象成顶点,顶点之间发生了关系(比 如A向B转账)就在其间用一条有向边将其连接起来
问题就转化为了先将顶点分成几 个连通区域(Connected
Components),然后在各个区域 中找到最重要的汇集的那个节点
图算法的应用
数据清理
计算结果
A
B
D
某公司
C
E
节点A-E: 0.093023 某公司: 0.534884
计算结果
节点ABCDE:0.047365 节点甲乙丙: 0.137359 某公司: 0.396092
某公司
甲
乙
丙
A
B
C
DE
找问题就 是找关系
图数据库自带了 诸如深度优先、 广度优先遍历, 最短路径等算法
传统的RDBMS 弱于处理关系
主流的图数据库
Neo4j
最早流行的图数据 库,发布于2007年, 用Java和Scala开 发,使用自定义的 Cypher查询语言。
ArangoDB
高可用多模型数据 库,发布于2012年,
用C++和 JavaScript开发, 使用自定义的AQL
查询语言
OrientDB
分布式多模型数据 库,发布于2010年, 用Java开发,使用 扩展的类似SQL的
图算法库 igraph networkx
Python 其它
图数据库
审计方式的可能转变
了解大数据分析常用的技术, 重点在于了解名词和概念,明 白一个技术的应用场景,而不 必深入其技术细节。
对于计算机审计人员来说, Python 很 可 能 将 成 为 继 SQL 之 后 的 又 一 门 必 知 必 会的语言。
PageRank算法的思想 移植过来,解决审计需求
关键字词频
人造高词频,严重干扰算法执行
被引用越多,被越重要的 顶点引用,才越重要 被更多的账户转账,或者被更重要 的账户转账,这个账户就越值得关注
借助第三方库来实现
Python iGraph Python Graph-Tool Python Networkx
图的模型对于分 析关系更加直观
图数据库常见应用场景
已知一个顶点, 查询所有跟它 有某些关系的顶点
已知两个顶点, 查询它们之间 所有存在的关系
已知两个顶点, 查询它们之间
的最短路径
接下来请大家看我做一个简单的演示
查看发票的集中度、进销项差等,锁定疑点目标 通过工商找到关联企业,再查找有没有发票路径 按照集中度高的原则选取了J集团的十大上下游企业
在城市的予以关注
添加标题
对交易流水中的数千 万个账号进行快速聚 类,将发生过交易的 账号聚在一起。
添加标题
锁定一个账号聚类中 资金最终汇聚的账号, 即最重要的那个账号。
添加标题
请对账号进行进一步 分析和延伸调查,确 定问题。
常规的做法是选出跟大于给定阈值的个人账户发生交易的账户,或是选出与个人账户交 易总金额大于给定阈值的账户。比如选出有20个以上个人账户给它转入资金的账户,或 是选出从个人账户归集资金金额超过300万元的账户。
与高校和公司的合作可能会更多 更紧密。大数据分析技术门槛更 高,在把审计业务人员培养成数 据分析骨干的同时,更需要让专 业的人来做专业的事情。
不得不说的几个问题
大数据分析不是万能的,也有其问题和瓶颈
问题 与
思考
大数据技术尚处于试验阶段,很多技术尚未成型
大数据分析需要投入大量的人力、时间和经费
Questions?
“洼地”的情况已基本摸清。
问题来了:审计一家国有商业银行需要采集分析哪些数据?
负债端数据
中间业务数据
银行机构的财务数据
资产端数据
工商、税务、环保等外部数据
网银用户登录的 MAC地址和IP地址
用户行为数据
手机银行用户登录 的GPS定位信息
手机银行用户绑定 的手机IMEI串号
用户登录后查看了 哪些页面和产品
广度优先搜索 获取连通区域
PageRank算法 找寻重要顶点
回归原始数据 锁定疑点账号
PageRank算法简介
PageRank算法是谷歌的创始 人Sergey Brin与Larry Page 于1998年在WWW7会议上提 出来的,用来解决链接分析中 网页排名的问题,衡量一个网
页排名的算法。
以前解决网页排序的方案 遇到的困难与挑战
目录
1 2 3
4
审计大数据分析现状 大数据分析三原则 案例交流 体会与展望
1
审计大数据分析现状
Volume:数据量巨大 Velocity:时效性要求高
Variety:数据形态多变 Veracity:数据可信度存疑
1
数据采 集存储
2
数据分 析技术
3
数据 可视化
关系型数据库、NoSQL数据库、 数据仓库、爬虫、云计算……
数据量日益增加,从TB级逐渐 增加到PB级,且增速明显加快
数量
找差异 数据互相关联 不同来源的数据并库 数据清洗、转换、整理 采集各个部门的数据
审计人员戏称这种数据分析方式为
2
采集更多的数据
采集更多部门、更多领域的数据,采集以 前不关注的、与财务、账务无关的数据
提供更广的视角
审计大数据不仅能够发现微观的问题和个 案,更能从中观、宏观的角度来分析政策
查询语言
图数据库与图算法的比较
图数据库实现了部分 图算法,并为用户提 供了简便的查询方式
图数据库提供了方 便的存储管理功能, 而图算法需要借助
其他存储手段
图算法还有很多没有 在图数据库中实现, 图算法灵活性更高
图数据库是内存杀手, 需要配置很好的设备
才能发挥作用
4
数据清理 不可或缺
数据采集是基础
采集了国税电子底账系统数据和工商数据
某科技发展公司
某机电设备公司
J集团物资公司
某钢材贸易公司
某贸易有限公司
J集团物资公司
某工贸有限公司
某钢研有限公司
某科技股份公司
进一步数据分析发现,中间的这些公司基本仅与上述公司有增值税发票,且进项与销项 差额很小。去企业延伸后得知,J集团物资公司从上游购买货物是现货交易,而卖给下游 公司则是赊销方式,实际根本不掌握货物,其实质是违规开展融资性贸易。
数据的采集清理 我们要不等不靠
可能会涉及的领域
用爬虫技术去抓取部 委网站上的一些非结 构化数据,比如政策 文件、处罚名单等
用自然语言处理技术 去分析非结构化文本, 比如会议纪要、政策 文件等
用图算法和图数据 库去分析数据中存 在的各类关系
机器学习、数据可 视化等技术应该也 大有用武之地
非现场审计的作用和重要性会大大提升!