基于大数据的智能审计平台研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于大数据的智能审计平台研究

王欢，许暖，沈波

（中国移动通信集团安徽有限公司，合肥 230061）

摘　要　审计平台是信息安全管理工作的基础运维平台，随着公司业务系统的不断增多、业务逻辑日益复杂，各类审

计数据成几何级别的增长，传统的审计平台面对大数据的审计职能已经捉襟见肘。本文探讨了通过采用大数据分析技术，重构传统的审计平台，提升审计效率。

关键词　安全；大数据；审计；搜索；solr；Hadoop

中图分类号 TN918 文献标识码 A 文章编号 1008-5599（2014）12-0019-04

收稿日期：2014-11-22

1 背景介绍

随着接入4A 审计系统外系统逐渐增多，原有优化方案在数据库存储上采用分布式部署、分库、分表等方式已不能满足应用系统业务逻辑复杂、审计数据量庞大（要求标准化后的审计信息在60 s 内得到查询结果）、审计分析策略复杂、审计报表导出耗时较长等日益增长的现实问题。从传统技术角度解决大数据背景下的问题已无法在高效益低成本的前提下做出较好的解决方案，经过部门调研在众多可选择的提升方案中，我们选择Solr （企业级搜索应用服务器）和Hadoop（基于大数据分布式服务）技术与4A 审计管理平台整合，从技术框架进行优化和摒弃，最终解决安徽移动4A 安全系统建设面临的由审计日志量逐渐递增、审计日志基数过大而产生的报表分析导出过慢、日志查询性能不佳等突出问题。

为解决审计日志在大数据量下查询效率低下以及审计数据筛选出具报表耗时的问题，在实现架构上做了如下调整：由传统关系型数据库查询技术过渡到审计日志

全文搜索技术的解决方案；由根据筛选策略直接在数据库上进行数据筛选匹配导出报表过渡到将审计日志推送到Hadoop 大数据分布式策略分析集群，分布式并行进行策略分析、数据筛选、筛选结果入库、导出数据的流程。经过上述架构优化调整后，将提高的审计日志搜索性能、满足报表快速生成的需求，同时解决了传统关系型数据库数据搜索性能（RDBMS 要兼顾查询和DML 效率必有取舍）发展瓶颈问题，大大减轻了数据库运行压力。最终实现审计日志搜索和分析的性能提升、实现工作效率提升和经济成本节约。

2 技术方案及关键点

2.1 技术方案

基于大数据的审计平台不同于传统的审计平台，对数据检索和分析的性能要求大大提升，用以往传统的通过扫表、读库的方式进行数据筛选已经远远不能适应目前大数据的数据能力分析。而目前流行的Solr 全文搜索

服务和Hadoop大数据平台为审计平台指明了出路。表1和表2是Solr和Hadoop技术与传统数据库的技术对比。

基于上述的对比分析，同时经过多次技术调研，在众多可选择的提升方案中，最终

选择Solr和Hadoop技术与审计

管理平台整合，从技术框架进行

优化和摒弃，最终解决公司安全

系统建设面临的由于审计日志数

量逐渐递增、审计日志基数过大

而产生的报表分析导出过慢、日

志查询性能不佳等突出问题。

2.2 审计平台架构实现

原有的审计分析平台采用传

统的Java服务进程抽取原始日志

库数据进行策略分析，将分析后

的结果再导入筛选日志库中提供

给审计前台查询和报表导出。此

方案技术实现比较容易，但是存

在诸多弊端，如执行效率低下，

频繁的进行数据库的DML操作

导致数据库压力较大，报表产生

时间较长等。

原有审计服务平台架构图如

图1所示。

要解决基于数据库的审计

分析平台诸多弊端，必须在存储

方式上做出调整，根据策略将数

据文件抽取出来，剥离对在线

库的反复长期的使用依赖，利用

Hadoop分布式并行处理技术对

抽取的数据文件进行大规模的并

行分析，从而既减小了数据库压

力也提高了分析能力。

优化后的数据存储方式逻辑

图如图2所示。

完成架构调整后，平台的数据分析处理能力得到较大提升。基于分布式部署大数据平台，数据分析能力有了本质上的提升，大大减少了对数据的DML操作，减

　普通数据库查询Solr全文搜索

概念通过SQL的Where条件指定搜索

条件，返回数据库搜索的结果（行

集合），例如where c=‘a’或者

where c like ‘%a%’

根据搜索条件在索引中遍历所有文档的每个

单词以得到匹配（至少含有一个被查询单词）

的文档，一般可以指定任意单词，如google

或者baidu的搜索方式

结果分级无分级概念，只要匹配Where条

件，就按照Order by顺序返回结

果

有分级概念，即被查询单词出现频率越高的

文档，会排在前面(Term Frequency)

相似性无相似性概念，要么全部匹配，

要么通过Like部分匹配

有相似性概念，即如果文档中有一个单词

和被查询单词具有一定的相似性，根据

Levenshtein Distance规则判断，例如你查

询Sitten,可能会返回含有Kitten的文档

对文档的要求必须是字符串可以是字符串或者其它二进制格式例如

mp3，通过分析其Metadata，可以根据歌曲

名称或者歌曲描述来查询mp3

索引方式按照数据库的一个或者多个字段

进行索引，无文本分析过程

对每个要索引的文档进行文本分析（分词），

建立单词和文档的对应关系，同时对文档进

行评级

表1 solr技术与传统数据库技术的比较

基于数据库策略分析基于Hadoop分布式策略分析

概念

通过SQL的Where条件指定搜

索条件，返回数据库搜索的结果

（行集合），例如where c=‘a’

或者where c like ‘%a%’

基于MapReduce并行程序框架定制个性化

业务处理逻辑来处理海量数据分布式文件系

统HDFS，并将处理结果输出到策略筛选结

果数据库中，提供应用程序和审计管理员进

行使用

逻辑实现通过SQL+应用程序非并行进行

处理，技术实现较简单

基于Hadoop大数据云计算平台，通过分布

式部署NameNode和DataNode节点可以，

支持主备模式技术较成熟，安全可靠，支持

复杂的业务逻辑计算

建设成本对数据库性能要求较高，需要使

用高端服务器或主机提供数据查

询和搜索性能，如筛选策略较多，

需要部署多台机器，不支持并行

计算

建设成本主要突出在存储上，相比数据库方

式，需要大量的存储（数据库存储的1.5倍

以上），对机器性能的要求不高，使用普通

的PC Server也能搭建，支持复杂的并行

计算，适合大流量数据的处理

执行效率基于关系数据库Table数据结构，

受单表索引不能创建太多，否则

影响数据DML操作，部分字段

存在全表扫描情况，部分字段需

要截取处理，效率较低

基于MapReduce并行程序框架，支持多任

务并发执行，支持复杂策略任务分发和数据

筛选。最大效率利用机器集群性能

结果输出筛选结果输出到策略筛选结果数

据库中

筛选结果输出多样，既可以到策略筛选结果

数据库中也可以Hadoop自身数据格式呈现表2 基于Hadoop平台与传统数据库架构策略分析比较