大数据平台的敏感数据保护研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据平台的敏感数据保护研究

李一平,王晨,包森成

(中国移动通信集团浙江有限公司,杭州 310016)

摘 要 本文首先界定了敏感数据的内容以及脱敏原理,概述了敏感数据的学术研究现状;进而对大数据平台中敏感

数据的来源及其面临的安全性问题进行分析总结。提出了从大数据采集、存储、服务和应用4个层面进行敏感数描保护的基本思路,以及大数据平台敏感数据的安全管理策略。

关键词 数据安全;数据脱敏;安全基线

中图分类号 TN918 文献标识码 A 文章编号 1008-5599(2017)11-0035-04

收稿日期:2017-10-11

1 前言

随着信息化社会的飞速发展,大数据的相关应用越来越广泛,伴随的公民个人信息安全保护也被提升到了国家信息安全战略的高度。为此,全国人大常委会和工业和信息化部相继发布了《中华人民共和国网络安全法》和《电信和互联网用户个人信息保护规定》用于保障网络安全,维护网络空间主权和国家安全、社会公共利益,保护公民、法人和其他组织的合法权益。中国移动也下发了一系列大数据安全规范制度,要求加强大数据平台的安全保护能力。

中国移动通信集团浙江有限公司(以下简称“浙江移动”)的大数据平台中存储了大量的数据及用户隐私信息,这些信息一旦泄露将对浙江移动造成巨大的负面社会影响和经济损失。随着大数据平台规模日益扩大,接入的应用系统数量越来越多,客户信息访问的接口、应用和途径也越来越多,亟须提高大数据平台本身的安全性、健壮性,加强安全防护能力,提升访问管控能力,

从而提高客户的满意度和市场竞争能力。

2 脱敏数据研究现状

敏感数据主要指当其被窃取、传播、不当使用、未经授权被他人存储与共享、以及非法数据价值挖掘后,可能会对国家、政府、企业和数据所有人造成严重侵害的数据。在各行业领域的研究和实践中,潘明等人针对公积金系统中不同类别的数据进行脱敏操作保证用户信息的安全[1]。为了防止多维度敏感数据的泄露,马晓亭等人提出了大数据平台多维度敏感数据的保护方法,确保图书馆敏感大数据安全和可控[2]。崔敏龙等人设计开发了一种银行业敏感数据脱敏系统,实现了数据脱敏申请、脱敏规则设置、脱敏处理、输出控制、脱敏效果分析等功能,系统测试表明,该数据脱敏平台达到了银行业客户数据脱敏目标,有效降低了敏感数据泄露风险[3]。刘明辉等人研究了云环境下敏感数据所面临的安全风险,分析了云环境下的敏感数据安全需求,在敏感数据

分类分级的基础上给出了云环境下的敏感数据保护技术方案[4]。董新华等人通过分析敏感数据安全现状,提出了一个大数据平台敏感数据安全共享系统框架,涉及敏感数据的安全提交、存储、使用和销毁,研究了基于密文异构转化的代理重加密算法和基于虚拟机监控器的用户进程保护方法等关键技术,为系统功能的实现提供了支撑[5]。

3 大数据安全管控

浙江移动大数据平台日益扩大的规模使得安全基线检查工作任务与日俱增,平台中敏感数据资产的梳理,敏感数据访问控制的审计压力也越来越大,亟待提高大数据平台基线检查效率及自动化水平,实现敏感数据资产的可视化管理,增强敏感数据访问控制能力、审计告警等安全管控能力。

大数据安全管控平台的工作模式独立于大数据平台本身,部署方式为网关集群方式,最少应部署两台服务器,通过负载均衡设备对外提供服务,整体拓扑如图1所示。

大数据安全管控平台采用B/S 架构(见图2),主要分为用户UI、核心功能层、接口层三层结构。

用户UI 主要提供用户配置管理人机交互界面,核心功能层主要分为数据安全模块和安全基线核查两大模

块,接口层提供软件API 接口信息,例如认证、权限、脱敏相关的API 等接口。其中,核心功能层的数据安全管理模块主要提供数据安全保护功能,包含用户的认证授权,大数据平台敏感数据资产扫描识别管理,敏感数据资产的访问授权、脱敏规则配置、审计告警等功能。安全基线模块主要提供大数据平台组件的自动化基线检查功能。

3.1 敏感数据识别管理

敏感数据识别管理模块主要包括敏感信息扫描引擎、敏感数据发现策略管理、敏感信息标识及分级分类管理、敏感数据分布视图等。

敏感信息扫描引擎通过对大数据平台数据仓库hive、NoSql 数据库hbase 的自动探测,抓取大数据平台中的不同数据;执行数据库表结构解析、对抓取的数据格式进行解析分析,获取文本内容并发现其中的敏感数据及其位置等信息。

敏感数据发现策略管理是配置管理敏感数据的发现规则,支持正则表达式、关键字、自定义规则等,匹配规则支持多种典型的敏感数据检测算法,基本的有字符串匹配,分为单模匹配和多模匹配两类。单模匹配的经典算法主要包括:直接字符串比较、KMP 等。对于多模匹配,需要重复扫描多次数据,效率较低,其经典算法主要有Aho-Corasick(AC)算法,Boyer-

Moore(BM)算法和Quick Search(QS)

算法等。

图1 整体部署拓扑图

图2 大数据安全管控平台功能架构图

敏感数据标识基于敏感信息知识库的丰富程度以及敏感策略配置的准确性、精确性程度,可对敏感数据的类型、分级分类标准进行管理,提供识别不准确、识别错误情况的审核评估管理,可修改和删除识别到的敏感数据,并支持手工录入各类敏感数据的位置等信息。

数据视图主要为敏感数据扫描引擎形成的敏感数据分布视图,以及根据应用/用户访问操作形成的访问告警视图等。3.2 访问授权脱敏管理

3.2.1 敏感数据脱敏原理

数据脱敏与纯粹的数据加密不同,脱敏是将数据通过一定的算法变成另一种数据样式,而这种样式是可读的,并且与元数据是属于同一类。数据脱敏原理如图3所示。

脱敏功能可实现对数据库层级用户的脱敏策略配置。数据脱敏模块位于应用程序和大数据平台之间,保护存储在大数据平台中的敏感数据。脱敏模块截取发送到大数据平台的访问请求,并送规则引擎进行处理,实现敏感数据动态脱敏。脱敏模块提供配置管理工具,管理敏感数据脱敏的策略配置并建立连接和安全规则。

3.2.2 数据脱敏方法

事前需要配置对于某个/组用户、某一数据库的表、列,确认采用何种脱敏方式。当用户的SQL/HQL 指令在被大数据平台数据仓库解析执行之前,会首先进行脱敏判断,如果对该用户来说,其访问的某些数据被配置了脱敏方式,那么数据仓库仅会将脱敏后的数据返回给用户,从而保证了原始数据对用户的不可见。基本流程如表1所示。

3.2.3 敏感数据的细粒度授权管理

细粒度授权是为账号赋予大数据平台中存储数据的操作权限,可从不同的数据粒度为账号赋予可执行的操作,但必须处于当前数据粒度支持的范围内。

hive、Hbase 等不同组件的授权的粒度管控范围如下:hbase 授权对象针对Namespace、表、列簇,授权

的操作权限主要有创建、修改、删除、插入数据、删除数据、查询数据等;hive 的授权对象针对库、表、列,授权的操作权限主要有创建、修改、删除、查询、插入数据、删除数据等。3.3 审计告警

审计告警依据应用/用户的角色权限及访问操作,实时监控各种应用/用户访问、操作、异常访问、拒绝访问等,通过对用户的异常访问行为、操作行为提供告警,发现敏感数据违规使用的行为。3.4 安全基线

3.4.1 大数据构架自动识别

自动发现包含两方面,一是大数据集群的节点主机IP 信息自动获取,从而获取到构成整个大数据集群的节点主机数量、主机IP、主机名信息,二是自动发现识别大数据集群各个节点主机上的大数据组件,了解大数据集群中大数据组件的分布部署情况,为后续的基线检查模板自动匹配提供必要的支撑信息。

图3 数据脱敏原理图

协议解析拦截解析用户、应用访问大数据组件网络流量,解析网络协议

语法解析基于应用层对访问大数据组件的语句进行语法进行分析

脱敏规则匹配

匹配针对用户、应用配置的数据库、表、字段/列的脱敏算法规则

脱敏规则应用对匹配到数据库表字段或列应用脱敏算法处理

脱敏结果输出

根据配置的脱敏算法将脱敏后的数据输出给用

户、应用,保证原始数据的不可见

表1 数据脱敏基本流程

相关文档
最新文档