基于大数据的安全技术分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017年·第3期
栏目编辑:梁丽雯 E-mail:liven_01@163.com
Research|信息安全
基于大数据的安全技术分析*
■ 中国人民银行张家界市中心支行 谭正云
摘 要:随着大数据技术的不断发展和应用,许多传统的信息安全技术受到了挑战,金融领域也不例外。事实 上,大数据本身就是解决诸多安全问题的一个重要工具,面对挑战,基于大数据的全新安全手段开始出现并得到发 展。本文就基于大数据的安全技术展开探讨,阐述了基于Hadoop的大数据安全架构、基于大数据的威胁发现技术 以及基于大数据真实性分析等技术要点,并提出只有在完整的安全体系指导下,金融信息安全建设所需的人财物等 才能整合并发挥最佳效力。
关键词:大数据;安全技术;Hadoop;身份认证;K-means算法
一、引言
随着信息技术的发展,金融机构通过自己的网络 和 应 用系 统 收 集了大 量 用户 信息,产生 海量 数 据,金 融 机 构可 以 基于 这 些 数 据 挖 掘 出更有价 值 的 信息, 提高客户服务水平和经营管 理 水平。海量数 据 在 采 集、传 输、存 储 和 分析 挖 掘 的 过 程中都 会 涉及信息 安 全 问 题。而 大 数 据 的“4 V1C ”特 征,也使 得大 数 据 在 安全技术、管理等方面 面临新的安全威胁与挑战, “4V IC ”特 征 如图1所 示。
针对性很强
隐蔽能力极强
防范难度高
APT攻击
攻击范围广
攻击手段丰富
图3 APT特征
为了应 对A P T 攻 击,目前已 经 有沙 箱 方 案 、异 常 检 测、全流 量 审计、深 层协议 解 析异 常 识 别、攻击溯 源等 方 案。A P T 的 潜 伏 期 可能 很 长,因此,金 融 机 构 可以设定一定的时间,并对这个时期的数据进行挖掘 分析,从而发现蛛丝马迹,找到攻击源并化解。
三是运用密钥管理服务来管理大数据密钥和证 书,通 过 该 服 务,为不同的应 用 程 序 和用户 组 分发不 同密钥,确保文件被有效加密。
四 是 在 节点 之 间、节点与应 用 程 序之 间 使 用 S S L 或 T L S 组件 实 现 安 全 通 信,设 计、集 成 有 效 的安 全 通 信 机制 和 现 成 组件。
高,组间差异性要大。在聚类算法中,K-means算法在 金融等行业被广泛采用。但是该算法并非十全十美, 依然存在一些缺陷,仍在逐步改进中。
一是K-means算法所涉及的两个关键要素:聚类 数K和初始质心集,都需要人为选取,而这两个要素选 取 的 标准,对 该 算 法 得出结果的质量有 很 大 影 响。对 此,Stephen C.H.等人提出了改进算法,他们摈弃了人 为选取初始条件的做法,改用基于密度的自动聚类, 从而提升了K-means算法结果的质量,降低了K-means 算法对初始条件和人为选取的过度依赖。
(三)基于大数据真实性分析技术 目前,学 术界 和 金 融 界 普 遍 认 为,引入 大 数 据 技 术的真实性分析是 最为有效的方法,基于大 量数 据
综 合 分析 能 有 效 提 升真假信息 甄 别 水平。例 如,对 于 用户的 银 行 卡消费 行为,可 以 通 过 用户 画 像,来 分析 客户特 征,为鉴 别其各种行为的真实性 提 供 参考和 依据,如图4所示。
图2 HDFS架构
中。对 于 集 群 中的恶 意 节点和 应 用 程 序,它 可 以 验 证 判别并及时阻断,从而保护管理通道不被攻击。
二是 对于恶意 客户端发 起的获取文件请求,可 以 通 过使用文件层加密 对数 据进行保 护。因为文件 是不 可 读 的 磁 盘 映 像,不 容 易被 恶 意 访 问,同 时,文 件层加密还可以 提 供一致的安 全 保 护,目前 市面上已 经有产品能做到内存加密保护,进一步提高了文件安 全性。
56
2017年·第3期
栏目编辑:梁丽雯 E-mail:liven_01@163.com
Research|信息安全
大数据分析技术也为对 抗A PT(高级持 续性 威 胁)攻击提供了新的解决手段。APT具有隐蔽能力强、 针 对 性 强、攻击 手段 多、攻击 范围广和 防 范 难 度 高 等 特点,技术高级,威胁性也大,如图3所示。
大数据在金融领域的实际应用存在诸多信息安 全 问 题,值得业 界思 考。由于 大 数 据 技 术 本身就可 以 提 供 新 的安 全 技 术手段 来 解 决 安 全问 题,下 面 就 对 5 类基于大数据的安全技术展开探讨。
作者简介: 谭正云(1969-),男,湖南张家界人,工程师。 收稿日期: 2017-01-17 *本文仅代表作者个人观点,不代表作者所在单位意见。
Βιβλιοθήκη Baidu
Indexing
Count
String Convert
Extract Join equenc
Filter
String Truncate
Aggregate
Sort
·性别、年龄 ·职业、收入 ·学历、婚姻
·消费频率 ·消费地点 ·消费金额
人口 属性
消费 行为
·汽车、金融 ·军事、体育 ·娱乐、八卦
兴趣 属性
(五)基于大数据的安全规则挖掘技术 在 互 联 网中,为 保证 网 络 安 全,金 融 机 构 会 引入 防火墙技术和入侵检测技术等。这些技术通常是通过 建立一套安全规则或过滤规则达到其安全目标的,而 建立这些规则的传统方法是通过专家知识系统,引入 大数据技术后,安全规则可以通过数据挖掘等技术来 探索、求证、使用。 在众多的挖掘算法中,聚类分析是一项应用较为 广泛的技术,该算法 把数 据按照一定规则来实施分 组。聚类算法的好坏判定标准主要在于组内相似性要
分期 偏好
·分期类型 ·分期金额
基于大数据的客户画像算法
图4 基于大数据的持卡人画像
持卡人客户全景画像
57
Research|信息安全
2017年·第3期
栏目编辑:梁丽雯 E-mail:liven_01@163.com
而言,攻击者总 是能 够 找 到 方 法 来 骗 取 本只有用户才 知 道 的 信息,比 如 密 码口令和 手 机 动 态 验 证 码,或 者 通过木马等方式直接截取用户的隐私信息,从而通过 认证,展开攻击。
另一方 面,引入 人 工智 能 的 机 器 学习技 术,建 立 和优化 模 型,可以 进 一步提 升真假信息的鉴 别能力, 并随着机 器学习和算法模型的进化而不断优化,甚 至有可能 超 过 人 工鉴 别能力。大 数 据 时代的到来,定 然 会 有更 多更 新、更丰富的安 全 技 术 应 运而生。金 融 机 构不可能置身事外,但 金融机 构的数 据涉及保密 问 题,安 全 措 施 不能 完 全 依 赖 外 界,必须结 合自己的 技 术 特点,依 托 金 融自身 收 集的大 量 数 据,开展 数 据 分析、建 模,来 提 高信息 甄 别能力 和 安 全 管 理 水平。 按照目前的趋势,将来大数 据服务 作为底 层的技 术 基 础,可 帮助各 金 融 机 构 搭 建 或 定制自己专属的信息 安全服务体系,提升金融领域的信息安全水平。
二是 对 于硬 件 安 全而言,虽然 增 加了安 全 性,但 也加重了用户负担(例如携带硬件USB Key),甚至当 用户 忘记 携 带相 关 硬 件 时,自身 都无 法 通 过 验 证,降 低了便利性。即使是近年兴起的生物认证技术也存在 部分缺陷,如生物信息(如指纹、掌纹等)被盗取后, 客户无 法 修 改自身 信息,面 临 后 续 威 胁。且 生物 识 别 的准确性也存在问题,如人脸识别随着年龄的增长而 变化,指纹识别因手指受伤或划痕而无法通过验证, 声音识别因咽喉嘶哑而不被系统认可等,而大数据可 以提供多维度的身份识别,将用户的多种生物特征进 行 比 对,同时 结 合用户的 行为特 征,提 高身 份 识 别准 确性。
二是K- m e a n s 算 法 仅 适 用于数 据 项 全 是 数 字 的 情况。这在很 大 程 度上限制了K-means算法的应用 范围。针 对 该问 题,在 借 鉴K- m e a n s 算 法 框 架的基 础 上,GENGeng J.K.。提出了一种新的密度聚类算法, 采 用 预 抽 样 的 方 法 将算 法 时 间 复 杂 度 控 制 为 线 性, 同时通 过引入次 质心的 概 念,解 决 聚 类 失 效问 题。分 析表明,该算法能很 好地克 服K-means算法的初始 条 件 敏 感 性 和 一 般密度 聚 类 算 法的聚 类 失 效问 题, 实现较为理想的聚类结果。
(二)基于大数据的威胁发现技术 借助大数 据 挖掘分析技术,金融机 构可以主动 发现威胁,从而超 越传统的PDDR(保护、检测、响 应、恢复)模式:比如众 所周知的棱镜计划,如果 换 一个角度来理 解,它 就 是 运用大数 据的挖掘分析主 动发现 威胁的成功案例:事先 收集全球各地的海量 数 据,并 整 合、挖掘、分析,从而发现可能 对当局造 成 威 胁的因素,并在这些威 胁尚未浮出水面时及时 处理和解决。
(四)基于大数据的身份认证技术 身份认证 是 金融 业不可回避的问题,不论是 对 金融客户的身份识别,还是金融机构内部授权管理, 都会涉及该问题。金融业传统的身份认证技术主要通 过口令和数字证书等硬件来实现,但这个看似严密的 身份认证体系其实也面临着安全问题。一是对于用户
分期偏好
消费偏好
网购偏好
挂卡人通过信用卡交易 挂卡人非信用卡交易
图1 大数据4V1C特征
55
Research|信息安全
2017年·第3期
栏目编辑:梁丽雯 E-mail:liven_01@163.com
二、基于大数据的安全技术
(一)基于Hadoop的大数据安全架构 Hadoop是一种分布式的数据和计算 框架,已成 为全球范围内大数 据应用最为广泛的技术架构,在 金融业也被大量采用。 当前,金 融 领 域 和 学 术 领 域 都大 量 采 用 H a d o o p 平台开展云计算大数 据的应用研究。在不破坏大数 据 集 群 的 基 本 功 能 及 大 数 据 本身必 要 特点的前 提 下,笔 者 先 就 此 架 构 的安 全 问 题 及 隐 患 进行分析,并 给出相应的安全解决建议。 在分布式 数 据中,验 证 异构 平台之间的安 全和 一致 性 是非常困难的,各 个 数 据 结点的安 全 性、结点 之 间的 整 体 性 和 一 致 性 是 大 数 据 分布 式计 算 的一 个 痛点。而与 传 统 集中式 数 据 安 全模 型不同,存储 的 数 据 在 集 群 内部 流 动,一 个 数 据 可能 存 在多 个 拷贝,它 们 在多个节点间移动来确 保冗余,这种 机制导致数 据 很难 及 时、准 确 地 定位存储 位 置,也无 法 获 知 数 据备 份个数,加大了副本安 全 保 护 机制设 计上的难 度。在访问 数 据 时,一 般 提 供的 访问 控制 最 细 粒 度 为 schema 级别,虽然在大数据环境中还有安全标签和 其他高级属性可以借鉴,但 这需要在应用和数 据 存 储 的 设 计 建 立时 就 考虑 进 去。H a d o o p 和 大部 分 的 组 件没有建立起安 全的通信 机制,因为它们使用基于 TCP/IP(传输控制协议)的R PC(远程过程调用协 议),并没有嵌 入T S L(安 全 传 输 层协议)和 S S L 等 安 全 机 制。另 外,客户 端 可 以 直 接 与资源 管 理 者及节点 进行交 互,增 加了恶 意代 码或 链 接发 送的 概 率,也 难 以保证客户端 免受数 据节点的攻击。这些 都是 基于 H DF S 架构 的大 数 据 环 境的安 全 隐忧。H DF S 架构 如 图2所示。 基于H a d o o p 的大 数 据 架 构,其安 全 机 制 可 以 通 过以下4种方法和技术得以保证。 一是使用Kerberos进行节点验证。Kerberos是最有 效的安全控制措施之一,可以集成到Hadoop基础设施
面 对 种 种问题,金融 机 构只有在 身份 认证中引 入大数据综合分析才能够有效地 解决。综合分析用 户行为特征、生物特征和设备特征来判定用户身份, 如 此一 来,对 攻击者 而言,需要掌 握 用户 方 方 面 面的 信息 才 能 展开有 效 攻击,大 大 增 加了攻击难 度;对合 法用户而言,则 大 大 降 低了认证 失 败 的 概 率。这 在 提 升身 份 认证的安 全 性,同时又保证 用户身 份 认证的 便 利性。
相关文档
最新文档