大数据安全分析研究(分析研究篇)
大数据的发展机遇和共享开放及安全挑战研究
大数据的发展机遇和共享开放及安全挑战研究随着信息技术的快速发展,大数据成为了当今社会的热门话题。
大数据不仅可以带来前所未有的商业机遇和社会发展机会,同时也面临着共享开放和安全挑战。
本文将探讨大数据的发展机遇和共享开放及安全挑战。
一、大数据的发展机遇大数据是指数据量太大,传统处理方式已经无法处理的数据。
随着物联网技术的普及和移动互联网的迅速发展,数据量呈爆炸式增长,大数据已成为当今社会数据处理的主要方式。
大数据带来的最大机遇是可以为企业提供更多的商业机会和数据分析手段,这可以帮助企业更好地理解市场需求、进行精准营销、提高经营效益。
同时,大数据也可以为政府部门提供更多的政策支持和决策参考,让政府更好地管理社会问题和资源分配。
二、大数据的共享开放大数据的发展需要消除数据孤岛、推广数据共享开放。
数据共享开放可以带来更多的价值和机遇。
不同行业、不同领域的数据可以相互交叉,创造更多的价值。
数据共享开放还可以打通数据利用的壁垒,促进跨领域合作,进一步推动新兴产业发展。
同时,数据共享也可以让公众参与到数据处理的过程中,增强信息透明度,提升社会公信力。
然而,数据共享所涉及到的个人信息和隐私问题是共享开放的主要挑战。
数据共享需要考虑到数据隐私和保护问题,合理规范数据使用和共享的权限和范围,保障数据的合法性和安全性,防止数据被滥用、泄露或篡改。
三、大数据的安全挑战大数据的快速发展也带来了安全挑战。
首先,大数据容易受到网络攻击和黑客攻击。
传统的安全技术已经不能满足大数据的安全需求,需要开发更先进的安全技术。
其次,随着大数据的累积,数据安全的风险程度也越来越高。
对于个人敏感信息的保护、数据泄露的预防和反应能力的加强,都需要加强。
最后,大数据安全需要建立统一的标准和制度。
需要制定全国统一的法律法规和技术规范,建立可靠的数据安全保障体系,加强数据安全意识和培训。
综上所述,大数据带来了前所未有的发展机遇,同时也需要共享开放和面对安全挑战。
大数据安全性的技术与管理研究
大数据安全性的技术与管理研究随着信息科技的发展和社会的进步,大数据已经成为当今世界最重要的资源之一。
它不仅为企业、政府和个人提供了全面的数据分析和服务,而且也为社会创造了巨大的财富。
但是,在大数据的应用过程中,数据安全性问题也日渐凸显。
大数据的堆积和积累,使得数据的泄露、误用、丢失变得更加严重和复杂。
因此,大数据的安全性已成为当前最紧迫和重要的问题之一。
一、大数据的安全性面临的问题1. 数据量过大,数据积累速度快一般来说,大数据的数据量要比传统的数据集大得多。
这就给大数据的存储和管理带来了巨大的挑战。
如果不加以妥善处理,数据的泄露或丢失将会给公司或机构带来巨大的损失。
另外,大数据的更新和积累速度也非常快,这就要求我们及时对数据进行监管和管理,以确保数据的可靠性和安全性。
2. 多维度数据处理复杂度高大数据所包含的数据类型往往非常多样化和复杂化,例如:结构化数据、半结构化数据和非结构化数据等。
这些数据往往进行多维度的分析处理,如数据挖掘、机器学习等。
这一方面对数据分析和处理技术提出了更高要求,另一方面也使得数据的隐私性和保密性面临着前所未有的挑战。
3. 数据流动性强由于云计算、物联网、移动互联网等技术的广泛应用,使得数据的流动性变得非常强。
大量的移动终端设备、服务器和数据库之间的交互,使得数据保护和安全性更加复杂。
一旦一个环节出现数据泄露、隐私丢失等不安全因素,就会影响到整个数据的保护和安全。
二、大数据安全的技术研究1. 数据加密技术数据加密技术是大数据安全性领域最主要和最古老的技术之一。
它通过使用加密算法,将原始数据转化为加密数据,以保证数据的隐私和安全。
其中,对称加密算法和非对称加密算法是最常用的加密技术。
2. 数据备份与灾备技术数据备份与灾备技术可以在本地或远程存储中对数据进行备份和复制,以防止数据丢失或损坏。
公司或机构可以通过建立灾备中心,保证数据备份和灾备的及时性和有效性。
3. 访问控制技术访问控制技术可以控制对数据的访问权限,从而保证数据的安全性。
年度总结大数据分析(3篇)
第1篇随着信息技术的飞速发展,大数据分析已经成为企业提升竞争力、优化决策的重要手段。
在过去的一年里,我部门在大数据分析领域取得了显著成果,现将2023年度工作总结如下:一、工作回顾1. 数据采集与处理2023年,我们进一步完善了数据采集体系,通过多种渠道收集了大量内外部数据。
在数据处理方面,我们采用了先进的数据清洗、整合、转换等技术,确保数据质量,为后续分析提供可靠依据。
2. 数据分析与挖掘针对业务需求,我们开展了多维度、多层次的数据分析。
通过对用户行为、市场趋势、业务流程等方面的深入挖掘,为企业提供了有价值的数据洞察。
3. 模型开发与应用在数据挖掘的基础上,我们开发了多个数据模型,如用户画像、预测模型、推荐系统等。
这些模型在实际业务中得到了广泛应用,有效提升了企业运营效率。
4. 数据可视化为了更好地展示分析结果,我们运用数据可视化技术,将复杂的数据转化为直观、易懂的图表,便于企业领导和业务部门快速理解分析结论。
二、工作亮点1. 成功应用于多个业务场景本年度,大数据分析在市场营销、风险控制、客户服务等多个业务场景中发挥了重要作用,为企业创造了显著价值。
2. 提升数据质量通过优化数据采集和处理流程,我们有效提升了数据质量,为后续分析提供了有力保障。
3. 加强团队建设我们注重团队建设,引进和培养了一批优秀的数据分析人才,为部门发展奠定了坚实基础。
三、展望未来1. 深化数据分析应用在2024年,我们将继续深化大数据分析在业务场景中的应用,为企业创造更多价值。
2. 探索新技术随着人工智能、区块链等新技术的不断发展,我们将积极探索这些技术在数据分析领域的应用,提升分析能力。
3. 加强跨部门协作我们将加强与各业务部门的沟通与协作,共同推进大数据分析在企业的广泛应用。
总之,2023年我部门在大数据分析领域取得了丰硕成果。
在新的一年里,我们将继续努力,为企业的可持续发展贡献力量。
第2篇随着信息技术的飞速发展,大数据已经成为企业提升竞争力、优化决策的关键要素。
综合评估大数据分析报告(3篇)
第1篇一、引言随着信息技术的飞速发展,大数据已成为当今社会的一个重要特征。
大数据分析作为一种新兴的技术手段,被广泛应用于各个领域,如金融、医疗、教育、交通等。
本报告旨在对大数据分析进行综合评估,分析其优势、挑战以及未来发展趋势,为相关企业和机构提供决策参考。
二、大数据分析的定义与特点1. 定义大数据分析是指利用先进的数据处理技术和算法,对海量数据进行挖掘、分析和解读,从而发现有价值的信息和知识的过程。
2. 特点(1)数据量大:大数据分析处理的数据规模巨大,通常达到PB级别。
(2)数据多样性:数据类型丰富,包括结构化数据、半结构化数据和非结构化数据。
(3)数据价值密度低:在大量数据中,有价值的信息往往占比很小。
(4)实时性:大数据分析需要实时处理数据,以满足快速决策的需求。
三、大数据分析的优势1. 提高决策效率通过对海量数据的分析,企业可以快速发现市场趋势、客户需求,从而提高决策效率。
2. 降低运营成本大数据分析可以帮助企业优化资源配置,降低运营成本。
3. 提升客户满意度通过分析客户数据,企业可以更好地了解客户需求,提供个性化的服务,提升客户满意度。
4. 创新商业模式大数据分析可以为企业带来新的商业模式,如精准营销、智能推荐等。
四、大数据分析的挑战1. 数据质量数据质量是大数据分析的基础,数据不准确、不完整、不一致等问题都会影响分析结果。
2. 技术挑战大数据分析需要处理海量数据,对计算能力、存储能力、算法等方面提出了很高的要求。
3. 法律法规大数据分析涉及到个人隐私、数据安全等问题,需要遵守相关法律法规。
4. 人才短缺大数据分析需要专业人才,但目前市场上相关人才较为短缺。
五、大数据分析的应用案例1. 金融领域金融机构利用大数据分析进行风险评估、欺诈检测、客户关系管理等。
2. 医疗领域医疗机构利用大数据分析进行疾病预测、药物研发、健康管理等。
3. 交通领域交通管理部门利用大数据分析进行交通流量预测、路况监测、智能调度等。
专业认识报告大数据分析(3篇)
第1篇一、引言随着信息技术的飞速发展,大数据已经成为现代社会不可或缺的一部分。
大数据分析作为一门新兴的交叉学科,涵盖了计算机科学、统计学、数学等多个领域,旨在从海量数据中提取有价值的信息和知识。
本报告将对大数据分析专业进行详细的介绍,包括其发展背景、核心内容、应用领域以及未来发展趋势。
二、大数据分析的发展背景1. 数据爆炸时代21世纪是信息爆炸的时代,人类社会正从信息时代迈向数据时代。
随着物联网、移动互联网、云计算等技术的广泛应用,数据量呈指数级增长。
据统计,全球数据量每两年就会翻一番,预计到2020年,全球数据量将达到40ZB。
2. 传统数据分析方法的局限性传统的数据分析方法主要依赖于统计软件和人工分析,难以应对海量数据的处理和分析。
随着数据量的不断增长,传统方法在处理速度、准确性、效率等方面逐渐暴露出不足。
3. 大数据分析技术的兴起为了解决传统数据分析方法的局限性,大数据分析技术应运而生。
大数据分析利用计算机科学、统计学、数学等领域的知识,通过数据挖掘、机器学习、深度学习等方法,从海量数据中提取有价值的信息和知识。
三、大数据分析的核心内容1. 数据采集与预处理数据采集是大数据分析的基础,包括从各种数据源获取原始数据。
数据预处理是对采集到的数据进行清洗、转换、整合等操作,以提高数据质量和分析效率。
2. 数据存储与管理随着数据量的不断增长,数据存储与管理成为大数据分析的关键问题。
目前,分布式存储系统如Hadoop、Spark等成为主流,能够满足海量数据的存储和计算需求。
3. 数据挖掘与统计分析数据挖掘是从海量数据中发现有价值的信息和知识的过程。
统计分析是对数据进行描述、推断和预测的方法,包括回归分析、聚类分析、关联规则挖掘等。
4. 机器学习与深度学习机器学习和深度学习是大数据分析的核心技术之一。
机器学习通过算法让计算机从数据中学习,自动提取特征和规律。
深度学习则是一种更高级的机器学习方法,能够模拟人脑神经网络,实现更复杂的模式识别和预测。
大数据分析技术研究报告
大数据分析技术研究报告在当今数字化的时代,数据已成为企业和组织的重要资产,而大数据分析技术则是挖掘这些资产价值的关键手段。
大数据分析技术能够帮助我们从海量、复杂的数据中提取有价值的信息,为决策提供有力支持。
本文将对大数据分析技术进行深入探讨。
一、大数据分析技术的定义与特点大数据分析技术是指对规模巨大、类型多样、处理速度快、价值密度低的数据进行收集、存储、管理和分析的一系列技术和方法。
其主要特点包括以下几个方面:1、数据量大大数据的规模通常达到 PB 级甚至 EB 级,远远超过传统数据处理技术所能应对的范围。
2、数据类型多样包括结构化数据(如关系型数据库中的表格数据)、半结构化数据(如 XML、JSON 格式的数据)和非结构化数据(如文本、图像、音频、视频等)。
3、处理速度快要求能够在短时间内对大量数据进行快速处理和分析,以满足实时决策的需求。
4、价值密度低在海量数据中,有价值的信息往往只占很小的比例,需要通过有效的分析方法来提取。
二、大数据分析技术的关键技术1、数据采集与预处理数据采集是获取数据的过程,包括从各种数据源(如传感器、网络爬虫、数据库等)收集数据。
预处理则是对采集到的数据进行清洗、转换、集成等操作,以确保数据的质量和一致性。
2、数据存储为了存储大规模的数据,通常采用分布式文件系统(如 HDFS)和分布式数据库(如 HBase、Cassandra 等)。
3、数据处理框架常见的数据处理框架有 MapReduce、Spark 等。
MapReduce 是一种分布式计算框架,适用于大规模数据的批处理;Spark 则具有更高的性能和更丰富的功能,支持批处理、流处理和交互式查询。
4、数据分析算法包括分类算法(如决策树、朴素贝叶斯)、聚类算法(如KMeans、层次聚类)、关联规则挖掘算法(如 Apriori 算法)等。
5、数据可视化将分析结果以直观、易懂的图表形式展示出来,帮助用户更好地理解数据和发现规律。
大数据安全管理技术及应用研究
大数据安全管理技术及应用研究随着大数据时代的到来,数据的规模和种类都在急速增长。
这给数据的安全管理带来了更加复杂的挑战。
如何有效地管理大数据的安全成为了许多公司和组织关注的重点。
本文将就大数据的安全管理技术及应用研究进行探讨。
一、大数据安全管理技术的意义大数据的安全管理是指为保护大数据安全而采取的各种技术和策略。
随着大数据的规模不断扩大,泄露、篡改、非授权访问等问题也日益增加,安全管理技术的重要性也进一步凸显。
有效地保护大数据的安全,不仅能避免公司和组织的损失,还可以增强用户对公司和组织的信任感,提升其市场竞争力。
二、大数据安全管理技术的核心内容1. 认证与授权技术认证与授权技术可以有效地保护大数据不被非授权的访问。
通常情况下,认证技术采用的是用户名和密码,而授权技术则可以根据权限对用户进行分类,从而实现对用户的限制。
在大数据的管理过程中,常用的认证与授权技术包括基于角色的访问控制(RBAC)和基于策略的访问控制(PBAC)。
这两种技术都可以有效地保证大数据的安全性。
2. 加密技术加密技术的核心内容是将数据加密,以防止数据被非授权的访问、篡改和泄露。
目前比较流行的加密技术有对称加密技术和非对称加密技术。
对称加密技术是指采用同一密钥对数据进行加密和解密,常用于数据的传输和存储。
而非对称加密技术则需要使用两个密钥,一个公钥和一个私钥。
公钥可以被公开,用于加密数据;而私钥则只有拥有者知道,用于解密数据。
3. 安全审计技术安全审计技术可以监测和分析大数据管理的安全性,以便及时发现和解决潜在的安全问题。
这种技术可以记录大数据的访问情况、修改历史和操作日志等信息,从而方便进行后续的审计工作。
总的来说,大数据安全管理技术需要综合运用各种技术手段,建立完善的安全管理体系,以确保大数据的安全性。
三、大数据安全管理技术的应用研究1. 在金融领域的应用金融领域的数据规模较大,安全问题也更加突出。
因此,大数据安全管理技术在金融领域的应用较为普遍。
大数据 课题研究报告
大数据课题研究报告引言随着信息科技的快速发展,大数据已经成为当今社会的热门话题之一。
大数据是指规模巨大、多样化、高速度的数据集合,它通过分析和挖掘数据中的模式和趋势,帮助企业和组织做出更明智的决策。
本报告旨在研究大数据的相关概念、应用领域以及未来的发展趋势,为读者提供对大数据的全面认识。
1. 大数据的基本概念大数据的概念源于数据爆炸式增长和科技进步。
大数据具有以下特点:•规模巨大:大数据的数据量通常以TB、PB甚至EB来计量,远远超过传统数据库处理能力。
•多样化:大数据不仅包含结构化数据,如数据库记录和电子表格数据,还包括非结构化数据,如文本、图像和视频。
•高速度:大数据以极快的速度增长,并需要实时或近实时分析处理来应对快速变化的数据流。
2. 大数据的应用领域大数据应用广泛,可以用于以下领域:•商业智能:通过分析大数据中的模式和趋势,帮助企业做出更明智的决策,改善业务绩效。
•金融服务:大数据分析可用于风险评估、欺诈检测、个性化投资等,提高金融机构的效率和安全性。
•医疗健康:大数据可用于个性化医疗、疾病预测和药物研发,提高医疗保健服务的质量和效率。
•城市规划:大数据可用于交通管理、环境保护和公共安全等,提升城市的可持续发展。
•社交媒体:大数据分析可用于挖掘用户行为、用户兴趣和社交网络中的模式,提供个性化的服务和推荐系统。
3. 大数据的挑战与问题虽然大数据有很多应用前景,但也面临着一些挑战和问题:•数据质量问题:大数据的质量往往难以保证,包括数据准确性、完整性和一致性等问题。
•数据隐私和安全:大数据中可能包含敏感信息,需要加强数据隐私保护和安全管理。
•技术挑战:大数据处理需要强大的计算能力和存储资源,如何有效处理、分析和存储大规模的数据是一个挑战。
•法律和伦理问题:大数据的使用可能涉及法律和伦理问题,如数据合规性、数据所有权和数据使用目的等。
4. 大数据的未来发展趋势随着技术的进步和应用的不断拓展,大数据将呈现以下发展趋势:•智能化:利用人工智能和机器学习技术,使大数据分析更智能化和自动化。
消防安全大数据分析报告(3篇)
第1篇一、报告概述随着城市化进程的加快和经济的快速发展,消防安全问题日益突出。
为提高消防安全管理水平,预防和减少火灾事故的发生,本报告通过对消防安全大数据的收集、整理和分析,旨在揭示消防安全现状、趋势及存在的问题,为相关部门制定消防安全政策提供数据支持。
二、数据来源与处理1. 数据来源:- 各级消防部门的火灾事故统计报表- 消防安全检查记录- 社会公众消防安全意识调查数据- 消防设施设备运行数据- 消防安全教育培训数据2. 数据处理:- 对原始数据进行清洗,剔除无效和错误数据- 对数据进行分类整理,建立数据仓库- 运用统计学和数据分析方法,对数据进行挖掘和建模三、消防安全现状分析1. 火灾事故发生情况:- 近年来,火灾事故呈上升趋势,尤其在高层建筑、地下空间和人员密集场所火灾事故频发。
- 火灾事故发生的主要原因包括电气故障、用火不慎、易燃易爆物品管理等。
2. 消防安全检查情况:- 消防安全检查覆盖率逐年提高,但仍存在部分单位未按要求进行消防设施设备维护保养的问题。
- 检查发现的主要问题包括消防设施设备损坏、疏散通道堵塞、消防安全管理制度不健全等。
3. 消防安全意识调查:- 公众消防安全意识普遍提高,但仍有部分人群对消防安全知识掌握不足。
- 调查发现,公众对火灾逃生、灭火器使用等知识的掌握程度有待提高。
四、消防安全趋势分析1. 火灾事故发生趋势:- 随着城市化进程的加快,火灾事故发生的风险将进一步提高。
- 高层建筑、地下空间等复杂场所火灾事故发生率将上升。
2. 消防安全管理趋势:- 消防安全管理将更加重视科技手段的应用,如大数据分析、人工智能等。
- 消防安全教育培训将更加注重实效性,提高公众消防安全意识。
五、存在问题及对策1. 存在问题:- 消防安全基础设施建设滞后,部分老旧小区、农村地区消防设施不完善。
- 公众消防安全意识薄弱,火灾事故预防和应对能力不足。
- 消防安全管理体制不健全,部分单位消防安全责任落实不到位。
国内外大数据安全保护的比较研究
国内外大数据安全保护的比较研究一、大数据安全的背景介绍随着计算机技术和互联网的快速发展,大数据已经成为当前最热门的研究领域之一。
大数据以其丰富的信息和价值,成为了各行各业的重要资源,同时也面临着越来越多的安全威胁。
由于大数据具有高度复杂性、异构性和规模性等特点,其安全保护面临着许多挑战。
因此,大数据安全成为一个备受关注的领域,国内外学者对该领域进行了广泛的研究和探讨,本文将对国内外大数据安全保护的比较研究做一个梳理和分析。
二、国内大数据安全保护的研究现状1.研究背景随着互联网和移动互联网的快速发展,我国的数据量呈现出爆炸式增长,数据安全问题也逐渐显露出来。
因此,国内学者开始研究大数据安全保护技术,取得了一定的研究成果。
2.研究内容国内学者在大数据安全保护方面的研究主要包括以下几个方面:(1)隐私保护:国内学者主要从安全传输、安全存储、匿名化等方面对大数据隐私进行保护。
(2)身份认证:在大数据的访问控制中,身份认证被视为重要的一环,因此国内学者在该方面的研究主要是基于电子签名技术、公私钥加密技术以及生物特征识别技术等方面。
(3)数据加密:加密技术是保护大数据安全的基础,国内学者在该方面的研究主要围绕着对称加密、非对称加密、混沌加密等技术的应用。
3.研究成果在大数据安全保护方面,国内学者积极开展研究,取得了一定的研究成果。
例如,在金融行业,基于人工神经网络的大数据安全风险测度模型等研究成果初步应用于银行业务中。
同时,我国政府也重视大数据安全保护,国内出台的《网络安全法》引导互联网企业对数据进行保护,保证数据的安全性。
三、国外大数据安全保护的研究现状1.研究背景在国际上,随着云计算的发展,大数据也逐渐成为了国际上一个备受关注的研究领域。
出于对各种风险的担忧和需求的不断增加,国际上的大数据安全研究逐步成为了焦点,成为了一门前沿的交叉学科。
2.研究内容国际上的大数据安全研究主要包括以下几个方面:(1)机器学习的数据安全:机器学习在大数据时代的广泛应用已经成为了一个热点,强大的学习算法的好处是其高度自动化,但这也带来了一些安全问题,因此相关的安全保护研究也在国外得到了广泛关注。
工业大数据分析(3篇)
(2)类型多样:工业大数据包含结构化、半结构化和非结构化数据,数据类型丰富。
(3)实时性强:工业大数据要求实时处理和分析,以支持快速决策。
(4)价值密度低:工业大数据中,有价值的数据占比相对较低,需要通过数据挖掘和挖掘算法提取。
2. 特点
(1)数据量大:工业大数据通常包含数十亿甚至数千亿条记录,具有庞大的数据规模。
(2)数据类型多样:工业大数据涵盖结构化、半结构化和非结构化数据,涉及文本、图像、视频等多种类型。
(3)数据动态变化:工业大数据具有实时性,随着工业生产过程的进行,数据会不断更新和变化。
(4)数据质量参差不齐:工业大数据在采集、传输、存储等过程中,可能会出现数据缺失、错误、不一致等问题。
5. 人才短缺:工业大数据分析需要大量专业人才,但目前我国相关人才较为短缺。
六、结论
工业大数据分析在我国工业领域具有广泛的应用前景。通过对工业大数据的挖掘和分析,可以实现工业生产、经营管理、市场营销等方面的优化,提高企业竞争力。然而,工业大数据分析也面临着诸多挑战,需要政府、企业、研究机构等共同努力,推动工业大数据分析技术的创新和发展。
4. 市场预测与营销
通过分析市场数据,预测市场趋势,制定合理的营销策略,提高市场竞争力。
5. 研发创新
通过对研发数据的分析,发现潜在的创新点,提高研发效率,降低研发成本。
三、工业大数据分析的挑战
1. 数据质量:工业大数据在采集、传输、存储等过程中,可能存在数据缺失、错误、不一致等问题,影响分析结果的准确性。
五、工业大数据分析挑战
1. 数据质量:工业大数据质量参差不齐,需要加强数据清洗和预处理。
食品安全大数据分析报告(3篇)
第1篇一、引言随着我国经济的快速发展和人民生活水平的不断提高,食品安全问题日益受到广泛关注。
食品安全不仅关系到人民群众的身体健康和生命安全,也关系到社会的稳定和经济的健康发展。
近年来,食品安全事件频发,食品安全问题已成为社会热点。
为了更好地保障食品安全,提高食品安全监管水平,本文通过对食品安全大数据的分析,旨在揭示食品安全问题的现状、趋势及原因,为相关部门制定有效的食品安全监管策略提供数据支持。
二、数据来源与处理1. 数据来源本文所使用的数据主要来源于以下几个方面:(1)国家食品安全监测数据:包括国家食品安全风险监测数据、国家食品安全监督抽检数据等。
(2)地方食品安全监测数据:包括各省市食品安全监测数据、食品安全监督抽检数据等。
(3)互联网数据:包括新闻报道、网络论坛、社交媒体等。
(4)企业内部数据:包括企业生产、销售等环节的数据。
2. 数据处理为了确保数据的准确性和可靠性,我们对原始数据进行了以下处理:(1)数据清洗:删除重复数据、异常数据,确保数据的一致性和准确性。
(2)数据整合:将不同来源的数据进行整合,形成统一的食品安全数据集。
(3)数据标准化:对数据格式进行标准化处理,方便后续分析。
三、数据分析1. 食品安全问题现状根据数据分析,我国食品安全问题主要集中在以下几个方面:(1)食品添加剂滥用:部分食品在生产过程中过度使用食品添加剂,如防腐剂、色素、香精等。
(2)农药残留超标:部分农产品农药残留超标,对人体健康造成潜在危害。
(3)兽药残留:部分畜禽产品兽药残留超标,影响人体健康。
(4)食品生产加工环节污染:部分食品在生产加工过程中存在环境污染问题。
2. 食品安全问题趋势通过对食品安全大数据的分析,我们发现以下趋势:(1)食品安全问题日益复杂:食品安全问题涉及的领域越来越广泛,涉及食品种类、生产环节、污染途径等方面。
(2)食品安全问题区域化:食品安全问题在不同地区呈现不同特点,需要针对不同地区制定相应的监管策略。
大数据安全风险分析及保障策略技术研究
大数据安全风险分析及保障策略技术研究刘郭栋,何㊀亮,梅㊀栋新疆公安厅科信总队,新疆乌鲁木齐830000摘要:如今随着我国社会科学技术与经济水平的提高,互联网已经渗透到我们生活的每一个角落,大数据的规模开始变得空前盛大,数据的流动开始变得更加的频繁,因此大数据安全问题也开始引起了人们的重视㊂目前我们已有的信息安全的手段也无法满足大数据时代信息的安全要求,大数据中数据的分布式处理也增加了数据发生泄露的可能性㊂基于此,本文对大数据的安全进行分析,并未保障大数据的安全提出保障策略的研究,帮助大数据产业取得健康的发展㊂关键词:大数据;安全分析;保障策略中图分类号:TP309;TP311.130引言随着国家对于计算机信息技术相关产业的重视,目前对于大数据的研究已经上升到国家的地步,大数据被看作国家层面的战略资源㊂目前各行各业开始应用大数据来帮助产业发展,数据在社会中扮演者愈发重要的角色㊂大数据开始被广泛地应用于社会的经济发展,数据信息开始变得集中㊁数据量开始变大㊂[1]而随着这一切的发展,现有的信息安全的处理手段已经不能满足要求㊂数据造假㊁数据泄露等情况出现的概率大大增加,大数据发展所面临的威胁和影响因素开始增加,有的地方甚至专门出现了盗取数据的灰色产业㊂基于这种日益严重的大数据安全问题,要加强对于大数据的风险研究,尽可能地保障大数据的安全㊂1大数据的特征近年来大数据在各大企业以及事业单位开始被广泛应用,因此开始更加受到人们的重视,大数据其本身所具有的价值被更多的人所发现㊂大数据已经成为新时代的一种新型经济资产的方式,其价值可以等同于矿产与石油资源㊂大数据的出现为社会带来了新的创业方向㊁商业模式以及投资机会㊂在我们所处的大数据时代,企业将大数据更广泛地应用到制定决策和决定公司的发展方向等方面㊂企业之间的竞争方向也会有一部分转移到大数据方面㊂目前我们周围已经不缺乏通过挖掘大数据的价值而提升整个企业竞争力的公司㊂然而就如同所有的事物一样,大数据也具有利弊两个方面㊂大数据是一把双刃剑,能否合理利用成了其剑锋所向的分界点㊂大数据的安全存在着多个不容的层次,如规章制定㊁信息收集㊁信息传输㊁信息传输等环节安全㊂对于业务数据的安全,三分制定,七分技术,其他安全也是至关重要㊂业界通常以四个 V 来概括大数据的基本特征:Volume(数据体量巨大)㊁Variety(数据类型繁多)㊁Value(价值密度低)㊁Velocity(处理速度快)㊂而恰恰是这四个特点,也决定了其安全风险㊂2大数据的风险分析如图1所示,大数据的整个生命周期主要包括产生㊁采集㊁传输㊁存储㊁共享㊁挖掘㊁交换㊁应用和销售八个步骤,而除了生成㊁采集与传输过程,其他的过程都可以归纳为核心阶段㊂因此对于大数据进行65㊀㊀㊀㊀㊀㊀㊀㊀图情与信息管理作者简介:刘郭栋(1981 ),男,硕士研究生,一级技术主管,新疆公安厅科信总队,研究方向为网络安全㊁大数据安全;何亮(1985 ),男,本科,四级技术主管,新疆公安厅科信总队,研究方向为信息安全与防护㊂通信作者:梅栋(1987 ),男,硕士研究生,三级技术主管,新疆公安厅科信总队,研究方向为网络安全管理与防护㊂㊀㊀2019年第06期㊀㊀2019年第06期㊀㊀风险分析也是基于这几个方面而开展的㊂图1㊀大数据的生命周期2.1大数据的数据生成与采集阶段的风险大数据的数据生成与数据采集当面存在的风险首先是大数据权属需要确认的问题,目前已经发生了数据资源被复制的情形㊂任何数据在生成过程中都面临着被泄露和被未授权改变的风险,还存在数据与元数据的错位㊁国家秘密与个人隐私泄露㊁源数据存在有恶意代码等问题㊂2.2大数据的传输过程的风险大数据的传输存在于全生命周期的多个环节,如出现在采集到存储之间㊁分类分级过程中㊁分析挖掘过程中㊁应用过程中㊁交换与交易过程中㊂随着大数据应用中网络节点数增加,网络安全面临更大的风险,网络防御形势更加严峻,网络传输过程中的安全性很难得到保证,攻击者常利用传输协议的漏洞进行数据窃取㊁数据拦截㊂当前,大数据技术甚至被应用到攻击手段中,攻击者通过对大数据技术收集㊁分析和挖掘情报,使得各种APT攻击更容易成功㊂2.3大数据的存储过程存在的风险海量和多源异构数据的汇聚,对大数据分析平台提出了更高的要求,主要体现在对结构化和非结构化数据的存储㊁海量数据的处理以及大规模分布式数据存储和集群管理等㊂复杂多样的大数据存储,数据存储管理安全防护措施难免存在漏洞,造成数据失窃和篡改㊂同时,各种类型的数据集中存储,也使得大数据应用系统更容易成为入侵者攻击的目标㊂2.4大数据的共享和交换过程存在的风险大数据系统根据职责不同,存在相应的六大角色,即数据的使用者㊁数据的提供者㊁大数据框架提供者㊁大数据应用提供者㊁系统协调者㊁大数据资源的觊觎者㊂在数据的共享㊁交换中缺乏数据拷贝的使用管控和终端审计,存在数据泄露㊁行为抵赖㊁数据发送错误等问题㊂[2]2.5大数据的挖掘过程存在的风险在大数据挖掘过程中,主体访问的不是一个客体的全部,而仅仅是某些客体的某些特征量,这一点与信息系统中的访问是有区别的㊂因此主体对客体的访问也不应该是客体的全部,而只是这些与特征量相关的信息㊂特征信息之外的信息内容,不应该授权进行访问,否则就可能出现大数据的滥用问题㊂2.6大数据的应用过程存在的风险大数据或经过分析挖掘后的数据,其应用价值得到极大的提高,也会产生一系列的应用㊂[3]在应用环节存在数据的泄露㊁数据的完整性被破坏㊁未授权访问㊁恶意代码㊁元数据完整性被破坏等风险㊂3大数据的安全保障策略分析大数据的安全保障策略是基于大数据的生命周期而进行研究与分析的㊂3.1数据产生与采集环节的安全产生㊁采集环节,要对数据的真实性㊁原始性进行确认,并保证数据的完整性㊂同时,还要对可能涉及的国家秘密信息进行预警和报警,并能将国家秘密信息分离,不使其混入其他的数据集合,对涉及国家秘密信息进行恰当的保护㊂[4]保护策略主要使用区块链技术对源数据进行源认证和完整性保护,使用涉及国家秘密信息的检测预警工具对采集的数据进行检测㊂对于数据的真实性,可利用大数据本身进行真实性检测,也可以从立法的角度,对伪造数据者根据情节做出必要的处罚,以保证采集数据的真实性㊂3.2传输环节的保护目标及策略传输环节安全目标是保证信道中所传输的数据不泄露㊁不被未授权的改变,保证通信信道畅通,同时防范可能的重放攻击等㊂保护策略主要使用加密技术对数据进行加密传输,也可使用区块链技术对传输的数据进行完整性保护㊂3.3数据存储目标及策略存储环节的保护目标是确保授权访问,在存储的过程中未授权人不能越权访问目标数据,确保数据的机密性㊁完整性和可用性㊂安全策略要求所有的操作必须是经过授权的,包括读写㊁复制㊁传输㊁授权等各类操作㊂[5]授权人的权限应该遵循最小授权的原则,进行细粒度的划分并且要有制衡措施㊂授权人不准许访问数据,所有角色的操作必须有相应的审计机制㊂[6]3.4数据共享和交换目标及策略数据的交换和共享涉及两个主机之间的任务,75图情与信息管理㊀㊀㊀㊀㊀㊀㊀㊀而在贡献或者交换文件的过程中容易出现文件泄露或者病毒侵入的威胁,因此在数据的共享和交换的过程中一定要注意数据传输的安全问题,需要下载防毒软件或其他防护系统,并时刻检查此系统㊂3.5数据的挖掘目标及策略上文中提到大数据挖掘过程中,主体访问的不是一个客体的全部,而仅仅是某些客体的某些特征量,因此在挖掘的过程中需要注意对其他文件或者资源的保护,要掌握好访问的具体位置客体的那些容量,不要出现错误㊂[7]3.6数据的应用目标及策略与其他的数据一样,大数据也需要定期的废弃和销毁,这样会腾出相应的存储空间㊂[8]在利用新的数据存储和应用过程中,会存在错误销毁㊁数据残留导致的数据泄露等风险㊂4结语大数据是我们社会进步的体现,为了保障社会的发展正常的进行,保障应用大数据进行发展的企业能够取得一定的成功㊂[9]本文的研究主要包括大数据整个生命周期的完整性㊁挖掘中的访问控制㊁大数据的滥用㊁隐私的泄露㊁国家及企业敏感信息的泄露等方面㊂考虑到这几个方面的安全风险,本文有针对性地给出了保障策略研究㊂进一步的完善大数据的整个体系的发展,为推动我国的大数据的产业的健康发展提供一定的帮助㊂[10]参考文献[1]杨平.运用 大数据 与 人工智能 技术引领多模态大学英语写作能力评价体系的研究[C]//中共沈阳市委㊁沈阳市人民政府㊁国际生产工程院㊁中国机械工程学会.第十六届沈阳科学学术年会论文集(经管社科).中共沈阳市委㊁沈阳市人民政府㊁国际生产工程院㊁中国机械工程学会:沈阳市科学技术协会,2019.[2]王思兵.大数据时代图书馆开放存取资源的安全保障体系构建[J].图书馆学刊,2019(05):43⁃46.[3]韩雪.大数据时代企业人力资源管理变革策略探讨[J].现代营销(下旬刊),2019(08):174⁃175.[4]周铭.大数据时代的人工智能发展的法律思考[C]//‘上海法学研究“集刊.世界人工智能大会组委会:上海市法学会,2019.[5]林竹静. 人工智能+大数据 驱动的智慧检察路径规划 兼论检察大数据(上海)实验室的发展[Z].[6]世界人工智能大会组委会.‘上海法学研究“集刊(2019年第9卷总第9卷)[C]//世界人工智能大会组委会:上海市法学会,2019.[7]陈宏兴.论环渤海大数据园区规划与智慧城市[J].低碳世界,2019(7):151⁃152.[8]李昱,张扬,史卿.基于大数据的航标配布优化效果评估方法[EB/OL].水运工程:1⁃4[2019⁃08⁃07].http://kns.cnki.net/kcms/detail/11.1871.U.20190805.1156.060.html.[9]郭世英,白维军. 互联网+社会保障信息服务 需求的生成逻辑与实现路径[J].行政论坛,2019(4):140⁃144.[10]李佐军,彭英.浅议大数据应用平台的架构[J].轻工科技,2019(8):89⁃90.85㊀㊀㊀㊀㊀㊀㊀㊀图情与信息管理㊀㊀2019年第06期㊀。
大数据安全问题分析及对策建议
随着大数据时代的到来,大数据技术为经济社会发展带来创新活力的同时,也使传统网络安全防护面临严重威胁与全新挑战。
本文介绍了大数据技术及产业发展的有关背景,从数据安全、个人信息保护及大数据平台自身安全三个方面梳理大数据技术应用面临的安全挑战,提出我国强化大数据安全保障的对策建议。
大数据发展状况及安全问题简介大数据的概念起源于2000年前后,伴随着互联网应用发展而诞生。
当时,互联网网页爆发式增长,产生的数据量激增,为了提高用户检索信息效率,谷歌等公司开始建立索引库以提供搜索服务,成为大数据应用的起点。
2012年之后,大数据技术方兴未艾,经过数年蓬勃发展,如今业界对大数据的认识已经基本趋于一致,尤其对于大数据的基本特性已达成共识。
当前,大数据已进入应用发展阶段,技术创新和商业模式创新推动各行业应用逐步成熟,应用创造的价值占市场规模的比重日益增大,成为新的经济增长动力。
中国信息通信研究院发布的《中国大数据发展调查报告(2017)》(以下简称“报告”)数据显示,2016年中国大数据核心产业的市场规模约为168亿元,较2015年增速达45%,伴随着国家政策激励以及大数据应用模式逐步成熟,未来几年中国大数据市场仍将保持快速增长,预计到2020年中国大数据市场规模将达到578亿元。
随着数据资产价值持续攀升、大数据产业规模不断壮大,大数据技术在改善社会生产生活的同时,其安全问题也逐渐显现出来。
2017年1月,大数据基础软件陷入一场全球范围的大规模勒索攻击,Hadoop集群被黑客锁定为攻击对象。
同时,据Shodan互联网设备搜索引擎的分析显示,因Hadoop服务器配置不当导致5120TB数据暴露在公网上,涉及近4500台HDFS服务器。
同时,近年来全球数据安全事件层出不穷,如何在大数据时代处理好数据安全问题成为全球普遍关注的热点。
大数据分析平台安全与其承载数据的安全同生共息,在数据成为国家基础战略资源和社会基础生产要素的今天,大数据安全与国家安全的关系愈发紧密,在保障国家安全、经济运行、社会稳定等方面发挥愈加关键的作用,亟需采取有效的应对措施以抵御大数据安全风险。
大数据安全分析(分析篇)
这一篇应该是比较容易引起争议的,大家现在乐于说看见(visibility )的力量,如何看到却是一个尚在探索中的问题。
数据是看到的基础条件,但是和真正的看见还有巨大的差距。
我们需要看到什么?什么样的方法使我们真正看到?安全分析和事件响应网络空间的战斗和现实世界有很大的相似性,因此往往可以进行借鉴。
美国空军有一套系统理论,有非常的价值,值得深入思考并借鉴,它就是OODA周期模型:观察(Observe):实时了解我们网络中发生的事件。
这里面包括传统的被动检测方式:各种已知检测工具的报警,或者来自第三方的通报(如:用户或者国家部门)。
但我们知道这是远远不够的,还需要采用更积极的检测方式。
即由事件响应团队基于已知行为模式、情报甚至于某种灵感,积极地去主动发现入侵事件。
这种方式有一个很炫的名字叫做狩猎。
定位(Orient):在这里我们要根据相关的环境信息和其他情报,对以下问题进行分析:这是一个真实的攻击吗?是否成功?是否损害了其它资产?攻击者还进行了哪些活动?决策(Decision):即确定应该做什么。
这里面包括了缓解、清除、恢复,同时也可能包括选择请求第三方支持甚至于反击。
而反击往往涉及到私自执法带来的风险,并且容易出错伤及无辜,一般情况下不是好的选择。
行动(Action):能够根据决策,快速展开相应活动。
OODA模型相较传统的事件响应六步曲(参见下图),突出了定位和决策的过程,在现今攻击技术越来越高超、过程越来越复杂的形势下,无疑是必要的:针对发现的事件,我们采取怎样的行动,需要有足够的信息和充分的考量。
在整个模型中,观察(对应下文狩猎部分)、定位与决策(对应下文事件响应)这三个阶段就是属于安全分析的范畴,也是我们下面要讨论的内容,附带地也将提出个人看法,关于大数据分析平台支撑安全分析活动所需关键要素。
狩猎(hunting)近两年狩猎的概念在国际上比较流行,被认为是发现未知威胁比较有效的方式。
如何做到在信息安全领域的狩猎,也是和威胁情报一样热门的话题。
基于大数据分析的安全生产事故事件指示监控研究分析
基于大数据分析的安全生产事故事件指示监控研究分析引言二十大会议后,国家确立了八个工作重点,其中提到就是坚持科技引领创新驱动,坚持产业为基转型为要,加快建设现代化体系。
在此基础上走好数字化转型之路。
随着近些年科技发展,AI技术已广泛应用于各行各业,电网技术的发展也是突飞猛进,特别是当电网技术与信息化深度融合中出现了大量数据,电力企业也从中获得了很多大数据的有效积累。
这些数据蕴含着大量的价值信息,是电力企业的核心资产,本文基于对电力大数据的安全分析和预警研究提出了电力大数据的安全预警监控隐患和指示分析及应用法。
实践证明大数据分析在针对检测障碍安全隐患以及事故指示监控分析上能够做到“数尽其用”,智能洞悉电力大数据安全态势。
关键词:大数据安全,主动分析,安全预警。
摘要:随着各行业对网络数据的依赖,大量的数据信息需要存储、分析与信息转化。
2022年贺州供电局数据中心、智瞰平台、BI平台、以及人工智能技术支持下的用于服务总体规划、业务流程和其详细的功能需求,本文就供电企业的数据中心数据进行分析研究,建立功能结构,为后面的数据应用需求分析、设计、编码及测试提供可靠依据。
大数据分析可以及时反馈安全隐患,分析输电线路树障监控数据。
一、大数据有助于安全生产大数据是一个比较虚的概念,基于安全生产大数据的风险预警预控。
给出了安全生产大数据这一全新的概念,针对风险预警预控这一环节,提出了基于大数据的风险预警预控流程及优化措施,分析了将大数据相关技术应用于安全管理中的功能作用。
1、按照麦肯锡全球研究所的定义,大数据(Big data)是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据有4大特点:(1)数据规模巨大、(2)处理速度快、(3)数据类型多样、(4)数据价值密度低。
随着信息科技的不断发展和互联网技术的不断普及,许多先进的设备和技术被应用于安全生产管理过程中,同时也形成了体量巨大的安全生产大数据。
企业大数据分析研判报告(3篇)
第1篇一、摘要随着信息技术的飞速发展,大数据已经成为企业转型升级的重要驱动力。
本报告通过对某企业的大数据分析,旨在揭示企业运营中的潜在问题,为企业决策提供数据支持,助力企业实现可持续发展。
二、企业概况(以下内容需根据实际企业情况进行调整)某企业成立于20XX年,主要从事XX行业产品的研发、生产和销售。
经过多年的发展,企业已在全国范围内建立了完善的销售网络,市场份额逐年上升。
然而,随着市场竞争的加剧,企业面临着诸多挑战,如成本上升、产品同质化、客户需求多样化等。
三、数据分析方法本报告采用以下数据分析方法:1. 数据收集:通过企业内部管理系统、销售数据、客户反馈、市场调研等途径收集数据。
2. 数据清洗:对收集到的数据进行筛选、去重、填补缺失值等处理,确保数据质量。
3. 数据分析:运用统计学、机器学习等方法对数据进行分析,挖掘数据背后的规律和趋势。
4. 可视化展示:利用图表、图形等方式将分析结果直观展示,便于理解和决策。
四、数据分析结果1. 销售数据分析(1)销售趋势分析通过对销售数据的分析,发现企业销售额在近三年内呈现稳步增长的趋势,但增速有所放缓。
结合市场调研数据,分析原因如下:- 市场竞争加剧,导致产品售价下降;- 消费者需求多样化,企业产品更新换代速度较慢;- 市场推广力度不足,品牌知名度有待提高。
(2)区域销售分析通过对区域销售数据的分析,发现以下问题:- 部分区域市场占有率较高,但增长空间有限;- 部分区域市场占有率较低,但潜力巨大;- 区域销售差异较大,需加强对低市场占有率区域的开发。
(3)产品销售分析通过对产品销售数据的分析,发现以下问题:- 部分产品销售额较高,但利润率较低;- 部分产品销售额较低,但具有较高利润率;- 产品结构有待优化,需加大高利润率产品的研发和推广力度。
2. 客户数据分析(1)客户满意度分析通过对客户反馈数据的分析,发现以下问题:- 部分客户对产品质量表示满意,但对企业售后服务存在不满; - 部分客户对企业产品价格表示担忧,认为性价比不高;- 部分客户对企业品牌认知度较低,需加强品牌宣传。
大数据采集与分析在交通事故预警中的应用研究
大数据采集与分析在交通事故预警中的应用研究近年来,随着各类移动设备的普及、智能城市建设的推进,大数据技术被越来越广泛地运用到各个领域,交通领域也不例外。
大数据采集与分析技术可以帮助我们更好地理解交通事故的发生规律,提高事故预警能力,有助于减少交通事故的发生。
一,大数据采集与分析的优势在传统的交通事故统计方法中,我们通常采用的是人工收集、整理和分析交通事故数据,并根据统计数据来分析交通事故的规律。
然而,这种方法的缺点是数据采集效率低、依赖人工操作,容易出现数据错误和延误。
而使用大数据技术进行交通事故数据的采集和分析,则可以极大地提高信息的收集和处理效率,减少人为干预的可能,从而提高数据的准确性和实时性。
同时,还可以更加全面地搜集和整理交通事故数据,从而获得更为准确和全面的数据,为我们提供更加客观、准确的信息基础。
二,大数据在交通事故预警中的应用通过对交通事故数据进行管理、整理和分析,大数据技术可以为交通事故的预警提供更加有效的手段。
具体来说,大数据在交通事故预警中的应用主要包括以下几方面:(1)交通事故数据的采集和整理针对不同城市和地区的交通管理需求,可以通过大数据技术从相应的交通数据源中获取数据,包括车辆GPS数据、交通监测数据,以及交通安全管理部门统计的交通事故数据等。
这些数据可以通过相应的算法和模型进行处理和分析,从而得出有关交通事故的各种信息,为预警提供可靠的信息基础。
(2)交通事件的实时监测与预警将所采集的交通数据与交通事故的统计数据结合起来,在交通事件发生时,可以进行实时监测和预警。
通过分析历史数据,可以预测出交通事故可能发生的地点和时间,并对潜在的危险因素进行监测和分析,及时发出预警信息。
(3)隐患识别与预防通过对交通事故数据的分析,可以识别出交通安全的隐患问题,例如高发事故路段、易发生事故时段,或者其他交通安全隐患等。
有了这些信息,交通管理部门可以采取相应措施,对危险因素进行预防和避免,保障交通安全。
基于R计算智能技术的桌面用户大数据安全分析的研究
基于R计算智能技术的桌面用户大数据安全分析的研究∗陈立军ꎬ张㊀屹ꎬ蒋慧勇(广州大学华软软件学院软件工程系ꎬ广东广州510990)摘㊀要:大数据安全分析对于绝大多数桌面用户来说ꎬ用户的成本以及对强大的IT基础设施的需求都是不能接受的ꎬ并且难以应用于快速增长的数据集以进行安全性分析ꎮ介绍了一种直观且廉价的大数据安全分析方法ꎬ该方法使用Win ̄dows桌面用户的计算智能(CI)技术ꎬ其中Windows批处理编程EmEditor和R的组合用于安全性分析ꎮ模拟实验是在具有超过1000万个观测值的真实数据集上执行的ꎬ这些数据集是从Windows防火墙日志中收集ꎬ用于演示桌面用户如何深入了解其丰富且未触及的数据ꎬ并提取有用信息以防止其系统受当前和未来安全保护威胁ꎮ这种基于CI的大数据安全分析方法还可以扩展到其他类型的安全日志㊁例如事件日志ꎬ应用程序日志和Web日志ꎮ关键词:大数据ꎻ安全分析ꎻ计算智能技术ꎻRꎻ桌面用户ꎻWindows防火墙日志中图分类号:TP393㊀㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀DOI:10.19358/j.issn.2096 ̄5133.2019.06.006引用格式:陈立军ꎬ张屹ꎬ蒋慧勇.基于R计算智能技术的桌面用户大数据安全分析的研究[J].信息技术与网络安全ꎬ2019ꎬ38(6):26 ̄35.ResearchonbigdatasecurityanalysisofdesktopusersbasedonRcomputingintelligenttechnologyChenLijunꎬZhangYiꎬJiangHuiyong(DepartmentofSoftwareEngineeringꎬSouthChinaInstituteofSoftwareEngineeringofGuangzhouUniversitityꎬGuangzhou510990ꎬChina)Abstract:Bigdatasecurityanalyticsareoftenusedtoanalyzelargeamountsofsecuritydatafromacompanyinternalperspectiveꎬrequi ̄ringarobustITinfrastructureandexpensivedataanalysistools.FormostdesktopusersꎬusercostandtheneedforastrongITinfra ̄structureareunacceptableꎬitmaybeconsideredimpossibleanddifficulttoapplytofast ̄growingdatasetsforsecurityanalysis.Thisar ̄ticleintroducesanintuitiveandinexpensivebigdatasecurityanalysismethodthatusesthecomputationalintelligence(CI)technologyofWindowsdesktopusersꎬwherethecombinationofWindowsbatchprogrammingEmEditorandRisusedforsecurityanalysis.Simula ̄tionexperimentswereperformedonrealdatasetswithmorethan10millionobservationscollectedfromWindowsFirewalllogstodem ̄onstratehowdesktopuserscandrilldownintotheirrichanduntoucheddataandextractusefulinformation.Toprotectitssystemsfromcurrentandfuturesecuritythreats.ThisCI ̄basedbigdatasecurityanalysismethodcanalsobeextendedtoothertypesofsecuritylogsꎬsuchaseventlogsꎬapplicationlogsꎬandweblogs.Keywords:bigdataꎻsecurityanalysisꎻcomputingintelligenceꎻRꎻdesktopusersꎻWindowsfirewalllogs∗基金项目:2017年广东省外经贸专项基金(2160699 ̄87)ꎻC++程序设计实践教学改革(SYJG201803)0㊀引言由于防火墙日志㊁事件日志㊁应用程序日志㊁Web日志和许多其他安全日志等形式的不同安全工具生成了大量数据ꎬ安全性分析对于桌面用户来说正变得越来越复杂ꎬ有效处理这些收集的数据需要大量的系统资源和功能强大的分析工具ꎮ但是ꎬ传统的系统和工具无法处理和分析这些大型非结构化的数据ꎮ在没有适合这些大型数据集的处理机制的情况下ꎬ有价值的数据集可能变得无用ꎬ并且构成其他重要应用程序的资源开销ꎮ因此ꎬ桌面用户需要易于实施且价格低廉的大数据安全分析方法ꎬ以满足其数据处理要求ꎮ然而ꎬ由于其成本和对系统的要求ꎬ大多数安全分析解决方案对普通桌面用户来说是不可承受的ꎻ加之使用复杂ꎬ许多普通用户都是未经培训的IT用户ꎬ或者不愿接受长期复杂的IT应用培训ꎬ因此ꎬ桌面用户需要相对简单㊁经济且资源有效的数据分析方法ꎮR是一个开源数据分析工具ꎬ由各种CI包组成ꎬ用于高级数据分析ꎬ但是ꎬ它需要对任何数据分析所需的统计数据有基本的了解ꎬR可能不适用于数据收集或清洁功能ꎬ但可以通过一些其他支持工具用于各种分析ꎮ本文介绍了一种直观且廉价的安全分析方法ꎬ该方法在RforWindows桌面用户中使用CI技术ꎮWindows桌面的选择是其受欢迎的结果ꎬ其中安装的MicrosoftWindows操作系统占据了大约70%的计算机操作系统市场[1]ꎮ因此ꎬWindows桌面用户数量很多ꎬ如果Windows桌面用户可以找到或设计一个易于实施且价格低廉的大数据安全分析解决方案ꎬ那么他们就可以分析非常大的安全日志来提取有意义的安全信息ꎬ从而提高系统安全性ꎬ使其更加强大[2 ̄3]ꎮ在这种提议的安全分析方法中ꎬWindows批处理编程EmEditor(可以用任何强大的编辑器替换)和R的组合用于桌面用户分析的目的ꎮR主持了几个与人工神经网络㊁进化算法㊁模糊系统和混合智能系统相关的CI软件包ꎬ用于设计智能系统ꎮ此安全性分析方法涉及多个阶段ꎬ其中使用Windows批处理脚本执行数据收集和合并ꎬ使用EmEditor进行数据清理和编辑ꎬ最后ꎬR用于构造数据ꎬ使用CI技术执行分析㊁可视化和解释结果ꎮ实验模拟基于1006889160B(1.01GB)的实际数据集ꎬ具有超过1000万个观测值(从Windows防火墙日志中收集30天)ꎮ随后ꎬ对收集的Windows防火墙日志执行安全性分析ꎬ以演示桌面用户如何深入了解其丰富且未触及的数据并提取有用信息ꎬ以防止其系统受到当前和未来的安全威胁[2]ꎮ这种基于CI的大数据安全分析方法还可以扩展到其他类型的安全日志ꎬ例如事件日志㊁应用程序日志和Web日志ꎮ本文首先解释了数据分析工具R㊁Windows防火墙和模糊推理的理论背景ꎻ然后说明了所提出的安全分析方法的设计和实施过程ꎬ包括其各个阶段:收集和合并日志㊁清理和编辑日志㊁将文本日志转换为R表结构㊁使用CI技术分析R数据集以及可视化和解释结果ꎻ接着解释了这种方法对桌面用户的大数据可扩展性ꎻ最后提出了未来的延伸领域ꎮ1㊀理论背景1.1㊀RR是一种开源统计计算和数据可视化软件工具ꎬ适用于所有主要操作系统ꎬ如UNIX㊁Windows和MacOS平台ꎮR包括数据处理设施ꎬ用于矩阵计算的优越机制㊁过多的数据分析和图形包以及简单的编程语言[4]ꎮR最强大的特征是对外部包的支持ꎮ目前ꎬR已经通过CRAN系列的互联网网站整合了大约5000个包[5]ꎮR还拥有多个与人工神经网络㊁演化算法㊁模糊系统和混合智能系统相关的CI软件包ꎬ用于设计智能系统ꎮ因此ꎬ将R与一些数据收集和清理工具相结合可以为桌面用户提供潜在的数据分析解决方案ꎮR被许多官方统计机构用作常规统计生产的计算工具ꎮ除官方统计外ꎬ它还被用于金融㊁零售㊁制造㊁科学和学术研究等许多领域ꎬ这使其成为统计学家和研究人员的热门工具[4]ꎮ1.2㊀Windows防火墙自WindowsXPSP2发布以来ꎬMicrosoft在Win ̄dows操作系统中嵌入了防火墙实用程序ꎬ现在可用于所有版本的Windowsꎬ具有 高级安全性 功能的Windows防火墙是一种状态防火墙ꎬ可检查和过滤IPv4和IPv6流量的所有数据包ꎬ数据包过滤过程基于用户或管理员定义的规则ꎬ并在此基础上允许或阻止网络流量ꎮ防火墙会自动阻止所有传入流量ꎬ除非它是对主机请求的响应ꎬ或者通过编写防火墙规则特别允许ꎮWindows防火墙还可以为特定端口号㊁应用程序名称㊁服务名称或其他基于标准的流量配置 高级安全性 ꎬ然后可以明确允许这种流量[6]ꎮ这些功能专为需要在企业环境中管理网络安全性的高级用户而设计ꎬ它通常不适用于家庭网络ꎮ1.3㊀模糊推理模糊推理是从现有模糊规则库中导出逻辑结论的过程[7]ꎬ它模仿人类思维总结数据的能力ꎬ并专注于决策相关信息[8]ꎮ模糊推理对于那些由于不确定性㊁不可预测的动力学和其他未知现象ꎬ无法用精确的数学术语或模型来定义系统的有效和有用[9]ꎮ在网络安全中ꎬ大部分信息和流量数据本质上是不完整和不精确的ꎬ因此ꎬ模糊推理比其他类型的推理方法更为合适[10 ̄13]ꎮ模糊推理基于模糊规则库ꎬ可以由主题专家推导出来ꎬ也可以通过规则归纳过程从数据中提取出来ꎮ如果模糊规则库是一个密集的规则库ꎬ则可以使用任何规则推断方法ꎬ如Mamdani推理[14]或Takagi ̄Sugeno推理[15]ꎮ2㊀利用R中的计算智能技术对WINDOWS防火墙进行安全性分析由于系统资源和IT技能的限制ꎬ桌面用户的安全性分析是一项具有挑战性的任务ꎮ因此ꎬ本节介绍了为桌面用户提供的基于CI的大数据安全分析方法的设计和实现ꎬ以便在其限制内执行安全性分析ꎮ此安全性分析仅关注Windows桌面用户ꎬ该实验在Windows7操作系统和桌面上进行配置(处理器为IntelCorei73.0GHz(4核)ꎬRAM为16GBꎬL2Cache为8MBꎬ以太网为100Mb/s)ꎬ此安全性分析需要两个软件工具:EmEditor和R(使用RStu ̄dioIDE)ꎮ与其他安全分析不同ꎬ任何具有统计学基础知识和基本IT技能的用户都可以在没有任何技术培训的情况下进行安全分析ꎬ这种面向桌面的安全分析方法有几个阶段ꎬ如图1所示ꎮ各个阶段的描述如下ꎮ2.1㊀使用Windows批处理脚本收集和合并Win ̄dows防火墙日志默认情况下ꎬWindows防火墙日志记录在 pfire ̄wall.log 中ꎬ pfirewall.log 文件的最大大小为4096KBꎬ超过此限制后ꎬ会将日志保存在名为 pfirewall.log.old 的备份文件中ꎬ该文件为4096KBꎮ两个日志文件都不会超出此大小ꎬ并且当 pfirewall.log 文件再次超过最大限制时ꎬ将删除旧的日志条目ꎬ以便为新创建的日志条目腾出空间ꎮ在Windows防火墙日志的安全性分析中ꎬ需要一个合理的日志文件来执行大量分析ꎬ并且通过编写Windows批处理脚本以最简单的方式创建ꎬ如图2所示ꎬ此批处理脚本在后台工作完成实验的一段时间ꎬ最初ꎬ mergedLog 文件是使用包含 pfirewall.log 文件的所有17个默认变量的标题ꎮ最后ꎬ在逐渐日志记录过程中获得了具有超过1000万个观测值的1006889160B(1.01GB)的 mergedLog 文件ꎮ图1㊀用于分析Windows防火墙日志的大数据安全性分析方法的阶段图2㊀用于创建Windows防火墙日志的mergedLog文件的Windows批处理脚本㊀㊀把 mergedLog 文件内容复制到EmEditor(有些用户关闭了防火墙的功能ꎬ导致找不到mergedLog文件)ꎬ但是ꎬ仍需要手动检查 mergedLog 文件以用于各种目的ꎬ并根据R的要求进行对齐ꎬ如果 mergedLog 文件不适合R格式ꎬ则R可能会生成错误消息ꎬ并且无法导入数据ꎬ因此ꎬ mergedLog 文件中的主要清理和编辑任务是检查两个字段之间的空格ꎬ并根据需要对齐ꎮ图3㊀在EmEditor中清理和编辑mergedLog文本文件2.2㊀使用EmEditor清理和编辑 mergedLog 文本文件通常ꎬ收集的数据可能不正确㊁不完整㊁格式不正确或重复ꎬ需要清理和编辑才能去除这些杂质[16 ̄17]ꎮ虽然日志文件是一个简单文本文件ꎬ但Notepad++和其他桌面编辑器无法处理样品非常大的文本文件ꎬ而EmEditor可以轻松处理高达248GB的文件大小[18]ꎮ对于此分析ꎬ使用EmEditor清理和编辑 mergedLog 文件(大于1GB)ꎬ如图3所示ꎬ mergedLog 文件的创建方式与 pfirewall.log.old 的前五行相同ꎮ2.3㊀将 mergedLog 文本文件转换为R表结构R支持基于R数据帧的表格式数据结构ꎬ因此ꎬ数据帧是R中的基本数据结构ꎬread.table()以表格格式读取文件并从中创建数据帧ꎬ该函数的语法如公式1所示:数据框名称=read.table(文件名ꎬ标题=F/Tꎬsep= )(1)其中 标题 是一个逻辑值ꎬ表示文件是否包含变量名并作为第一行ꎬ sep 是字段分隔符ꎬ在该实现中ꎬ使用read.table()函数将合并的日志文件 mergedLog 转换为表格类型的数据结构ꎬ如图4所示ꎮ图4㊀在R中创建 mergedLogDataSet如果合并日志文件的结构ꎬ标题和内容准确ꎬ则在R中创建一个名为 mergedLogDataSet 的数据集ꎬ如图5所示ꎮ该数据集显示在RStudioIDE的 环境和历史窗格 中ꎬ并包含10866240个观测值和17个类似于防火墙标题变量的变量ꎬ merged ̄LogDataSet (参见图6)的实际表结构可以在 脚本编辑器菜单 中看到ꎮ通过 str 命令可以看到该 mergedLogDataSet 的结构相关信息ꎬ如图7所示ꎮ这个 mergedLogDataSet 是直接从Windows防火墙合并日志文本文件创建的ꎬ因此ꎬ所有17个变量的数据类型都是 因子 ꎬ这种数据类型信息对于大多数统计分析来说非常重要ꎬ因为 因子 是R中的分类数据ꎬ对于许多计算模型ꎬ它需要转换为数值数据ꎮ2.4㊀使用CI技术对mergedLogDataSet进行安全性分析根据需求ꎬ不同用户的安全性分析的主要目的可能不同ꎬ此特定分析侧重于总结 mergedLog ̄DataSet 以提取重要信息ꎬ使用零假设和二项分析确定桌面的安全状态ꎬ根据目标协议和IP地址调查细节异常ꎬ设计智能系统来预测攻击风险ꎮ(1)用于安全性分析的Windows防火墙规则:基于规则的流量数据被收集在 pfirewall.log 文件中ꎬ创建了两个入站规则来阻止特定流量的两台特定计算机ꎬ如图8所示ꎮ创建第一条规则是为了阻止计算机ꎬIP地址为192.168.0.50ꎬ仅用于ICMP数图5㊀使用观察数和变量数创建 mergedLogDataSet据包ꎻ第二条规则用于计算机的IP地址192.168.0.51ꎬ仅用于TCP数据包ꎮ因此ꎬ在日志生成期间可以记录足够的丢弃活动ꎮ同样ꎬ为了停止主机端的某些活动(192.168.0.154)ꎬ还创建了一个出站规则来阻止传出的ICMP数据包到其他计算机ꎬ如图9所示ꎮ这些阻塞规则在防火墙中产生了足够的 丢弃 流量ꎮ(2)Windows防火墙日志的初步统计分析:R中最简单的数据分析命令是 摘要 命令ꎬ它提供有关给定数据集的合理统计信息ꎬ但是ꎬ它可能不足以进行详细调查或预测未来趋势ꎮ因此ꎬ根据研究的性质ꎬ可能需要一些高级分析包ꎬ如图10所示ꎬsum ̄mary命令显示了很少有关 mergedLog 文件的统计信息ꎬ这对于进一步调查非常有用ꎬ此摘要包括与日期㊁时间㊁操作㊁协议㊁源地址㊁目标地址㊁源端口和目标端口相关的信息ꎬ这些信息非常清晰且易于理解ꎮ图6㊀R中 mergedLogDataSet 的表结构图7㊀创建了包含观察和变量数量的 mergedLogDataSet图8㊀IP地址分别为192.168.0.50和192.168.0.51的传入ICMP和TCP丢弃规则图9㊀主机IP地址192.168.0.154的传出ICMP丢弃规则图10㊀ mergedLogDataSet 的摘要分析㊀㊀(3)零假设和二项精确分析:所提出的摘要分析只是表面数据ꎬ防火墙日志变得非常巨大ꎬ普通用户很难从该防火墙日志中提取有意义的安全信息ꎮ用户的第一步是确定收集的流量数据是否接近正常/理想流量水平ꎬ因此ꎬ需要不同的统计分析来评估桌面的当前安全状态ꎬR中的零假设是最简单的分析ꎬ用于比较数据的统计显著性ꎬ而不会使分析与进一步的细节复杂化ꎬ任何防火墙的核心操作都是根据规则允许或丢弃数据包ꎬ为此ꎬ table() 函数显示每个因子级别组合的计数表ꎬ在图11中ꎬtable()函数显示并简化了针对所有10866240数据包的防火墙操作ꎬ其中7952160数据包是 允许的 ꎬ2913840数据包是 丢弃 的ꎮ因此ꎬ基于允许的分组数(成功)ꎬ构造零假设以确定收集的业务状态/级别ꎮ图11㊀允许㊁丢弃和丢失数据包的摘要在零假设中ꎬ当所有数据包(10866240)可以允许检查两个样本之间的统计相似性时ꎬ将允许数据包的数量(7952160)与理想流量状况进行比较ꎬ以便可以使用其理想评估桌面安全级别交通状况ꎬ当显著性水平=0.05且置信水平=95%时ꎬprop.test()函数给出的p值为2.2ˑ10-16(即ꎬR中的p值<.Ma ̄chineMYMdouble.eps)ꎬ如图12中所示ꎬ该值实际上接近于零并且远小于显著性水平的值(0.05)ꎬ另外ꎬ值0不在置信区间(0.2684409和0.2679139)内ꎬ因此ꎬ相关性具有统计学意义ꎬ并且零假设被高度拒绝ꎮ该结果表明桌面当前的流量状况不正常ꎬ因此需要对攻击/威胁的类型进行进一步的详细调查ꎮ图12㊀基于允许的流量确定桌面安全状态的空假设分析零假设检验的结果也通过R中的二项精确检验精确地验证ꎬ在图12中ꎬ成功的概率是0.7318226ꎬ因此ꎬ使用binom.test()函数计算二项精确值ꎬ如图13所示ꎬ但是ꎬp值与prop.test()函数计算的先前p值相同ꎬ两个测试均拒绝零假设ꎬ显著性水平=0.05ꎬ置信水平=95%ꎬ因此ꎬ需要进行进一步的详细分析ꎬ以获得对桌面的风险和攻击的性质ꎮ(4)ICMP/TCP/UDP数据包和IP地址分析:零假设和二项分析导致进一步调查防火墙日志以确定安全漏洞的原因ꎬ在图10所示的摘要分析结果中ꎬ可以容易地观察到协议和IP地址相关信息ꎬ并且可以用于分析原因ꎬ图14显示了总ICMP㊁TCP和UDP的汇总表ꎮ图13㊀二项精确分析ꎬ根据允许的流量确定桌面安全状态图14㊀总ICMPꎬTCP和UDP数据包的摘要在Windows防火墙中ꎬ可用的协议选项是TCP㊁的分组(参见图11中的信息 ̄事件 ̄丢失)ꎮ图15和16显示了两个协议ICMP和TCP以及两个IP地址为192.168.0.50和192.168.0.51的计算机系统的详细分析ꎬIP地址为192.168.0.50的系统在实验期间仅在最长时间内阻止ICMP数据包ꎬ但在整个持续时间内均未阻止ꎬ因此ꎬ图15指出了几乎所有ICMP分组(350640)作为丢弃的分组ꎬ其中源IP地址是192.168.0.50ꎬ为主机(192.168.0.154)编写了另一条规则来停止任何传出的ICMP数据包ꎬ因此ꎬ所有532800数据包都被丢弃ꎬ试图发送到目标IP地址192.168.0.50ꎬ但是ꎬ允许其他TCP和UDP数据包通过防火墙ꎬIP地址为192.168.0.51的系统被阻止ꎮ图15㊀IP地址192.168.0.50的协议摘要图16㊀IP地址192.168.0.51的协议摘要图16示出几乎所有TCP分组(1507680)作为丢弃分组ꎬ其中源IP地址是192.168.0.51ꎬ先前为主机(192.168.0.154)编写的规则ꎬ以阻止任何传出的ICMP数据包在此处强制执行ꎬ因此ꎬ所有522720数据包都被丢弃ꎬ试图发送到目标IP地址192.168.0.51ꎬ但是ꎬ允许其他TCP和UDP数据包通过防火墙ꎮ(5)设计用于预测攻击风险的模糊推理系统:分析通常需要建模和开发智能系统以用于未来的事件响应和预防目的[19]ꎮR包含几个与人工神经网络㊁进化算法㊁模糊系统和混合智能系统相关的CI软件包ꎬ用于设计智能系统ꎮ在R中使用这些CI技术相对容易ꎬ使用集合包(参见图17)设计模糊推理系统ꎬ以基于先前的分析来预测攻击的风险ꎬ如图18㊁图19㊁图20所示ꎮ图17㊀用于在R中设计模糊推理系统的集合包的安装图18㊀在R中定义语言模糊变量图19㊀在R中设计模糊规则库图20㊀R中的结果模糊推理系统对 mergedLog 文件及其数据集的详细分析表明ꎬ除了防火墙规则之外ꎬICMP和TCP数据包的速率可以帮助系统预测未来的攻击风险ꎬ随后ꎬ对于该主机的基线ꎬ确定ICMP分组的范围(0~2000分组/秒)和TCP分组(0~8000分组/秒)以确定正常和异常的业务状况ꎬ基线信息用于设计两个模糊输入变量icmprate和tcprateꎬ其进一步的细节可以在文献[10 ̄13]中找到ꎬ基于这两个模糊输入变量ꎬ确定模糊输出变量攻击风险ꎬ以百分比(0~100%)预测攻击风险ꎮ预测攻击的风险:此系统可与防火墙规则一起使用ꎬ以预测Windows防火墙中无法实现的攻击的可能性和级别ꎬ其进一步的细节可以在文献[10 ̄13]中找到ꎮR中模糊智能系统的这种简单易行的设计可以监控和预测攻击风险ꎬ这只是R强度及其对CI技术支持的一个例子ꎮ进化算法和混合智能系统也可以以相同的方式用于设计各种智能系统ꎬ另外ꎬ可以根据特定主机/网络的要求来调整和操纵基线分析和参数范围ꎮ2.5㊀使用R中的图表对安全性分析结果进行可视化解释R是一个强大的数据可视化工具ꎬ由于许多外部软件包ꎬ如ggplot2㊁vcd或hexbinꎬ用于增强信息的图形显示[20]ꎮ使用简单的内置图形函数 plot呈现了一些主要发现ꎬ然而ꎬ高级包 ggplot2 也可用于更具信息性和吸引力的表示ꎮ图21表示绘图命令ꎬ图22描述了其关于所有允许㊁丢弃和丢失分组的结果信息ꎬ其显示桌面允许73%的分组与丢弃的27%的分组相比ꎮ图23表示绘制源IP地址及其相应动作的绘图命令ꎮ图24显示了从特定源IP地址允许或丢弃了多少分组的绘图命令的结果图ꎮ红色和绿色分别显示该源IP地址的允许和丢弃数据包ꎮ图21㊀绘制允许和丢弃数据包的绘图命令图22㊀允许和丢弃数据包的图示图23㊀用于绘制源IP地址和相应操作的绘图命令㊀㊀类似地ꎬ图25表示绘制目的地IP地址及其相应动作的绘图命令ꎬ图26指出了针对特定目的地IP地址允许或丢弃了多少分组的绘图命令的结果图ꎬ红色显示允许的数据包ꎬ青色显示该目标IP地址的丢弃数据包ꎬ在所有安全性分析中ꎬ分析的性质及其解释由用户/分析师确定ꎮ3㊀桌面用户的大数据可扩展性桌面用户的任何大数据分析方法都应该能够应对不断增加的数据量及其有效处理ꎬ今天的台式机包括多核处理器和增加的内存ꎬ因此ꎬ大数据分析方法应优化处理器和内存资源的使用ꎮR被用于提出的方法ꎬ但需要额外软件包的支持才能优化使用处理器和内存[21 ̄22]ꎮR被设计为一次只使用一个线程(处理器)ꎬ除非与多核/多线程库相关联ꎬ否则R的运行方式相同[21]ꎮ为了利用多核ꎬR需要支持与高性能和并行计图24㊀源IP地址和相应操作的图示图25㊀用于绘制目标IP地址和相应操作的绘图命令算(HPPC)相关的附加软件包[23]ꎮ在R中有几个可用于并行处理的包ꎬ例如并行㊁多核㊁Rmpi㊁pbdM ̄PI㊁Rborist㊁h2o㊁randomForestSRC㊁Rdsm和Rhpcꎮ包 并行 基于包 mul ̄ticore 和 snow 构建ꎬ并提供了这些包的大部分功能的替代[24]ꎮ程序包 并行 处理并行运行更大的计算块ꎬ典型的例子是在许多不同的数据集上评估相同的R函数ꎬ对于Windows桌面用户ꎬMicrosoftROpen包含多线程数学库以提高R的性能ꎬ并且适用于所有操作系统(Windows/UNIX/Mac)[25]ꎮ这些库使得几种常见的R操作(例如矩阵乘法/逆矩阵㊁矩阵分解和一些更高级别的矩阵操作)可以并行计算并使用所有可用的处理能力来减少计算时间[26]ꎮ图26㊀目标IP地址和相应操作的图示㊀㊀大型数据集也需要大量内存ꎬ如果文件大小与系统的现有存储器相比非常大ꎬ则可以使用 ff 包来执行有效和快速的数据处理ꎬ ff 包提供了存储在磁盘上的数据结构ꎬ但它们就像在RAM中一样ꎬ只透明地映射主内存中的一个部分(页面)[27]ꎮ处理不断增加的数据量的另一个解决方案是 大 软件包系列ꎬ它由几个软件包组成ꎬ用于在大型数据集上执行任务ꎬ如bigmemory[28]㊁biganalytics㊁big ̄tabulate㊁synchronicity和bigalgebra[22]ꎮ4 结论本文介绍了一种直观且廉价的大数据安全分析方法ꎬ该方法使用针对Windows桌面用户的计算智能(CI)技术ꎬ基于Windows批处理脚本EmEditor和R的组合ꎮ这种安全分析方法是在1006889160B(1.01GB)的真实数据集上进行的ꎬ超过1000万次观察ꎬ这些观察在Windows防火墙日志文件 pfirewall.log 中收集并在30天内整合到 merged ̄Log 文件中ꎮ这种面向桌面的安全分析可以成功地推断出桌面的安全状态ꎬ以及安全漏洞的来源和原因ꎮ在分析结果的基础上ꎬ设计了一个模糊推理系统来预测攻击风险并保护桌面ꎮ这种安全分析方法及其在适度桌面配置上的成功实施ꎬ显示了所提出方法的潜力ꎮ但是ꎬ这种特殊的实现仅限于基于某些防火墙规则㊁少数协议和IP地址的模拟数据ꎮ扩展规则和领域并收集外部流量以使这种方法成为一种通用的安全分析方法ꎬ是今后努力的方向ꎮ参考文献[1]W3schools.com.OSplatformstatisticsandtrends[EB/OL].(2016 ̄ˑˑ ̄ˑˑ).http://www.w3schools.com/browsers/browsersos.asp?id=100.[2]CARVEYH.Windowsforensicanalysistoolkit:advanceda ̄nalysistechniquesforWindows8[M].Amsterdam:Elsevi ̄erꎬ2014.[3]CAVOUKIANAꎬJONASSJ.Privacybydesignintheageofbigdata.Informationandprivacycommissionerofontar ̄io[M].Canadaꎬ2012.[4]OANCEABꎬDRAGOESCUSRM.IntegratingRandha ̄doopforBigdataanalysis[EB/OL].(2014 ̄07 ̄18).ht ̄tps://arxiv.org/abs/1407.4908.[5]Cran.r ̄project.org.ThecomprehensiveRarchivenet ̄work[EB/OL].(2012 ̄05 ̄10).https://cran.r ̄project.org/.[6]Microsoft.com.Overviewofwindowsfirewallwithadvancedtechnet.microsoft.com/library/6ff0e320 ̄0369 ̄496a ̄8f1f ̄0b7224c7f857.aspx.[7]ZADEHLA.Fuzzysets[J].Information&Controlꎬ1965ꎬ8(3):338 ̄353.[8]NAIKNꎬDIAORꎬCHAIQꎬetal.Towardsdynamicfuzzyruleinterpolation[C].IEEEInternationalConferenceonFuzzySystems.IEEEꎬ2013.[9]NAIKNꎬDIAORꎬSHENQ.Geneticalgorithm ̄aideddy ̄namicfuzzyruleinterpolation[C].IEEEInternationalConferenceonFuzzySystems.IEEEꎬ2014.[10]NAIKN.Fuzzyinferencebasedintrusiondetectionsys ̄tem:FI ̄Snort[C].IEEEInternationalConferenceonDe ̄pendableꎬAutonomicandSecureComputingꎬ2015. [11]NAIKNꎬJENKINSP.Fuzzyreasoningbasedwindowsfire ̄wallforpreventingdenialofserviceattack[C].IEEEIn ̄ternationalConferenceonFuzzySystemsꎬ2016. [12]NAIKNꎬDIAORꎬSHENQ.Applicationofdynamicfuzzyrulein ̄terpolationforintrusiondetection:D ̄FRI ̄Snort[C].IEEEInternationalConferenceonFuzzySystemsꎬ2016. [13]NAIKNꎬJENKINSP.Enhancingwindowsfirewallsecurityusingfuzzyreasoning[C].IEEEInternationalConferenceonDependableꎬAutonomicandSecureComputingꎬ2016. [14]MAMDANIEHꎬASSILINAS.Anexperimentinlinguisticsynthesiswithafuzzylogiccontroller[J].InternationalJournalofMan ̄MachineStudiesꎬ1975ꎬ7(1):1 ̄13. [15]TAKAGITꎬSUGENOM.Fuzzyidentificationofsystemsanditsapplicationstomodelingandcontrol[C].IEEETransactionsonSystemsꎬManandCyberneticsꎬ1985. [16]FISHERDꎬDELINERꎬCZERWINSKIMꎬetal.Interac ̄tionswithBigdataanalytics[C].Interactionsꎬ2012. [17]NAJAFABADIMMꎬVILLANUSTREFꎬKHOSHGOFTA ̄ARTMꎬetal.Deeplearningapplicationsandchal ̄lengesinBigdataanalytics[J].BigDataꎬ2015(2):1 ̄22. [18]Emeditor.com.Texteditorforwindows[EB/OL].(2015 ̄ˑˑ ̄ˑˑ).https://www.emeditor.com/.[19]ALFAROJGꎬBOULAHIA ̄CUPPENSNꎬCUPPENSF.Completeanalysisofconfigurationrulestoguaranteerelia ̄blenetworksecuritypolicies[J].InternationalJournalofInformationSecurityꎬ2008(7):102 ̄123.[20]CHOWꎬLIMYꎬLEEHꎬetal.Bigdataanalysiswithin ̄teractivevisualizationusingRpackages[C].Proceedingsofthe2014InternationalConferenceonBigDataScienceandComputing.ACMꎬ2014.[21]ROSARIOSRR.TakingRtothelimitꎬPartI:Paralleliza ̄tion[EB/OL].(2010 ̄07 ̄27).http://www.bytemining.com/wp ̄content/uploads/2010/07/rhpc.pdf. [22]TakingRtothelimitꎬPartII:Workingwithlargedata ̄sets[EB/OL].(2010 ̄08 ̄17).http://www.bytemin ̄ing.com/wp ̄content/uploads/2010/07/rhpc.pdf. [23]EDDELBUETTELID.Crantaskview:high ̄performanceandparallelcomputingwithR[EB/OL].(2016 ̄10 ̄10).https://cran.r ̄project.org/web/packages/bigmemory/in ̄dex.html.[24]R ̄core.Packageparallel[EB/OL].(2015 ̄12 ̄04).ht ̄tps://stat.ethz.ch/R ̄manual/R ̄devel/library/parallel/doc/parallel.pdf.[25]Mran.microsoft.com.MicrosoftRopen:TheenhancedRdistribution[EB/OL].(2016 ̄09 ̄01).https://mran.mi ̄crosoft.com/open/.[26]AboutmicrosoftRopen:theenhancedRdistribution[EB/OL].(2016 ̄09 ̄01).https://mran.revolutionanalytics.com/rro/. [27]Cran.r ̄project.org.Ff:memory ̄efficientstorageoflargedataondiskandfastaccessfunctions[EB/OL].(2014 ̄04 ̄09).https://cran.r ̄project.org/web/packages/ff/in ̄dex.html.[28]KANEMJꎬEMERSONSJWꎬHAVERTYPꎬetal.Big ̄memory:managemassivematriceswithsharedmemoryandmemory ̄mappedfiles[EB/OL].(2016 ̄03 ̄28).ht ̄tps://cran.r ̄project.org/web/packages/bigmemory/in ̄dex.html.(收稿日期:2019 ̄04 ̄29)作者简介:陈立军(1974-)ꎬ男ꎬ硕士ꎬ讲师ꎬ主要研究方向:大数据㊁信息安全㊁网络安全ꎮE ̄mail:372158286@qq.com张屹(1972 ̄)ꎬ男ꎬ博士ꎬ副教授ꎬ主要研究方向:软件工程ꎮ蒋慧勇(1981 ̄)ꎬ男ꎬ硕士ꎬ主要研究方向:互联网应用ꎮ。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这一篇应该是比较容易引起争议地,大家现在乐于说看见(visibility )地力量,如何看到却是一个尚在探索中地问题•数据是看到地基础条件,但是和真正地看见还有巨大地差距.我们需要看到什么?什么样地方法使我们真正看到?安全分析和事件响应网络空间地战斗和现实世界有很大地相似性,因此往往可以进行借鉴•美国空军有一套系统理论,有非常地价值,值得深入思考并借鉴,它就是OODA周期模型:b5E2RGbCAP 观察(Observe):实时了解我们网络中发生地事件•这里面包括传统地被动检测方式:各种已知检测工具地报警,或者来自第三方地通报(如:用户或者国家部门)•但我们知道这是远远不够地,还需要采用更积极地检测方式•即由事件响应团队基于已知行为模式、情报甚至于某种灵感,积极地去主动发现入侵事件•这种方式有一个很炫地名字叫做狩猎.plEanqFDPw定位(Orient):在这里我们要根据相关地环境信息和其他情报,对以下问题进行分析:这是一个真实地攻击吗?是否成功?是否损害了其它资产?攻击者还进行了哪些活动?DXDiTa9E3d决策(Decision):即确定应该做什么.这里面包括了缓解、清除、恢复,同时也可能包括选择请求第三方支持甚至于反击•而反击往往涉及到私自执法带来地风险,并且容易出错伤及无辜,一般情况下不是好地选择• RTCrpUDGiT行动(Action ):能够根据决策,快速展开相应活动•OODA模型相较传统地事件响应六步曲(参见下图),突出了定位和决策地过程,在现今攻击技术越来越高超、过程越来越复杂地形势下,无疑是必要地:针对发现地事件,我们采取怎样地行动,需要有足够地信息和充分地考量.5PCzVD7HxA在整个模型中,观察(对应下文狩猎部分)、定位与决策(对应下文事件响应)这三个阶段就是属于安全分析地范畴,也是我们下面要讨论地内容,附带地也将提出个人看法,关于大数据分析平台支撑安全分析活动所需关键要素• jLBHrnAILg狩猎(hunting )近两年狩猎地概念在国际上比较流行,被认为是发现未知威胁比较有效地方式•如何做到在信息安全领域地狩猎,也是和威胁情报一样热门地话题.XHAQX74J0X和数据收集阶段一样,狩猎中也需要“以威胁为中心” 地意识•我们需要了解现今攻击者地行为模式,需要开发有关潜在攻击者地情报(无论是自身研究或者第三方提供),同时狩猎团队也需要评估内部项目和资源,以确定哪些是最宝贵地,并假设攻击者要攻陷这些资源为前提进行追捕.LDAYtRyKfE单纯地依赖这个原则,也许并不能让你真正拥有“visibility ”地能力,我们还需要接受更多地挑战,包括传统基于攻击特征地思维方式必须改变,建立新地思维方式是成功地基础.Zzz6ZB2Ltk1、从线索出发,而不是指标或签名:安全分析,注重相关性,然后再考虑确定性,这背后有其深层地原因.误报和漏报是一对不可完全调和地矛盾,虽然在个别方面存在例外(基于漏洞地签名往往准确率较高,同时也可以对抗很多逃逸措施,是检测从IDS时代走向IPS地关键技术前提).在发现未知地旅途中,如果直接考虑确定性证据,会错失很多机会.dvzfvkwMI1 因此在狩猎地场景之下,安全分析员需要地是线索,线索只能代表相关性,而不是确定性,安全分析地过程需要将一连串地线索穿起来,由点及面进而逼近真相.举个例子:超长会话连接很难确定是攻击但和CnC往往有关联,一些分析人员就会选择它作为起点地线索.如果从这点出发、更多地线索出现了,连接地域名是最近新注册地,并且访问量很少,还有就是流量在80端口却不是标准地HTTP协议等,随着不断地发现,确定性在增加,最终通过进一步地方式我们可以确认攻击行为.rqyn14ZNXI2、换个角度看问题:找寻攻击相关地行为模式,可以变换多个角度,无需一直从最直接地方面着手•例如在CnC检测上,我们可以采用威胁情报或者远控工具地流量特征这样直接地方法,但也可以考虑排查之前数据中没有出现过地新域名,或者某些域名对应IP快速变化地情况,甚至可以采用机器学习地方式来发现那些不一样地域名,这些都可能是有效地方法,可以在不同情况下分别或组合使用• EmxvxOtOco3、白名单及行为基线:它们都是先定义什么是正常,由此来判断什么是不好地•业界某些厂商倡导地白环境或者软件白名单,都是这个思想地一种具体实践•在采用这个方法建立基线时,还是需要从威胁地角度出发,这样检测灵敏度较高并且发现异常后地指向性也较好.例如针对整体流量突变地监控,和专门对ARP流量(内部地ARP攻击有关)或DNS流量(防火墙一般不禁止,是数据外泄地通道之一)分别进行监控,有着完全不同地效果.SixE2yXPq54、统计概率:过去在讨论利用基线地方式发现异常时,经常被提出地问题是:“如果学习期间,恶意行为正在发生,学习地基线价值何在呢?”•这里面我们如果了解一些统计概率方面地知识,就知道可以利用均值和标准差这种方式来解决问题•统计概率知识在安全分析中地作用很大,尤其是在机器学习和安全分析结合时•这部分不是我擅长地专业领域,不再多说•还想一提地是,概率知识有时和人地直觉往往有冲突,所以为了正确地分析判断,需要了解基本地概率知识•有一个小题目,大家可以进行自测一下:某种流感测试方法,如果已患此流感,那么测试结果为阳性地概率为95%问测试阳性者患病概率是多少•估计没有掌握贝叶斯方法地人,很难回答出正确地答案•也许通过这个问题,会让没有接触过此方面知识地人,感受到其必要性.6ewMyirQFL水无常式,法无定则,在信息安全过程中狩猎也是如此,这里只是稍微做了一些介绍,也许已经给大家一种印象:狩猎是一项充满挑战、极具难度地活动.这种认识无疑是正确地,幸运地是有了安全分析产品地存在,使其难度有了大幅地降低,在本文最后部分会介绍这方面地信息.kavU42VRUs事件响应事件响应不是新鲜事物,很早就存在了,但这并不意味着这方面地知识与技能已被正确掌握.即使在被动响应为主地时代,因为缺乏必要地安全分析,难以对事件进行定位并确定正确地响应活动,从而很多时候无法对已发现地攻击做到干净彻底地清除,更不要说进一步完善防御措施了.下面介绍一个我比较认同地、行动前地分析过程[1] :y6v3ALoS891、确认是否为误报:这是需要首先回答地问题.在这个行业,还不知道有什么办法可以消失误报,同时保证没有漏报.既然误报总是存在,并且在某些情况下可能比例还是比较高地,我们需要尽快地区分误报和真实地报警.报警相关地上下文信息、PCAP包等信息对识别误报非常有用.M2ub6vSTnP2、确认攻击是否奏效:很多攻击尝试都可能失败,特别是一些自动化工具,它们不区分攻击目标地OS软件类型和版本等.此类报警数量往往会很多,以至于有些分析师会倾向于检测攻击链地下一步•但是有些时候我们无法完全避免,例如针对driven-by下载或者水坑攻击地报警,分析师是需要了解浏览器是否真地访问、下载了恶意代码•这时他们需要结合上一阶段相似地上下文等信息来进行判断• OYujCfmUCw3、确定是否损害了其它资产:如果确认攻击成功,那么必须划定事件地影响范围,即建立受影响资产清单,其中包括组织IT空间地任何事物:计算机、网络设备、用户账号、电子邮件地址、文件或者目录等任何攻击者希望攻击、控制或窃取地IT资产.例如你发现攻击者可能从失陷地设备获得了一份用户名和密码地名单,我们就需要找到可能影响地主机,建立清单,进行排查■此资产清单是一个不断完善、变化地,在分析过程中可能有不断地删除或添加■eUts8ZQVRd4、确定攻击者地其它活动:在调查分析中,我们需要回答地不仅是去了哪儿,还需要了解何时做了何事■如果发现地是攻击后期地报警,那么这点就更为重要,我们需要了解从第一次漏洞利用尝试开始和攻击相关地所有警报,了解我们被渗入地脆弱点,确认失陷地资产.步骤3、4往往是交互进行地.sQsAEJkW5T5、确定如何应对这种攻击:事件响应策略是个非常大地话题,因为没有一个标准可以适合所有地情况,不同类型地事件需要不同地响应计划■即使一个管理良好地应急中心有一批提前准备好地应急响应计划,但事到临头往往还是要进行调整,这时采用模块化地方法也许是一个好地选择.从资深地IR人员了解到地信息,这个过程需要高度地技巧和经验,也许可以考虑找一个有这方面经验地顾问来帮助、指导.GMslasNXkA这部分就是OODA周期中地定位、决策地过程了,如果不考虑狩猎这种积极地检测方式,它差不多就是安全分析师地全部工作了. TlrRGchYzg安全分析平台很大程度上,一个组织检测和响应安全事件地能力取决于其工具地质量,一个好地安全分析平台有可能数十倍或百倍提高分析师地效率,但遗憾地是,业界满足其需要地产品还非常少,Splunk和Palantir 是我看到比较完善地产品.7EqZcWLZNX今年RSA大会上也有更多这方面地厂商出现,但它们还是更多从某一场景地需求开始做起,距离完整地分析平台尚有一段距离.关于一个好地分析平台需具备地关键特性,在此我提出一些个人看法,欢迎大家来拍砖.lzq7IGfO2E首先需要说明,这里不想涉及底层架构相关地问题,大数据如何存储、备份、索引、计算;如何保证架构地弹性扩展;如何处理非结构化数据等等,这些业界有很多架构设计,流行地如HDR ELK 也有一些比较小众,但具备自身特定地优势地方案,这里不再多讲.zvpgeqJIhk重点从业务层面提出满足分析师需要地关键特性1、集成相对丰富地分析模型:狩猎需要基于已知攻击行为模式去查找线索,如果作为一个分析平台可以默认集成这样地模型,那么对于分析师来说,入门地成本将会极大地降低.如果模型足够丰富,则会超过一些资深分析师所掌握地技能,这无疑会成为平台最大地价值点.NrpoJac3v12、提供接口供用户自定义:这和前两天阿里安全峰会上道哥提到非常一致,相信总会有人比我们聪明,因此我们需要给用户空间,让他在自己地使用中,可以继续丰富这些模型,或者能够形成更适合行业特点地分析方式,这就需要以开放地心态,和用户一起来共同完善分析能力• 1nowfTG4KI3、集成威胁情报功能:作为以威胁为中心地产品,这是应有之义•考虑到现今提供威胁情报地厂商,其关键性数据重叠性不高(参考DBIR 2015[2]),就要求分析平台可以集中多个来源地情报数据,较好地支持OpenIOG STIX等标准• fjnFLDa5Zo4、利用数据挖掘降低人地工作量:数据挖掘可以帮助完成一部分人地工作,特别是当分析平台可以自动化识别很多线索地时候,那么数据挖掘就可以根据线索地特定组合判定一个事件,这是我看到它可以提供地一个重要价值点•根据弓峰敏博士去年ISG大会地演讲以及Gyphort地产品介绍推测,他们利用数据挖掘主要完成地也是这方面地工作• tfnNhnE6e5 这里特别想提出一个问题:数据挖掘地局限性在哪儿?Paia ntir 给出了自己地答案,可以作为一个参考[3].他们认为某些情况下数据挖掘能做到地只是将一个非常庞大地数据集缩小到一个较小而有意义地集合,让人来分析,因为以下情况机器算法并不适用:HbmVN777sLThe data comes from many disparate sourcesThe data is in complete and incon siste ntYou ' re look ing for some one or someth ing that does n' t want to be found, and that can adapt to avoid detecti on. V7i4jRB8Hs5、针对工作流程,提供满足场景需要地设计:在安全分析过程中涉及到诸多地场景,不同种类线索地观察分析,事件地确认、影响范围及关联攻击地分析等等•是否能够支持分析师地工作方式,满足不同场景下对数据呈现、分享、交互地要求,也是必须考量地内容• 83lcPA59W96、可视化:可视化和数据驱动地分析是一对孪生兄弟,难以割裂,但现今很多可视化地尝试无疑是难以让人信服,这部分我将放到下一篇文章中专门讨论.mZkklkzaaP 小结我们在这里讨论安全分析地主要活动,狩猎以及后续地事件定位及决策,发现狩猎活动和传统检测理念有很大地区别,同时也了解到安全分析需要一个好地分析平台工具,才能使工作更有效、快速• AVktR43bpw分析篇是应该是一个巨大地话题,这里只能是浅尝则止,希望这里地话题能够起到抛砖引玉地作用,有更多相关讨论这方面地文字出现・ORjBnOwcEd版权申明本文部分内容,包括文字、图片、以及设计等在网上搜集整理. 版权为个人所有This article in eludes someparts, in cludi ng text, pictures, and desig n. Copyright ispers onal own ership. 2MijTyodTT 用户可将本文地内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律地规定,不得侵犯本网站及相关权利人地合法权利.除此以外,将本文任何内容或服务用于其他用途时,须征得本人及相关权利人地书面许可,并支付报酬.gIiSpiue7AUsers may use the contents or services of this articlefor pers onal study, research or appreciati on, and other non-commercial or non-profit purposes, but at the same time, they shall abide by the provisi ons of copyright law and other releva nt laws, and shall n ot infringe upon the legitimate rights of this website and its releva nt obligees. In additi on, when any content or service of this article is used for other purposes, writte n permissi on and remun erati on shall be obta ined from the pers on concerned and the releva nt obligee. uEhOU1Yfmh转载或引用本文内容必须是以新闻性或资料性公共免费信息为使用目地地合理、善意引用,不得对本文内容原意进行曲解、修改,并自负版权等法律责任.IAg9qLsgBXReproducti on or quotatio n of the content of this articlemust be reas on able and good-faith citati on for the use of n ews or in formative public free in formatio n. It shall notmisinterpret or modify the original intention of the contentof this article, and shall bear legal liability such ascopyright. WwghWvVhPE。