大数据背景下公安数据分析平台建设
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据背景下公安数据分析平台建设
随着公安信息化的高速发展,公安各级部门积累了海量的业务数据。如何快速挖掘其内在价值,已成为公安信息化迫切需要解决的关键问题。因此,需要运用科技手段,提高公安部门的信息侦查、数据收集、智能分析、经侦调度、精准预测分析能力,构建符合公安实战所需要的智能大数据支撑体系。
一、建设目标
面向公安实战需求开展数据的深度整合和综合利用,构建一套基于大数据的统一数据采集、存储、分析、挖掘、应用的综合平台,实现以下目标:
●∙数据资源大整合,构建齐全、鲜活的数据集市。
抽取、清洗、转换、汇集跨地区、跨警种的各类数据,组建由公安内部、外部数据、互联网数据等组成的基础数据库;面向信息检索、数据分析和专题应用需求重新构建的专题数据库;形成数据齐全、归类清晰的数据集市。
●∙构建高效处理、安全存储的大数据平台。
采用云计算架构,构建大数据平台。通过云计算、分布式存储、分布式计算、内存计算等技术手段提高数据处理能力,提高对非结构化数据,大容量数据的存储及处理能力,满足各类应用数据处理要求。
●∙构建标准化、多样化、高效的数据共享平台。
按照统一标准,分类别封装通用的数据访问、数据互操作、应用功能类、数据交换、信息布控等接口,通过服务总线形式提供,并由共享门户展现,满足基层数据共享需求。
深化数据应用,构建切合实战的数据应用平台。
根据一线实战需求的共性,开发部分通用的数据应用,譬如云搜索、信息比对、信息布控、背景审查等。借助大数据高效数据处理能力,开发对数据的深度应用,譬如智能碰撞、关系人挖掘、情报线索分析等。
二、建设内容
建设方案分为数据资源、数据服务、数据应用三个层面,整体架构如下:
图1:架构图
(一)数据资源层
1、数据采集
(1)数据源
数据源主要包括公安内部和外部数据。其中,公安内部数据以警务综合信息应用平台和业务系统为主要数据来源,实现不同警种业务数据的标准整合;公安外部数据通过部门间共享服务平台获取的社会单位数据为主要数据来源,包含互联网数据和其他多媒体数据的获取,实现外部单位各类数据的标准化整合。
(2)采集模块
建设统一的数据采集模块,实现基于标准表单、文本数据及相关视频、图像、语音等多媒体数据的批量导入、逐条录入和维护管理等系统功能,并进行自动分类,导入采集资源库。
在采集入库的过程中,按照背景信息、动态信息、关系信息、特征信息的要素进行分类,建立规范化的数据描述方法和清洗转换规则,实现社会数据资源的规范化建库。主体建立包含背景信息库、动态信息库、关系信息库、特征信息库等数据采集资源库。
2、数据预处理
通过数据预处理工作,可以使残缺的数据完整,并将错误的数据纠正,多余的数据去除,进而将所需的数据挑选出来,并且进行数据集成。
实现对抽取的数据资源进行加工的能力,例如空值校验转化、字符串操作、字符串替换、新增字段、添加JSON字段、表码映射等。
基于特征要素模型,实现对文本内容的全文解析,并能够将文本中涉及到对象特征,诸如:身份证、手机号码、电子邮箱、QQ号码、车牌等特征要素转化为结构化数据进行存储。
3、数据存储
对象建库
对于所各类纷繁复杂的公安数据资源,主要形成基础数据库、全文检索库、对象主题库、碰撞分析库、关联分析库来进行存储管理。
●∙结构化存储
对于所采集汇聚的数据资源,主要以结构化数据维护且总量有限,采用Oracle关系型数据库来进行存储管理。
●∙非结构化存储
HDFS(分布式文件系统)是Hadoop架构的支撑性平台,作为HBase\HIVE等大数据库的分布式运行系统,为其提供存储扩展能力、容错能力、吞吐能力等。HDFS本身也适合存储单个文件体积较大的内容,如视频文件、音频文件、历史数据归档打包文件等等。
在本项目的基础库设计中,对于非结构化数据,主要是以文本、视频、图片为主,拟采用HDFS作为外部采集文本、视频、图像的存储容器,并利用HBase为各个文件实体构建索引及相关描述信息,为资源的进一步检索及调用奠定基础。
在对数据的关联整合过程中的关键词标签数据和索引信息,其存储管理模式可根据具体数据量情况选择确定。
4、数据管理
(1)数据标准管理
主要是依据上级部门提供的标准(具体标准的内容有:数据元、限定词、数据项),创建本地的数据标准规范,具体内容包括有:数据元管理、同义词管理、限定词管理、标准数据项管理。
(2)数据资源管理
数据资源管理用于数据资源的统一管理,以实现数据资产的有效管理,提升数据资产管理及运营能力,辅助建立数据资源资产化管理机制、数据资源运行维护管理机制、数据质量提升机制。
数据资源管理系统主要包括数据资源注册、数据资源编目、数据质量管理和数据运行监控。
(3)数据质量管理
数据质量管理提供数据质量问题发现、数据质量问题监测及跟踪、数据质量分析、问题数据应用等功能,帮助用户了解数据质量情况,发现数据质量问题,持续监测数据质量,分析数据质量趋势和对比情况,跟踪问题数据修复情况,从而辅助用户建立数据质量提升机制。
不同来源的数据在基础数据资源库进行清洗、整合,通过数据资源注册功能,实现各类数据源及数据资源统一注册管理,提供丰富的元数据信息。
5、数据分析
(1)大数据计算
基础数据集群中存放的往往是低价值密度的数据,经过多种大数据计算方法加工处理后,可提取出高价值密度的数据,适用于对海量
数据进行数据挖掘、建模,以支撑精准营销、决策分析、信息安全等应用场景。
主要应用的大数据计算方法包含在线处理集群(Spark)、离线处理集群(MapReduce)、流式处理集群(Storm)、图计算集群(Neo4j)、全文检索集群(SolrCloud)、自然语言处理(NLP)等。
(2)数据挖掘
数据分析挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含的、不可预知的、具有潜在利用价值的信息和知识的过程。数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。主要数据挖掘方法包含:分类分析、回归分析、聚类分析、关联分析等。
(二)数据服务层
实现对本地应用的统一接入,减少应用系统对底层数据库的直接访问,提高数据安全性,解决部门以及协作区域间信息服务资源的简便对等开放、共享标准规范、本地信息资源集中管理、面向应用服务的统一接入、高可用服务支撑能力、安全审计等一系列问题。
接口层建设
自主比对接口:通过数据源信息和比对条件,进行数据源比对,返回比对结果。
全文搜索接口:该接口实现省厅资源服务平台云搜索模块中的人员全文搜索功能,搜索条件支持关键字搜索,返回内容包括人员基本