大数据技术与经验分享
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同时基于关键词库,关联分析技术、聚类分析技术,实现热点情报、相似情报等宏观分析。 文本分析工具 文本分析是文本挖掘、信息检索的一项基本技术,是指对文本中表示其特征项的“关键 词”自动识别与提取,可以实现word文档内情报信息的解析和标签属性创建。 标签库建设 热点情报分析 相似情报分析
5.3 大数据分析研判-人员活动分析
BIG DATA
01
当前信息化现状与问题
1.1 用户使用方面
01
02
03
缺少一个简便、高效、准确的在线检索工具!
1.2 应用建设方面
资源分散
重复建设
系统多了
点对点交互
共享困难
重复建部级系设统 现象省突级系统出!信市级系息统 如何区级有系统效共业系务统享?
警综
交管
户政
出入境
数
……
据
源
基础 设施
1.3 数据的管理与应用方面
搜索结果 张林,420921……
信息自动关联
最终结果 张林,420921……,常住人口,
男,22岁,职业,地址
结构化信息
5.2 大数据离线计算
文本分析和数据分类、聚类
对人力情报信息通过文本分析工具进行处理,实现关键词提取,包括地名、敏感词语(如6.4事
件、老兵、上访、嗑粉等)、人名、各类号码等,生成人力情报关键字库(也称“标签库”)。
BIG DATA
大数据技术与经验分享
2017.2.15
目录
01 现状与问题
04 大数据存储与管理
02 大数据概述
05 大数据计算与分析研判
03 06 大数据采集与处理
大数据项目建设经验
PPT模板:www.1ppt.com/moban/ PPT背景:www.1ppt.com/beijing/ PPT下载:www.1ppt.com/xiazai/ 资料下载:www.1ppt.com/ziliao/ 试卷下载:www.1ppt.com/shiti/ PPT论坛:www.1ppt.cn 语文课件:www.1ppt.com/kejian/yuw en/ 英语课件:www.1ppt.com/kejian/ying yu/ 科学课件:www.1ppt.com/kejian/kexu e/ 化学课件:www.1ppt.com/kejian/huaxue/ 地理课件:www.1ppt.com/kejian/dili/
5.4 大数据分析研判模型-案例1
涉“黄”人员分析
旅业数据
500万记录
人员入住登记信息
主要条件
“跳房”记录分析
年轻女性 较短时间段内 有多条开房记录 旅馆位置集中 深夜凌晨入住 入住时间短
涉黄可疑人员名单
定时生成推送
辅助条件
准确率 高达87.8%
案件库 有关涉黄人员
5.4 大数据分析研判模型-案例2 密切度分析
3.3 大数据采集工具(文件数据采集)
由于业务特点的不同,开源软件或商业产品的解决方案针对性较弱,更倾向于由软件开发商定 制开发采集器,通过插件的方式扩展支持的文件类型。
零散文件 (非结构化)
快递、饮食店 等员工名单
文件分类
Excel文件
人员和单位数据 (结构化)
截获黑客犯罪 文 人员电脑资料 件
MySQL集群
4.3 高增长、海量关系型数据存储方案
应用场景:用于存储数据量大且数据增长量较快的数据(如:卡口过车信息等) 技术选型:HBase集群 特 点:运行在Hadoop之上适合超大数据量的写入,数据按列存储、只访问查询涉及的列-大量降低系统IO
4.4 海量大个文件存储方案
应用场景:适合存储、访问、下载大个文件(通常是指百MB、GB、甚至GB大小的文件), 如视频网站类应用。 技术选型:HDFS 分布式文件系统 特 点:运行于廉价的商用机器集群上、多副本、采用了切分存储的方式
筛 小区住户、租 选 户登记信息
Word文件
内 容
抓
取
文本文件
审核入库
旧犯罪记录等 文字卷宗
PDF文件
大数据存储系统
3.4 大数据采集工具(实时流式数据采集)
基于多源的实时流式数据(如:GPS定位信息、北斗定位信息、移动定位终端实时位置信息、 传感器),提供数据接入、存储、分发、自动识别、报警、监控等实时处理功能。并支持通过插件 的方式扩展接入类型。
大数据计算的核心思想是:分而治之,把大量的数据划分开来,分配给各个子任务来完成。再将 结果合并到一起输出。
离线计算
静态数据的离线计算和处理,应用于非实 时数据计算场景,如数据统计、模型分析。 如:MapRequce、Hive
实时计算
应用在数据的计算实时性要求比较高的场 景,能够实时的响应结果,一般在秒级。 如:Storm、内存数据库的查询
4.5 海量小文件存储方案
应用场景:对海量小文件进行管理,包括:文件存储、文件同步、文件上传、文件下载。如:百 度文库、相册网站等应用场景 技术选型:FastDFS 分布式文件系统 特 点:不对文件进行切分存储、适合小文件存储、支持线性扩容
Big Data
05
大数据计算与分析研判
5.1 大数据计算
6.2 思考二
因材施用、用其所长、相辅相成
关系型:结构化程度高,数据量不大等; 分布式:结构化程度一般,巨量检索等; 大内存:数据量适中,多变量求解等;
不能忽视异构数据交换工作
6.3 思考三
以业务需求为导向去设计与建设,回到用户需求,分析日常工作真正 所需。
技术是为业务服务的,技术选型和架构决策依赖业务规划, 离开业务 发展 的支撑和驱动, 技术走不远,甚至还会迷路!
Big Data
03
大数据采集与处理
3.1 大数据采集的方式
大数据采集就是使用多种技术或手段 “组合出击”,将数据收集起来并存储在大数据存储系统中。 根据数据的类型常见的采集方式包括一下四种:
数据库采集
01 通过ETL工具将分布的、异构数据源中的结构
化数据经过清洗、转化、整合操作后抽取到 大数据存储系统
人员活动分析: 根据关注人员动态管控的需求,基于系统内整合的外部信息(如:公安网实名制登记信息、 出行记录信息)和内部信息(如:情报线索信息、重点人等信息),通过定制化分析模型工具, 定义相关的分析模型,通过分析模型的计算和运行,支持研判的开展和应用,相关的分析模型 包括但不限于如下: 重点人流入预警 重点人流出预警 异常出行记录分析 人员轨迹分析 人员关系分析(社会关系、同行、同住、同乡)
大数据存储与管理方向
这方向最常见的挑战是存储规模大,存储管理 复杂,需要兼顾结构化、非结构化和半结构化 的数据。分布式文件系统、分布式数据库、 NoSQL数据库相关技术的发展正在有效的解决 这些方面的问题。
04
大数据分析与挖掘方向
在数据量迅速膨胀的同时,还要进行深度的数据 深度分析和挖掘,并且对自动化分析要求越来越 高,越来越多的大数据数据分析工具和产品应运 而生,如用于大数据挖掘的R Hadoop版、基于 MapReduce开发的数据挖掘算法等等
张三
密切度4
李四
-----2014-08-16 2015-02-04 2015-05-18
籍贯相同 乘坐K1234列车从南宁至广州
登记入住同一出租屋 出境前往澳门
Big Data
06
大数据项目建设经验
6.1 思考一
从精确性到相似(相关)性 起步阶段我们追求精确制导; 单一查询不是大数据的主要应用; 用大数据去揭示规律,反映客观事实; 从大数据中发现隐含的知识。
北斗
车载终端
GPS
各
手持终端
个
WIFI
业
务
RFID
固定设备
系 统
基站
网络
智能终端
Big Data
04
大数据存储与管理
4.1 大数据存储方案
大数据存储方案应该是根据数据的特点及业务需求进行“专项治理”,产品和技术选型应该不仅仅局限 于1种产品或技术。一般大数据存储是由多种数据存储方案或技术组合使用。
代
2006 年 -
2009 年
大数据发展的爆发期
大数据不是最近才有的, 数据一直存在,只是分析数据的技术近几年有了革命性 的突破!所以,大数据也可以称为一种技术“大数据技术”
2.2 概述
大数据指那些数据量特别大、数据类别特别复杂的数据集,并且这些数据没有办法在可容 忍的时间下使用常规软件方法完成存储、管理和处理任务。
结构化 数据
图像
音频
视频
……
巨大的复杂的数据资源怎么用起来?
非结构化信息的飞速增 矛盾 对非结构化信息的利用
长为存储带来巨大压力
缺乏有效手段
BIG DATA
02
大数据技术概述
2.1 发展历程
大数据发展的萌芽期
2003 年 -
2006 年
大数据发展的突破期
2010 年 至今
90
大数据发展的孕育期
年
PPT素材:www.1ppt.com/sucai/ PPT图表:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/ PPT课件:www.1ppt.com/kejian/ 数学课件:www.1ppt.com/kejian/shu xue/ 美术课件:www.1ppt.com/kejian/me ishu/ 物理课件:www.1ppt.com/kejian/wul i/ 生物课件:www.1ppt.com/kejian/she ngwu/ 历史课件:www.1ppt.com/kejian/lish i/
5.1 大数据计算-海量数据检索
智能检索
输入内容的智能化分析
人名判定
张林
搜索
输入条件的智能化分析
地名判定
地址判定
。。。
通过人名和地名进行搜索
搜索场景的智能化选择
搜索场景的智能化选择
检索结果以“档案”形式展示 搜索人员的角色为治安人员
旅客
娱乐场所
涉毒人员
嫖娼人员
搜索结果的智能化筛选
非结构化信息
信息的自动关联
多媒体数据采集
04 通过视频分析技术、图形分析技术将视频、图片文
件内的要素信息提取出来,并以结构化数据存储到 大数据存储系统
3.2 大数据采集工具(ETL采集工具)
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。ETL负责将分散的、异构 数据源中的数据抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库中。
文本数据采集
02 通过各类接口从电子文件中获取数据的过程。可以
将txt\xml\word\excel\pdf等文件内的数据提取出来, 并以结构化的方式存储大数据存储系统
实时流式数据采集
03 实时采集物联网内RFID标签、GPS定位设备、
北斗定位设备、温度传感器等各类传感器的 实时状态信息、位置信息,并以结构化的方 式存储在大数据存储系统
Kettle
Informatica PowerCenter
开源工具 纯java编写,绿色无需安装 支持Window、Linux、Unix
运行环境依赖JDK 可视化图形界面
软件一次性购买,但技术支持按项目收费 支持Window、Linux、Unix 客户端与服务端分离 可视化图形界面
广泛支持各类结构化、非结构化的数据源
存储量大 计算量大
TB->PB
1、大量
3、快速
数据增长快 处理速度要求快
大数据不仅大数据仅是“大”
数据来源多 数据类型多
2、多样
结构化数据、非结构化文档、视频、照片等
4、价值
商业价值 如:行为分析、信息挖掘
广告定投、信息预测
2.3 大数据的发展方向
大数据采集与预处理方向
这方向最常见的问题是数据的多源和多样性, 导致数据的质量存在差异,严重影响到数据的 可用性。针对这些问题,目前很多公司已经推 出了多种数据清洗和质量控制工具(如IBM的 Data Stage)
传统关系型数据存储方案 (Oracle集群、MySQL集群)
1
高增长、海量关系型数据存储方案
(Hbase) 2
高速缓存方案 (Redis)
存储方案
5
3
4
百度文库
海量大个文件存储方案 (Hadoop HDFS)
海量小文件存储方案 ( FastDFS)
4.2 传统关系型数据存储方案
应用场景:用于存储结构化的人员、物品、组织、数据字典等数据或业务关联紧密的事物性数据 技术选型:Oracle RAC 或 MySQL集群 特 点:MPP架构、数据结构固定、数据量相对较小、安全性及稳定性较高
前沿技术总是出现在前沿业务领域。
01
03
大数据计算方向
由于大数据处理多样性的需求,目前出现了多种典型的计 算模式,包括大数据查询计算(如Hive)、批处理计算 (如Hadoop MapReduce)、流式计算(如Storm)、和 内存计算(如Hana),而这些计算模式的组合使用将成为 满足多样性大数据处理和应用需求的有效手段。
02
5.3 大数据分析研判-人员活动分析
BIG DATA
01
当前信息化现状与问题
1.1 用户使用方面
01
02
03
缺少一个简便、高效、准确的在线检索工具!
1.2 应用建设方面
资源分散
重复建设
系统多了
点对点交互
共享困难
重复建部级系设统 现象省突级系统出!信市级系息统 如何区级有系统效共业系务统享?
警综
交管
户政
出入境
数
……
据
源
基础 设施
1.3 数据的管理与应用方面
搜索结果 张林,420921……
信息自动关联
最终结果 张林,420921……,常住人口,
男,22岁,职业,地址
结构化信息
5.2 大数据离线计算
文本分析和数据分类、聚类
对人力情报信息通过文本分析工具进行处理,实现关键词提取,包括地名、敏感词语(如6.4事
件、老兵、上访、嗑粉等)、人名、各类号码等,生成人力情报关键字库(也称“标签库”)。
BIG DATA
大数据技术与经验分享
2017.2.15
目录
01 现状与问题
04 大数据存储与管理
02 大数据概述
05 大数据计算与分析研判
03 06 大数据采集与处理
大数据项目建设经验
PPT模板:www.1ppt.com/moban/ PPT背景:www.1ppt.com/beijing/ PPT下载:www.1ppt.com/xiazai/ 资料下载:www.1ppt.com/ziliao/ 试卷下载:www.1ppt.com/shiti/ PPT论坛:www.1ppt.cn 语文课件:www.1ppt.com/kejian/yuw en/ 英语课件:www.1ppt.com/kejian/ying yu/ 科学课件:www.1ppt.com/kejian/kexu e/ 化学课件:www.1ppt.com/kejian/huaxue/ 地理课件:www.1ppt.com/kejian/dili/
5.4 大数据分析研判模型-案例1
涉“黄”人员分析
旅业数据
500万记录
人员入住登记信息
主要条件
“跳房”记录分析
年轻女性 较短时间段内 有多条开房记录 旅馆位置集中 深夜凌晨入住 入住时间短
涉黄可疑人员名单
定时生成推送
辅助条件
准确率 高达87.8%
案件库 有关涉黄人员
5.4 大数据分析研判模型-案例2 密切度分析
3.3 大数据采集工具(文件数据采集)
由于业务特点的不同,开源软件或商业产品的解决方案针对性较弱,更倾向于由软件开发商定 制开发采集器,通过插件的方式扩展支持的文件类型。
零散文件 (非结构化)
快递、饮食店 等员工名单
文件分类
Excel文件
人员和单位数据 (结构化)
截获黑客犯罪 文 人员电脑资料 件
MySQL集群
4.3 高增长、海量关系型数据存储方案
应用场景:用于存储数据量大且数据增长量较快的数据(如:卡口过车信息等) 技术选型:HBase集群 特 点:运行在Hadoop之上适合超大数据量的写入,数据按列存储、只访问查询涉及的列-大量降低系统IO
4.4 海量大个文件存储方案
应用场景:适合存储、访问、下载大个文件(通常是指百MB、GB、甚至GB大小的文件), 如视频网站类应用。 技术选型:HDFS 分布式文件系统 特 点:运行于廉价的商用机器集群上、多副本、采用了切分存储的方式
筛 小区住户、租 选 户登记信息
Word文件
内 容
抓
取
文本文件
审核入库
旧犯罪记录等 文字卷宗
PDF文件
大数据存储系统
3.4 大数据采集工具(实时流式数据采集)
基于多源的实时流式数据(如:GPS定位信息、北斗定位信息、移动定位终端实时位置信息、 传感器),提供数据接入、存储、分发、自动识别、报警、监控等实时处理功能。并支持通过插件 的方式扩展接入类型。
大数据计算的核心思想是:分而治之,把大量的数据划分开来,分配给各个子任务来完成。再将 结果合并到一起输出。
离线计算
静态数据的离线计算和处理,应用于非实 时数据计算场景,如数据统计、模型分析。 如:MapRequce、Hive
实时计算
应用在数据的计算实时性要求比较高的场 景,能够实时的响应结果,一般在秒级。 如:Storm、内存数据库的查询
4.5 海量小文件存储方案
应用场景:对海量小文件进行管理,包括:文件存储、文件同步、文件上传、文件下载。如:百 度文库、相册网站等应用场景 技术选型:FastDFS 分布式文件系统 特 点:不对文件进行切分存储、适合小文件存储、支持线性扩容
Big Data
05
大数据计算与分析研判
5.1 大数据计算
6.2 思考二
因材施用、用其所长、相辅相成
关系型:结构化程度高,数据量不大等; 分布式:结构化程度一般,巨量检索等; 大内存:数据量适中,多变量求解等;
不能忽视异构数据交换工作
6.3 思考三
以业务需求为导向去设计与建设,回到用户需求,分析日常工作真正 所需。
技术是为业务服务的,技术选型和架构决策依赖业务规划, 离开业务 发展 的支撑和驱动, 技术走不远,甚至还会迷路!
Big Data
03
大数据采集与处理
3.1 大数据采集的方式
大数据采集就是使用多种技术或手段 “组合出击”,将数据收集起来并存储在大数据存储系统中。 根据数据的类型常见的采集方式包括一下四种:
数据库采集
01 通过ETL工具将分布的、异构数据源中的结构
化数据经过清洗、转化、整合操作后抽取到 大数据存储系统
人员活动分析: 根据关注人员动态管控的需求,基于系统内整合的外部信息(如:公安网实名制登记信息、 出行记录信息)和内部信息(如:情报线索信息、重点人等信息),通过定制化分析模型工具, 定义相关的分析模型,通过分析模型的计算和运行,支持研判的开展和应用,相关的分析模型 包括但不限于如下: 重点人流入预警 重点人流出预警 异常出行记录分析 人员轨迹分析 人员关系分析(社会关系、同行、同住、同乡)
大数据存储与管理方向
这方向最常见的挑战是存储规模大,存储管理 复杂,需要兼顾结构化、非结构化和半结构化 的数据。分布式文件系统、分布式数据库、 NoSQL数据库相关技术的发展正在有效的解决 这些方面的问题。
04
大数据分析与挖掘方向
在数据量迅速膨胀的同时,还要进行深度的数据 深度分析和挖掘,并且对自动化分析要求越来越 高,越来越多的大数据数据分析工具和产品应运 而生,如用于大数据挖掘的R Hadoop版、基于 MapReduce开发的数据挖掘算法等等
张三
密切度4
李四
-----2014-08-16 2015-02-04 2015-05-18
籍贯相同 乘坐K1234列车从南宁至广州
登记入住同一出租屋 出境前往澳门
Big Data
06
大数据项目建设经验
6.1 思考一
从精确性到相似(相关)性 起步阶段我们追求精确制导; 单一查询不是大数据的主要应用; 用大数据去揭示规律,反映客观事实; 从大数据中发现隐含的知识。
北斗
车载终端
GPS
各
手持终端
个
WIFI
业
务
RFID
固定设备
系 统
基站
网络
智能终端
Big Data
04
大数据存储与管理
4.1 大数据存储方案
大数据存储方案应该是根据数据的特点及业务需求进行“专项治理”,产品和技术选型应该不仅仅局限 于1种产品或技术。一般大数据存储是由多种数据存储方案或技术组合使用。
代
2006 年 -
2009 年
大数据发展的爆发期
大数据不是最近才有的, 数据一直存在,只是分析数据的技术近几年有了革命性 的突破!所以,大数据也可以称为一种技术“大数据技术”
2.2 概述
大数据指那些数据量特别大、数据类别特别复杂的数据集,并且这些数据没有办法在可容 忍的时间下使用常规软件方法完成存储、管理和处理任务。
结构化 数据
图像
音频
视频
……
巨大的复杂的数据资源怎么用起来?
非结构化信息的飞速增 矛盾 对非结构化信息的利用
长为存储带来巨大压力
缺乏有效手段
BIG DATA
02
大数据技术概述
2.1 发展历程
大数据发展的萌芽期
2003 年 -
2006 年
大数据发展的突破期
2010 年 至今
90
大数据发展的孕育期
年
PPT素材:www.1ppt.com/sucai/ PPT图表:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/ PPT课件:www.1ppt.com/kejian/ 数学课件:www.1ppt.com/kejian/shu xue/ 美术课件:www.1ppt.com/kejian/me ishu/ 物理课件:www.1ppt.com/kejian/wul i/ 生物课件:www.1ppt.com/kejian/she ngwu/ 历史课件:www.1ppt.com/kejian/lish i/
5.1 大数据计算-海量数据检索
智能检索
输入内容的智能化分析
人名判定
张林
搜索
输入条件的智能化分析
地名判定
地址判定
。。。
通过人名和地名进行搜索
搜索场景的智能化选择
搜索场景的智能化选择
检索结果以“档案”形式展示 搜索人员的角色为治安人员
旅客
娱乐场所
涉毒人员
嫖娼人员
搜索结果的智能化筛选
非结构化信息
信息的自动关联
多媒体数据采集
04 通过视频分析技术、图形分析技术将视频、图片文
件内的要素信息提取出来,并以结构化数据存储到 大数据存储系统
3.2 大数据采集工具(ETL采集工具)
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。ETL负责将分散的、异构 数据源中的数据抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库中。
文本数据采集
02 通过各类接口从电子文件中获取数据的过程。可以
将txt\xml\word\excel\pdf等文件内的数据提取出来, 并以结构化的方式存储大数据存储系统
实时流式数据采集
03 实时采集物联网内RFID标签、GPS定位设备、
北斗定位设备、温度传感器等各类传感器的 实时状态信息、位置信息,并以结构化的方 式存储在大数据存储系统
Kettle
Informatica PowerCenter
开源工具 纯java编写,绿色无需安装 支持Window、Linux、Unix
运行环境依赖JDK 可视化图形界面
软件一次性购买,但技术支持按项目收费 支持Window、Linux、Unix 客户端与服务端分离 可视化图形界面
广泛支持各类结构化、非结构化的数据源
存储量大 计算量大
TB->PB
1、大量
3、快速
数据增长快 处理速度要求快
大数据不仅大数据仅是“大”
数据来源多 数据类型多
2、多样
结构化数据、非结构化文档、视频、照片等
4、价值
商业价值 如:行为分析、信息挖掘
广告定投、信息预测
2.3 大数据的发展方向
大数据采集与预处理方向
这方向最常见的问题是数据的多源和多样性, 导致数据的质量存在差异,严重影响到数据的 可用性。针对这些问题,目前很多公司已经推 出了多种数据清洗和质量控制工具(如IBM的 Data Stage)
传统关系型数据存储方案 (Oracle集群、MySQL集群)
1
高增长、海量关系型数据存储方案
(Hbase) 2
高速缓存方案 (Redis)
存储方案
5
3
4
百度文库
海量大个文件存储方案 (Hadoop HDFS)
海量小文件存储方案 ( FastDFS)
4.2 传统关系型数据存储方案
应用场景:用于存储结构化的人员、物品、组织、数据字典等数据或业务关联紧密的事物性数据 技术选型:Oracle RAC 或 MySQL集群 特 点:MPP架构、数据结构固定、数据量相对较小、安全性及稳定性较高
前沿技术总是出现在前沿业务领域。
01
03
大数据计算方向
由于大数据处理多样性的需求,目前出现了多种典型的计 算模式,包括大数据查询计算(如Hive)、批处理计算 (如Hadoop MapReduce)、流式计算(如Storm)、和 内存计算(如Hana),而这些计算模式的组合使用将成为 满足多样性大数据处理和应用需求的有效手段。
02