大数据深度挖掘技术与大数据应用.pptx
合集下载
大数据分析与挖掘培训ppt
AI与大数据挖掘的融合应用
深度学习
利用深度学习技术,对 大规模数据进行特征提 取和模式识别,提高数 据挖掘的精度和效率。
强化学习
结合强化学习技术,根 据环境反馈自动调整模 型参数,提高模型泛化 能力和鲁棒性。
多模态融合
将不同模态的数据进行 融合,如文本、图像、 视频等,挖掘多模态数 据的潜在价值。
进行全面评估。
欺诈检测
利用大数据技术,实时监测交易 行为,及时发现并阻止欺诈行为
。
风险评估
通过对历史数据和实时数据的分 析,对金融机构的风险状况进行
全面评估。
医疗健康
个性化医疗
通过大数据分析,为患者提供个性化的诊疗方案 和治疗建议。
疾病预测
利用大数据技术,对疾病的发生和发展趋势进行 预测,为预防和治疗提供参考。
数据收集
从各种来源收集大量数据。
数据转换
将数据从一种格式转换为另一 种格式,如从CSV转换为 JSON。
结果展示
将挖掘出的信息以图表、报告 等形式展示给用户。
02
大数据分析技术
数据预处理
01
02
03
数据清洗
去除重复、无效或错误数 据,保证数据质量。
数据转换
将数据从一种格式或结构 转换为另一种,以便于后 续分析。
数据聚合
对数据进行汇总、计算, 生成新的特征或指标。
分布式计算
分布式文件系统
Hadoop HDFS等,用于 存储大规模数据。
分布式计算框架
MapReduce、Spark等, 用于并行处理大规模数据 。
分布式数据库
HBase、Cassandra等, 用于存储和查询大规模数 据。
数据库技术
大数据分析与挖掘ppt课件
打折信息 你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的
利润 用算法预测人们购票需求,航空公司以不可预知的方式调整价格 智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信
息 …
26
数据挖掘:Data Mining 大数据管理与挖掘案例
麻省理工学院创建了一个计算机 模型来分析心脏病病患丢弃的心 电图数据
系统分析显示两个后卫哈德卫和伯 兰.绍在前两场中被评为-17分
但当哈德卫与替补后卫阿姆斯创组 合时,魔术队得分为正14分
魔术队增加了阿姆斯创的上场时间, 此着果然见效;
Advanced Scout是一个数据分析工 具,每一场比赛的事件都被统计分 类,按得分、助攻、失误等等。
时间标记让教练非常容易地通过搜
和官方机构相比,谷歌能提前一 两周预测流感暴发,预测结果与 官方数据的相关性高达97%;
2009 年 甲 型 H1N1 流 感 暴 发 时 , “谷歌流感趋势”系统大显身手。 这已经成为大数据应用的一个经 典案例;
也招来了隐私保护组织的严厉声 讨!
30
企业应用大数据所带来的主要效果包括实现智能决 策、提升运营效率和改善风险管理。
3
我们身边的大数据…4地图的定位数据5对大数据的初步认识(1)
三十多年来,我国春运大军从1 亿多人次到36亿人次
春运的最热现象是逆向过年,即 老人们到孩子工作的地方过年。
除夕夜 哈尔滨迁徙地图
6
对大数据的初步认识(2) 大数据与交通拥堵
通常会利用社会学、心理学甚至是医学上的基本结 论和原理作为指导
通过人工智能领域中使用的机器学习、图论等算法 对社交网络中的群体行为和未来的趋势进行模拟和 预测。
利润 用算法预测人们购票需求,航空公司以不可预知的方式调整价格 智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信
息 …
26
数据挖掘:Data Mining 大数据管理与挖掘案例
麻省理工学院创建了一个计算机 模型来分析心脏病病患丢弃的心 电图数据
系统分析显示两个后卫哈德卫和伯 兰.绍在前两场中被评为-17分
但当哈德卫与替补后卫阿姆斯创组 合时,魔术队得分为正14分
魔术队增加了阿姆斯创的上场时间, 此着果然见效;
Advanced Scout是一个数据分析工 具,每一场比赛的事件都被统计分 类,按得分、助攻、失误等等。
时间标记让教练非常容易地通过搜
和官方机构相比,谷歌能提前一 两周预测流感暴发,预测结果与 官方数据的相关性高达97%;
2009 年 甲 型 H1N1 流 感 暴 发 时 , “谷歌流感趋势”系统大显身手。 这已经成为大数据应用的一个经 典案例;
也招来了隐私保护组织的严厉声 讨!
30
企业应用大数据所带来的主要效果包括实现智能决 策、提升运营效率和改善风险管理。
3
我们身边的大数据…4地图的定位数据5对大数据的初步认识(1)
三十多年来,我国春运大军从1 亿多人次到36亿人次
春运的最热现象是逆向过年,即 老人们到孩子工作的地方过年。
除夕夜 哈尔滨迁徙地图
6
对大数据的初步认识(2) 大数据与交通拥堵
通常会利用社会学、心理学甚至是医学上的基本结 论和原理作为指导
通过人工智能领域中使用的机器学习、图论等算法 对社交网络中的群体行为和未来的趋势进行模拟和 预测。
《大数据深度挖掘技术与大数据应用》PPT课件讲义
行业应用案例-金融
➢ 项目需求
将总行下发的数据及核心业务数据,经过数据整理、加载到省级 数据中心,并进行各项业务快速应用开发
➢ 数据源
◦ 某省公积金中心,近五年的操作、交易记录,共10亿条左右。
➢ 系统环境
◦ 4台X86架构的PC服务器,共128G内存 ◦ 单台服务器,8核CPU,32G内存
➢ 解决方案
1. 制造业生产设备生命周期大数据分析。 2. 制造业信息云图。
碳交易平台
1.大数据碳金融算法与模型建立。 2.碳交易与分析平台。
大数据环境下的无重叠视域跟踪
大数据技术,解决视频领域的知识识别, 知识发现,知识集成与跟踪,推理等关键 技术问题。
多项国家自然科学基金
开创了基于人类视觉智能的动态目标捕捉、跟踪和行为分析的研 究,在国内外杂志、会议发表了多篇高水平论文。 获得视频识别,知识学习与推理相关发明专利2项,申请发明专利 7项。
1.制造设备生命周祺管理 2.制造业投入产出预测
1.空气质量预测 2.卷烟消费者购买行为分析 3.纳税人偷税漏税评估
目录
➢ 联合实验室 ➢ 大数据分析平台 ➢ 产品技术架构 ➢ 典型行业应用案例
技术架构解决方案-要解决的问题
基于spark内存的计算模型,同时支持批处理、交互式处理、流 处理。
交互式查询
行业应用案例-金融
➢ 持卡客户多维分析:
◦ 持卡客户人口统计特征分析 ◦ 持卡客户交易行为模式分析 ◦ 持卡客户应用场景分析
➢ 特约商户多维分析:
◦ 商户基本信息分析/商户业务收益分析 ◦ 商户价值贡献度评估/商户收单风险分析
➢ 持卡客户和特约商户双向分析
◦ 特定特征客户特定时间消费商户分布分析 ◦ 特定时间在特定商户消费的客户特征分析
大数据与数据挖掘精品PPT课件
✓ 2017.6.3 菜鸟和顺丰在中国邮政局主持下和解。
背后数据之争
①顺丰:我的快递业务以商务件为主,不完全依赖淘宝件,且我从 未放弃过电商,顺丰优选仍然是生鲜电商中的领导者,我不愿意 将数据拱手让人。
②阿里(菜鸟):我已经拥有巨大的电商数据积累,要物流数据是为了 客户服务体验和数据商业化,没有数据我这种轻资产公司就什么 都不是了。
大数据是什么?
大数据(Big Data):
指无法在一定时间范围内用常规 软件工具进行捕捉、管理和处理的数 据集合,是需要新处理模式才能具有 更强的决策力、洞察发现力和流程优 化能力的海量、高增长率和多样化的 信息资产。
简单一点的说,就是用现有一般技术 难以管理的数据。
大数据的典型特征
✓ Volume(容量) 数据量大,包括采集、存储和计算的量都非常大。
✓ Variety(多样性) 种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日
志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了 更高的要求 ✓ Velocity(速度)
数据增长速度快,处理速度也快,时效性要求高。数据产生和更新的频率 ✓ Value (价值)
数据做什么?
能干的太多了,用户画像、精准营销、用户体验提升、决策辅助等 等,我们就说说个简单的: 用户画像 上面整个过程中,系统已经给用户做了画像。 姑娘A,家住北京,电话,地址,25-35岁,女性,消费能力中等, 资产情况好,准备生姑娘下次打开淘宝的时候(手机/PC),系 统页面自动会将下面产品放在首页: 母婴用品,中高端(孕妇装、儿童装、纸尿裤、奶 粉统统来一套)服装,中高化妆品,国内知名品 牌。。。。。。 剩下的事情你懂得,淘宝页面可是很有限的,为了 提高广告效率,你看把我家淘宝累成啥样了?所以 卖货的筒子,赶紧掏钱啊,引流效果很好的。。。。 还可以这样: 当姑娘A登陆虾米音乐的时候,阿里就直接给他推 送25-35岁女性的歌曲,顺便把A常听的歌曲也加入 数据库。。。 打开支付宝的时候,顺手推荐下理财产品,反正A 也有闲钱,放着多浪费啊,来看看这些。。。 顺手还能推荐一下儿童的0岁保险^_^.
背后数据之争
①顺丰:我的快递业务以商务件为主,不完全依赖淘宝件,且我从 未放弃过电商,顺丰优选仍然是生鲜电商中的领导者,我不愿意 将数据拱手让人。
②阿里(菜鸟):我已经拥有巨大的电商数据积累,要物流数据是为了 客户服务体验和数据商业化,没有数据我这种轻资产公司就什么 都不是了。
大数据是什么?
大数据(Big Data):
指无法在一定时间范围内用常规 软件工具进行捕捉、管理和处理的数 据集合,是需要新处理模式才能具有 更强的决策力、洞察发现力和流程优 化能力的海量、高增长率和多样化的 信息资产。
简单一点的说,就是用现有一般技术 难以管理的数据。
大数据的典型特征
✓ Volume(容量) 数据量大,包括采集、存储和计算的量都非常大。
✓ Variety(多样性) 种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日
志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了 更高的要求 ✓ Velocity(速度)
数据增长速度快,处理速度也快,时效性要求高。数据产生和更新的频率 ✓ Value (价值)
数据做什么?
能干的太多了,用户画像、精准营销、用户体验提升、决策辅助等 等,我们就说说个简单的: 用户画像 上面整个过程中,系统已经给用户做了画像。 姑娘A,家住北京,电话,地址,25-35岁,女性,消费能力中等, 资产情况好,准备生姑娘下次打开淘宝的时候(手机/PC),系 统页面自动会将下面产品放在首页: 母婴用品,中高端(孕妇装、儿童装、纸尿裤、奶 粉统统来一套)服装,中高化妆品,国内知名品 牌。。。。。。 剩下的事情你懂得,淘宝页面可是很有限的,为了 提高广告效率,你看把我家淘宝累成啥样了?所以 卖货的筒子,赶紧掏钱啊,引流效果很好的。。。。 还可以这样: 当姑娘A登陆虾米音乐的时候,阿里就直接给他推 送25-35岁女性的歌曲,顺便把A常听的歌曲也加入 数据库。。。 打开支付宝的时候,顺手推荐下理财产品,反正A 也有闲钱,放着多浪费啊,来看看这些。。。 顺手还能推荐一下儿童的0岁保险^_^.
大数据与数据挖掘ppt课件
2020/4/13
.
20
数据
数据集的特点
➢ 数据的稀疏性 ➢ 数据的分布 ➢ 数据的覆盖范围 ➢…
数据挖掘的结果和数据集有很大的关联 挖掘之前需要了解数据
2020/4/13
.
21
数据
数据的相似性度量
➢ 度量的三个性质
▪ 非负性、对称性、三角不等式
➢ 各种评价相似性的方法
▪ 欧几里得距离、明考斯基距离、余弦相似度、皮尔森 相关系数
具体内容逐步调整
研讨是主要的授课方式
2020/4/13
.
11
Web数据管理和数据挖掘
本课程的教学目的
➢ 了解大规模WEB数据(包括HTML数据、XML等类型数据)的管理与 挖掘技术,及其在WEB领域中的应用,学会充分利用领域内的信息
课程内容
➢ 网络爬虫技术
▪ DNS解析、链接抽取、重复网页处理、…
朱扬勇等,《数据挖掘技术及其应用》 Pang-Ning Tan, M. Steinbach, and V. Kumar. Introduction to Data Mining (影印版 ), 人民邮电出版社, 2006.1. Ian Witten, and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques (影印版, 第2版), 机械工业出版社, 2005.9. David Hand, H. Mannila, and P. Smyth. Principles of Data Mining, 机械工业出版 社, 2003.4. T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001 Data and XML, Morgan Kaufman Publishers, 2000 6. KDD, VLDB, SIGMOD, ICDM, SDM, ICML等会议论文
大数据分析与挖掘ppt优质版(30张)
随着大数据的广泛应用,数据安全和隐私保护将成为越来越重要的问 题,需要采取更加有效的措施来保护用户隐私和数据安全。
跨领域应用拓展
大数据将在更多领域得到应用拓展,如医疗、教育、金融等,推动这 些领域的数字化转型和创新发展。
ቤተ መጻሕፍቲ ባይዱ
02
数据分析基础
数据类型及来源
01
02
03
04
结构化数据
如关系型数据库中的表格数据 ,具有固定的数据结构和类型
建立大数据创新团队
组建专门的大数据创新团队,负责大数据技术的研发和创新应用 ,推动企业大数据战略的实施。
07
总结回顾与展望未来发展 趋势
本次课程重点内容回顾
大数据分析基本概念及技术应 用领域
数据预处理、特征提取与降维 技术
深度学习在大数据分析中的应 用与挑战
数据挖掘过程、算法分类及其 应用场景
经典机器学习算法原理及实践 案例
型、类别型等。
数据归一化
消除数据间的量纲差异 ,使数据具有可比性。
特征选择
选择与分析目标相关的 特征,去除无关特征。
数据可视化呈现
图表类型选择
根据数据类型和分析目标选择 合适的图表类型,如柱状图、
折线图、散点图等。
数据可视化工具
如Excel、Tableau、Power BI 等,可实现数据的快速可视化 呈现。
建立数据集成与共享机制,实现企业内部不同系统之间的数据互通和共
享,提高数据利用效率。
培养和引进优秀人才团队
制定人才培养计划
针对企业内部员工,制定大数据人才培养计划,通过培训、实践 等方式提升员工的大数据技能。
引进外部优秀人才
积极招聘具有大数据技能和经验的优秀人才,为企业的大数据战 略提供有力的人才保障。
跨领域应用拓展
大数据将在更多领域得到应用拓展,如医疗、教育、金融等,推动这 些领域的数字化转型和创新发展。
ቤተ መጻሕፍቲ ባይዱ
02
数据分析基础
数据类型及来源
01
02
03
04
结构化数据
如关系型数据库中的表格数据 ,具有固定的数据结构和类型
建立大数据创新团队
组建专门的大数据创新团队,负责大数据技术的研发和创新应用 ,推动企业大数据战略的实施。
07
总结回顾与展望未来发展 趋势
本次课程重点内容回顾
大数据分析基本概念及技术应 用领域
数据预处理、特征提取与降维 技术
深度学习在大数据分析中的应 用与挑战
数据挖掘过程、算法分类及其 应用场景
经典机器学习算法原理及实践 案例
型、类别型等。
数据归一化
消除数据间的量纲差异 ,使数据具有可比性。
特征选择
选择与分析目标相关的 特征,去除无关特征。
数据可视化呈现
图表类型选择
根据数据类型和分析目标选择 合适的图表类型,如柱状图、
折线图、散点图等。
数据可视化工具
如Excel、Tableau、Power BI 等,可实现数据的快速可视化 呈现。
建立数据集成与共享机制,实现企业内部不同系统之间的数据互通和共
享,提高数据利用效率。
培养和引进优秀人才团队
制定人才培养计划
针对企业内部员工,制定大数据人才培养计划,通过培训、实践 等方式提升员工的大数据技能。
引进外部优秀人才
积极招聘具有大数据技能和经验的优秀人才,为企业的大数据战 略提供有力的人才保障。
大数据分析与挖掘培训课件(PPT30页)
有用的数据仅仅有一两秒 ④ 速度快:产生了大量的高速动态数据流,对数据流的实时
分析与处理要求不断增加,数据处理的越及时,产生的价 值越大。
大数据分析与挖掘培训课件(PPT30页)
9
大数据分析与挖掘培训课件(PPT30页)
大数据基本特征的第五个V:Veracity 数据的不确定性
大数据分析与挖掘培训课件(PPT30页)
数据挖掘背后的 大数据思维
在数据挖掘的思想中,知识的学习是不需 要通过具体问题的专业知识建模。
这其实是模拟了人的原始学习过程 --- 比 如你要预测一个人跑100米要多久时间, 可以根据之前了解的他这样体型的人跑 100米用的多少时间做一个估计,而不会 使用牛顿定律来算。
大数据分析与挖掘培训课件(PPT30页)
13
大数据分析与挖掘培训课件(PPT30页)
数据挖掘:Data Mining 一般流程
大数据分析与挖掘培训课件(PPT30页)
14
大数据分析与挖掘培训课件(PPT30页)
数据挖掘:Data Mining 功能
➢关联规则 ➢分类与预测 ➢聚类分析 ➢…
大数据分析与挖掘培训课件(PPT30页)
15
大数据分析与挖掘培训课件(PPT30页)
数据挖掘:Data Mining 关联规则
大数据分析与挖掘培训课件(PPT30页)
16
大数据分析与挖掘培训课件(PPT30页)
关联规则:零售业应用
几十年来,大型零售商塔吉特收集了海量的数据,记 录了每一位经常光顾其各分店的顾客数据。
发现女客户会在怀孕四个月左右,大量购买无香味乳 液。由此挖掘出25项与怀孕高度相关的商品,制作“ 怀孕预测”指数。
大数据分析与挖掘培训课件(PPT30页)
分析与处理要求不断增加,数据处理的越及时,产生的价 值越大。
大数据分析与挖掘培训课件(PPT30页)
9
大数据分析与挖掘培训课件(PPT30页)
大数据基本特征的第五个V:Veracity 数据的不确定性
大数据分析与挖掘培训课件(PPT30页)
数据挖掘背后的 大数据思维
在数据挖掘的思想中,知识的学习是不需 要通过具体问题的专业知识建模。
这其实是模拟了人的原始学习过程 --- 比 如你要预测一个人跑100米要多久时间, 可以根据之前了解的他这样体型的人跑 100米用的多少时间做一个估计,而不会 使用牛顿定律来算。
大数据分析与挖掘培训课件(PPT30页)
13
大数据分析与挖掘培训课件(PPT30页)
数据挖掘:Data Mining 一般流程
大数据分析与挖掘培训课件(PPT30页)
14
大数据分析与挖掘培训课件(PPT30页)
数据挖掘:Data Mining 功能
➢关联规则 ➢分类与预测 ➢聚类分析 ➢…
大数据分析与挖掘培训课件(PPT30页)
15
大数据分析与挖掘培训课件(PPT30页)
数据挖掘:Data Mining 关联规则
大数据分析与挖掘培训课件(PPT30页)
16
大数据分析与挖掘培训课件(PPT30页)
关联规则:零售业应用
几十年来,大型零售商塔吉特收集了海量的数据,记 录了每一位经常光顾其各分店的顾客数据。
发现女客户会在怀孕四个月左右,大量购买无香味乳 液。由此挖掘出25项与怀孕高度相关的商品,制作“ 怀孕预测”指数。
大数据分析与挖掘培训课件(PPT30页)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.制造设备生命周祺管理 2.制造业投入产出预测
1.空气质量预测 2.卷烟消费者购买行为分析 3.纳税人偷税漏税评估
目录
➢ 联合实验室 ➢ 大数据分析平台 ➢ 产品技术架构 ➢ 典型行业应用案例
技术架构解决方案-要解决的问题
基于spark内存的计算模型,同时支持批处理、交互式处理、流 处理。
交互式查询
审计行业大数据知识推理系统 (国家863项目)
家863计划 2. 审计数据中心平台,全国推广中。
房地产大数据分析
1. 建立房产数据开发服务平台,提供公众服务。 2. 房地产价值评估。建立房产评估模型,房地产指数等模
型。
制造业大数据信息挖掘云图
1. 制造业生产设备生命周期大数据分析。 2. 制造业信息云图。
特点
➢基于Spark平台 ➢内存计算
场景应用(实验室模拟实验课题)
功能模块 金融电信行业
电力行业
互联网行业 制造业行业 公共服务业
1.信用卡用户流失预测 2.基于客户分群的精准智能营销 3.基于公司价值评价的证券策略投资
1.电力负荷预测 2.自适应防窃漏电实时诊断
1.电子商务网站用户行为分析 2.基于用户行为分析的定向广告投放 3.企业信息系统用户服务感知评估
1)云BI技术及大数据平台的核心技 术研究 2)大数据云BI在国内应用是未来趋 势,有望建成国内第一家云BI平台
实验室介绍-研究成果
产学研合作项目
合作成果
大数据环境下的无重叠视域跟踪 技术研究项目
1)智慧城市合作 2)9项大数据视频专利 3)多项国家自然科学基金
4)大数据视频分析平台
1. 课题《大数据环境下基于案例的知识推理平台》申请国
数据挖掘应用领域
数据挖掘越来越多的应用到了各个领域中,主要包括与客户关系管理相关的模型、与风 险控制相关的模型、与生产销售预测相关的模型等
产品
产品名 ETHINK可视化挖掘
概要
通过在浏览器内,鼠标拖拽形 式实现加载数据、转换、建模 、评估、图形以及结果输出
特点
通过视觉工作方式轻松获得此 界面可以保障操作的灵活性 在最短的时间内形成最多样的 模型大数据挖掘,速度快
➢ 高并发查询
– 按主键毫秒级检索 – 按多维度秒级检索 – 按照关键字秒级检索
接口
审计数 据中心
疑 点 数 据
房地产大数据
利用大数据建模技术,实现房地产价格指数、房地产评估模型
碳交易
利用大数据建模技术,建立全省碳排放计量监测体系的数据体系、技术 体系、模型体系和评估体系,形成满足碳排放计量关系方程和参数
目录
➢ 联合实验室 ➢ 大数据分析平台 ➢ 产品技术架构 ➢ 典型行业应用案例
目录
➢ 联合实验室 ➢ 大数据分析平台 ➢ 产品技术架构 ➢ 典型行业应用案例
实验室介绍-技术技基础术研基究础方向研究方向
研究方向
大数据 可视化挖掘
关键任务
制高点
1)新型内存迭代数据挖掘算法 2)数据挖掘可视化开发平台 3)房地产、金融、电信等机器 学习模型研究
1)基于内存计算的机器学习算法 2)行业大数据深度机器学习模型 3)大数据可视化统计分析平台
平板 多维自助分析
电脑
可视化数据 挖掘平台
OLAP Server
SQL接口
JDBC/ODBC
交互式查询
内存计算服务 Scala /Java/Python
数据挖掘模型算法库/语义分析
实时流处理
批处理
关系型数据库
Hbase/Hive/Hdfs
调
度
管
理
特点一
丰富建模方法
大数据 内存计算
大数据语 义分析
1)基于内存的迭代算法研究 1)基于大数据内存的计算技术 2)内存大数据高速统计分析技 2)国内产品领先 术
1)大数据自然语言识别
2)非结构化数据的知识发现、 大数据平台的可视化集成目前是空
集成技术
白领域
大数据 云计算技术
1)大数据云计算平台技术 2)商业智能云平台技术
碳交易平台
1.大数据碳金融算法与模型建立。 2.碳交易与分析平台。
大数据环境下的无重叠视域跟踪
大数据技术,解决视频领域的知识识别, 知识发现,知识集成与跟踪,推理等关键 技术问题。
多项国家自然科学基金
开创了基于人类视觉智能的动态目标捕捉、跟踪和行为分析的研 究,在国内外杂志、会议发表了多篇高水平论文。 获得视频识别,知识学习与推理相关发明专利2项,申请发明专利 7项。
特点
➢基于Spark平台 ➢内存计算 ➢运算速度快
特点
➢ BS结构,一站式建模、评估、部署
特点三
执行数据挖掘时,方法论非常重要. 因为准确的方法论能够提高作业速度, 能系 统地减少各大种数进据展处理状能况力 ,所以选择正确的方法论是很重要的. CRISP-DM 方法论 是全球认可的数据挖掘的标准执行方法论.
批处理
实时 在线处理
实时 流处理
技术架构解决方案-分布式内存计算
批处理应用
(分钟级别~小时级别)
实时流处理
(持续不断)
OLTP/在线事务处理应 用
(毫秒~秒级别)
OLAP/在线交互式分析应用
(秒级别)
技术架构解决方案-交互式查询
通常的时间跨度在数十秒到数分钟之间
◦ 按数据维度进行统计、聚合 ◦ 根据历史数据进行拟合和预测 ◦ 计算数据之间的相关性和模式等 ◦ 适合提供高速在线分析服
特点
➢可扩展性强 ➢自定义模型,扩充组件
可拖拽式建模
传统的关系型数据(mysql、Oracle等) 列式数据库(Hbase) 非结构化数据(Hdfs、文件系统) 大数据(Hbase、Hive)
特点
➢ JDBC ➢ Web Services ➢ Restful api
特点二
大数据处理
开放型平台
GB
PB
典型应用场景
◦ 政府各部门数据 ◦ 证券交易 ◦ 银行保险 ◦ 企业ERP/CRM等
适用于数据量在GB到TB的高速数据分 析
技术架构解决方案-实时在线处理
➢ 通常的时间跨度在数百毫秒 到数秒之间
– 数据来源多、高并发、数据处 理量达
– 分析结果快速响应
➢ 典型应用场景
– 社交网络分析、关联关系分析 – 用户分类、用户行为预测
审计行业大数据知识推理系统
大数据技术来实现国家经济免疫系统
传统审计
无法跨地区、跨行业审计
大数据审计
跨行业、跨区域审计
事后审计、周期性审计 复杂性隐蔽问题难以发现 依据小样本经验地毯式排查
连续审计 智能化,具有预测功能 大数据分析,建立抵御和预防手段
审计跨12个行业,跨地区数据源
大数据知识推理系统
数据
1.空气质量预测 2.卷烟消费者购买行为分析 3.纳税人偷税漏税评估
目录
➢ 联合实验室 ➢ 大数据分析平台 ➢ 产品技术架构 ➢ 典型行业应用案例
技术架构解决方案-要解决的问题
基于spark内存的计算模型,同时支持批处理、交互式处理、流 处理。
交互式查询
审计行业大数据知识推理系统 (国家863项目)
家863计划 2. 审计数据中心平台,全国推广中。
房地产大数据分析
1. 建立房产数据开发服务平台,提供公众服务。 2. 房地产价值评估。建立房产评估模型,房地产指数等模
型。
制造业大数据信息挖掘云图
1. 制造业生产设备生命周期大数据分析。 2. 制造业信息云图。
特点
➢基于Spark平台 ➢内存计算
场景应用(实验室模拟实验课题)
功能模块 金融电信行业
电力行业
互联网行业 制造业行业 公共服务业
1.信用卡用户流失预测 2.基于客户分群的精准智能营销 3.基于公司价值评价的证券策略投资
1.电力负荷预测 2.自适应防窃漏电实时诊断
1.电子商务网站用户行为分析 2.基于用户行为分析的定向广告投放 3.企业信息系统用户服务感知评估
1)云BI技术及大数据平台的核心技 术研究 2)大数据云BI在国内应用是未来趋 势,有望建成国内第一家云BI平台
实验室介绍-研究成果
产学研合作项目
合作成果
大数据环境下的无重叠视域跟踪 技术研究项目
1)智慧城市合作 2)9项大数据视频专利 3)多项国家自然科学基金
4)大数据视频分析平台
1. 课题《大数据环境下基于案例的知识推理平台》申请国
数据挖掘应用领域
数据挖掘越来越多的应用到了各个领域中,主要包括与客户关系管理相关的模型、与风 险控制相关的模型、与生产销售预测相关的模型等
产品
产品名 ETHINK可视化挖掘
概要
通过在浏览器内,鼠标拖拽形 式实现加载数据、转换、建模 、评估、图形以及结果输出
特点
通过视觉工作方式轻松获得此 界面可以保障操作的灵活性 在最短的时间内形成最多样的 模型大数据挖掘,速度快
➢ 高并发查询
– 按主键毫秒级检索 – 按多维度秒级检索 – 按照关键字秒级检索
接口
审计数 据中心
疑 点 数 据
房地产大数据
利用大数据建模技术,实现房地产价格指数、房地产评估模型
碳交易
利用大数据建模技术,建立全省碳排放计量监测体系的数据体系、技术 体系、模型体系和评估体系,形成满足碳排放计量关系方程和参数
目录
➢ 联合实验室 ➢ 大数据分析平台 ➢ 产品技术架构 ➢ 典型行业应用案例
目录
➢ 联合实验室 ➢ 大数据分析平台 ➢ 产品技术架构 ➢ 典型行业应用案例
实验室介绍-技术技基础术研基究础方向研究方向
研究方向
大数据 可视化挖掘
关键任务
制高点
1)新型内存迭代数据挖掘算法 2)数据挖掘可视化开发平台 3)房地产、金融、电信等机器 学习模型研究
1)基于内存计算的机器学习算法 2)行业大数据深度机器学习模型 3)大数据可视化统计分析平台
平板 多维自助分析
电脑
可视化数据 挖掘平台
OLAP Server
SQL接口
JDBC/ODBC
交互式查询
内存计算服务 Scala /Java/Python
数据挖掘模型算法库/语义分析
实时流处理
批处理
关系型数据库
Hbase/Hive/Hdfs
调
度
管
理
特点一
丰富建模方法
大数据 内存计算
大数据语 义分析
1)基于内存的迭代算法研究 1)基于大数据内存的计算技术 2)内存大数据高速统计分析技 2)国内产品领先 术
1)大数据自然语言识别
2)非结构化数据的知识发现、 大数据平台的可视化集成目前是空
集成技术
白领域
大数据 云计算技术
1)大数据云计算平台技术 2)商业智能云平台技术
碳交易平台
1.大数据碳金融算法与模型建立。 2.碳交易与分析平台。
大数据环境下的无重叠视域跟踪
大数据技术,解决视频领域的知识识别, 知识发现,知识集成与跟踪,推理等关键 技术问题。
多项国家自然科学基金
开创了基于人类视觉智能的动态目标捕捉、跟踪和行为分析的研 究,在国内外杂志、会议发表了多篇高水平论文。 获得视频识别,知识学习与推理相关发明专利2项,申请发明专利 7项。
特点
➢基于Spark平台 ➢内存计算 ➢运算速度快
特点
➢ BS结构,一站式建模、评估、部署
特点三
执行数据挖掘时,方法论非常重要. 因为准确的方法论能够提高作业速度, 能系 统地减少各大种数进据展处理状能况力 ,所以选择正确的方法论是很重要的. CRISP-DM 方法论 是全球认可的数据挖掘的标准执行方法论.
批处理
实时 在线处理
实时 流处理
技术架构解决方案-分布式内存计算
批处理应用
(分钟级别~小时级别)
实时流处理
(持续不断)
OLTP/在线事务处理应 用
(毫秒~秒级别)
OLAP/在线交互式分析应用
(秒级别)
技术架构解决方案-交互式查询
通常的时间跨度在数十秒到数分钟之间
◦ 按数据维度进行统计、聚合 ◦ 根据历史数据进行拟合和预测 ◦ 计算数据之间的相关性和模式等 ◦ 适合提供高速在线分析服
特点
➢可扩展性强 ➢自定义模型,扩充组件
可拖拽式建模
传统的关系型数据(mysql、Oracle等) 列式数据库(Hbase) 非结构化数据(Hdfs、文件系统) 大数据(Hbase、Hive)
特点
➢ JDBC ➢ Web Services ➢ Restful api
特点二
大数据处理
开放型平台
GB
PB
典型应用场景
◦ 政府各部门数据 ◦ 证券交易 ◦ 银行保险 ◦ 企业ERP/CRM等
适用于数据量在GB到TB的高速数据分 析
技术架构解决方案-实时在线处理
➢ 通常的时间跨度在数百毫秒 到数秒之间
– 数据来源多、高并发、数据处 理量达
– 分析结果快速响应
➢ 典型应用场景
– 社交网络分析、关联关系分析 – 用户分类、用户行为预测
审计行业大数据知识推理系统
大数据技术来实现国家经济免疫系统
传统审计
无法跨地区、跨行业审计
大数据审计
跨行业、跨区域审计
事后审计、周期性审计 复杂性隐蔽问题难以发现 依据小样本经验地毯式排查
连续审计 智能化,具有预测功能 大数据分析,建立抵御和预防手段
审计跨12个行业,跨地区数据源
大数据知识推理系统
数据