大数据与大数据技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
Internet of Customers and Internet of Things
IoT 解决方案
You have devices on the network edge…
that provide you data…
Table Storage
that you that enable you to understand,change apply your business… rules, models and more…
提供工业MPP级别查询性能 线性可扩展 标准JDBC SQL界面,直连BO,Tableau , Qlikview, MSTR等报表工具
技术方案:特点小结 基于开源系统的成熟商用插件方案
部署简便 提高开发效率 降低实施风险 基于内存的计算 性能优异
全部基于唯一Hadoop集群内,统一存储统一计算
客户画像参考架构
关联
集成引擎
CRM账户信息及客 户特征
分析
ACTIAN分析平台
数据库分析
低延迟查询
行动
API链接
查询可视化报表 分析工具及应用
数据库集群/服务器
EDW交易历史 数据库链接
HDFS/NFS
数据流引擎
数据混合与浓缩
购买周期趋势
文本分割链接
创建客户档案
人口分布
HDFS API
第一阶段
购买人口特征
流式处理 实时,流数据
数据流 输出
批次处理
Spark
转换 清洗
HDFS 文件
数据库,文件,批次数据
治理
基于用户数据理解地模型预测
图形化数据准备挖掘 运用Spark Mlib 等进行计算 结果回写入Impala或者HIVE
非结构化数据为存储的新型SQL
基于落地HDFS的文件或HBASE进行SQL建表解析
Blob Storage Basic Sensors Intelligent Devices SQL Databases Event Hub (Service Bus) DocumentDB Predictive Maintenance Command and Control Machine Learning Hadoop
二手车 Used Car
• • 车况分析报告 Assess Report 二手车联合鉴定 United Assessment
生产制造 Production 租赁 Leasing
• 车队管理 Fleet Mgmt. 汽车共享 Car Sharing
设计研发 R&D
•
保养 Maintain
预测性保养提醒 Proactive Reminder 汽车延保 Extended Warranty
数据安全以及认证(Portal集成) 管理控制台 (CloudEra、Talend、KNIME)
前端应用
报表
SQL in Hadoop
DATA PLATFORM(HDFS)
S Q L(ODBC、 JDBC、、。NET)
灵活数据准备
下游系统
数据挖掘与预测
API:Java, C/++, Python
外部应用
• • 消费者画像 User Portrait 新车销售线索 Sales Leeds
车生活 In-Car Life 产品规划 Planning
• • 车内LBS服务 In-Car LBS 车载4G热点 Onboard 4G WIFI
市场营销 Marketing
车辆全生命周期 Car Full Life Cycle
பைடு நூலகம்
Advanced Analytic Service All Rights Reserved 2016
9
Hadoop技术的发展
物联网应用需要将Hadoop变为一个高性能的分析平台 需要Hadoop不光能存储数据,更要能够处理计算数据
基于大数据技术的数据分析处理 SQL 分析
时间、用户、地理位置、 事件 等标签
Calculate the score
38
驾驶行为评分
用车轨迹--用户画像
When
何时
Where 何地 Who What 是谁 做什么
商务人士
Biz Man
Commuter
• 客制化服务 Customization 车辆防盗,财产保护 Property Protection
•
•
金融 Finance 持续改进 Keep Improve
保险车联网 Telematics Insurance
试驾 Test Drive
保险 Insurance
售后保障 After Sales
新车销售 Car Sales
问题: • 缺少数据主题 • 重复开发和浪费成本 • 数据质量不可控 • 数据缺少管控 • BI 开发成本高,周期长 • 缺少业务分析平台 • 车辆数据采集能力有限 • 业务数据无法有效支持
大数据平台逻辑架构
数 据 管 理
系 统 管 理
车辆行驶日志
车辆行驶日志 车载系统日志
急加速、加速日志
实时数据计算
Vortex
Statistica
SQL on Hadoop 数据集成与准备 数据挖掘 云
竞争优势 HEADLINE
拥有多元化的数据科学家团 队和十余年的数据分析经验。 经十余年自主开发的IP打造 数据行业领先的技术优势。
数据
创新
追踪吸收和引进行业内最先 进的技术,产品和应用经验。 世界顶尖数据技术公司在中 国地区的首选合作伙伴。
分析
行动
将数据库连接至 EDW EDW交易历史
删除重复客户
连接至flat file 购买周期趋势 整合数据并载 入hadoop 在用户ID间连接数 据 识别人口微簇
创建客户档案
连接至flat file 购买人口特征
第一阶段
识别共同关键词 连接至flat file 购买家庭信息
连接至文本挖掘 应用 社交媒体关键字
大数据团队组织建设
内部团队与专业伙伴紧密合作
大数据管理员
数据科学家 Evan
数据与业务的结合
业务人员
咨询团队
大数据开发团队
技术平台支持
大数据技术应用
Advanced Analytic Services
音智达
2018/12/22
Advanced Analytic Service All Rights Reserved 2016
2
公司概况&发展历史 主要客户&大数据产品
公司简介
Advanced Analytic Services
音智达
2018/12/22
Advanced Analytic Service All Rights Reserved 2016
3
公司概况
专注于分析预测与行业应用的的大数据公司
业务1
北京 青岛 上海 深圳
挖掘预测 图形化数据分析
辅助技术:
Kafka, HBase, Cassandra, Accumulo
智能搜索
Hadoop 核心层
大数据技术的顾虑 技术更迭过快 开源产品成熟度 开发效率 与现有架构的关系 运维与安全
大数据平台计算框架
SQL
Y A R N
传统数仓功能
非结构化流式挖掘分析
软件架构 (举例)
IoT--智能工厂
二、工业4.0时代的智能制造
360 Customer Profile Micro-Segmentation Next Best Action Customer Sentiment
客户画像
关联
通过API与CRM 相连 CRM账户信息及 客户特征 载入Hadoop
减少数据传输迁移的同步问题 维护便捷:一套集群,维护简单 扩展性:无限扩展 线性提升
便捷的开发及报表展现工具
图形化 ETL,数据挖掘开发 便捷报表展现分析工具 建模过程100% 用户参与 IT基础架构与用户数据准备、探查、分析、预测分离
Advanced Analytic Service All Rights Reserved 2016 19
• •
新加坡 雅加达
业务3
大数据SaaS应用和DaaS服务
• • 基于云平台的软件即服务大数据应用 为企业提供全面的数据服务
发展历史
大数据技术
大数据应用 分析预测 数据挖掘 数据即服务
至今
14年来,
我们与数俱进
数据仓库 绩效管理 数据 集市
高级分析 数据可视化 看板管理
商务智能2.0
2002
主要客户
经验
在一大批竞争行业(汽车、 制药、快消、家电、物流等) 内拥有深厚的客户基础和众 多行业成功案例。
融合
追求行业业务能力和技术能力的 融合以及企业系统架构与解决业 务问题间的平衡,具有扎实的项 目实施能力。
大数据与大数据技术
Advanced Analytic Services
音智达
2018/12/22
专注于分析预测与行业应用的的大数据公司
Advanced Analytic Services
音智达
虞强 2016.10
议程 公司简介 大数据与大数据技术
大数据技术应用
大数据案例分享 问题讨论
Advanced Analytic Service All Rights Reserved 2016
固定文本链接
客户倾向
购买家庭信息 文本分割链接 删除重复客户 在用户ID间连接数据 识别共同关键字 社交媒体关键字 社交媒体链接 消费心理
集成服务器
HADOOP 集群/YARN
BI服务器
360度客户视图
车联网大数据应用
案例分享
Advanced Analytic Services
音智达
2018/12/22
第5步:驾驶行为评分计算
将驾驶风险评分,转化为对应的驾驶行为评分
37
驾驶行为评分—阈值计算
通过机器学习算法,实时的将所有用户数据代入驾驶风险概率模型, 动态计算相关阈值
Set response variable = uncomfortable maneuver Set predictor variable = acceleration, speed, turns
汽车制造 · 电子产品及家电 · 快消零售 · 医药与生命科学 · 航空与物流 · 高科技制造业 ·金融及其他
大数据软件产品
以
以
为 核 心 的 为 大 数 核 据 心 产 的 品 大 系 数 列
据 产 品
Hadoo pa d o o p H
Text here
流计算
机器学习
开源开发技术
数 据 可 视 化
Advanced Analytic Service All Rights Reserved 2016
31
项目背景
围绕车辆全生命周期,数据驱动的车联网与跨行业融合,可衍生出多样的商业模式与创 新服务;基于丰富的车联数据、多样的服务平台,可对行业、社会热点展开洞见分析, 同时挖掘更多的商业价值,拓展新的业务
用工具取代代码作坊
One Click
MapReduce Performance
(runs on disk)
Spark Performance
20X Faster (runs in-memory &
on disk)
同时处理实时与批次
推荐引擎 Spark Streaming/Kafka
转换 清洗 治理
维修 Repair
• • 预测性维修提醒 Proactive Reminder 远程在线升级 OTA Upgrade
•
•
安吉星大数据项目目标与当前的问题
目标: • 主数据(数据质量)的升级 • 主题模型落地,保持数据一致性 • 提高运维的灵活性 • 应用数据缓存的改造 • 用空间换时间的方法保护后台核心应用的正 常运行 • 企业经营分析的改造 • 提高运营速度和质量,降低数据开发成本 • 新业务的支持 • 驾驶行为分析 • 燃油分析 • 二手车评估 • 车况鉴定报告
提供基于大数据技术的预测性分析及商务智能解决方案
• • • • 300+ 技术服务人员 端到端的大数据平台 数据集成、数据挖掘与预测性分析、高级分析 企业级大数据仓库、企业绩效管理、商务智能 大数据平台、数据集成与准备工具、开源开发技术 自助式分析工具、数据可视化工具
业务2
提供全球顶尖的大数据软件产品
Plant Floor Things
Back Office Things
Supply Chain Things
External Storage
Query and reporting
Command and Control
IoT 的本质
本质是基于“信息物理系统”实现“智能化…”
二、工业4.0时代的智能制造
36
驾驶行为评分
第1步:建模变量的选择
• 从所有变量中,选取建模选定的变量
第2步:衍生建模变量计算
• 基于TP类别的变量,进行用户驾驶风险的初步计算
第3步:用户出险概率计算
• 基于第2步计算结果,结合HAHB类别变量,进行用户出险概率的计算
第4步:驾驶风险评分计算
将出险概率,转化为对应的驾驶风险评分