在线商城精细化业务运营系统方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
价值、专业、分享、快乐
在线商城精细化业务运营系统方案
Fra Baidu bibliotek
在线商城精细化业务运营系统建设目标
在线商城精细化业务运营系统建设目标分为两 部分:大数据平台层和数据分析引擎(大数据 应用)。
• 构建一个海尔电商业务大数据平台,收集、 存储和组织多源在线商城电子商务及相关业 务数据;
• 数据分析引擎,包括BI商业智能分析系统、 智慧供应链管理、推荐营销系统,对电商业 务及相关业务数据进行监控、分析和挖掘, 并进行可视化数据展现;
7
数据引擎--大数据应用
告警
关系型 数据库
其他存 储集群
外部数 据接口
中间计算结果及数据接口
可视化 数据展
现
大数据应用App 数据引擎
BI商业 智能
智能供应 链管理
推荐系 统
电商业 务大数 据应用 系统
行业属性 + 算法 = 大数据应用系统(帮助用户自动化数据分析:BI商业智能、个性 化推荐、智能供应链管理)
8
在线商城精细化业务营销--数据分析
数据分析是指用适当的统计分析方法,对收集来的大量数据进行分析,提取出有价 值的信息,总结出所研究对象的内在规律。
在线商城精细化业 务运营 数据分析
描述性
数据分析
常见的分析方法, 统计商城常规性指
标。
EDA探索性
数据分析
侧重在数据之中发 现新的特征,高级
数据分析
CDA验证性
HDFS 分布式文件系统
分布式数据库 ETL清洗
序列化 Flume & Sqoop
Oracle
MySQL
SQL Server
电商业务结构化数据
日志
点击流
其他数据接口
电商业务半结构化 / 非结构化数据
电商业务半结构化和非 结构化数据:
各种日志数据(通 常序列化半结构化 数据)直接存放到 HDFS中;
数据集市
Hive 数据仓库
分布式文件系统(存放电商相关业务数据)
数据接口、ETL数据抽取、数据处理
在线 商城 数据 平台
Hadoop Hive 数据仓库
业务主题
业务主题
数据集市
HDFS分布式文件系统中存放海量的结构化和半结构化数据,合理化组织数 据的存储:
1. 电商业务结构化数据和有一定格式关系的半结构化的数据存放在 Hadoop Hive数据仓库中,并根据海尔商业的业务需求,根据业务主题 进行数据集市的构建;
数据分析
侧重于验证已有假 设是否成立,高级
数据分析
商城BI分析,KPI
商城的智能供应链
商城的智能供应链
制订和监控
管理、推荐系统
管理、推荐系统
9
在线商城精细化业务--BI商业智能分析
• 平均订单金额 = 下单金额/下单单量 • 销售额 = 访客数 * 转化率 * 客单价,提升
• 客单价 = 下单金额/下单客户数
数据计算
• 数据处理包括数据清洗、数据转化、数据提取、数据计算等处理方法。 • 数据处理最基本的目的是从大量杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
5
在线商城大数据组织及存储
监控
Storm实时流式 计算框架
NoSQL数据库(文 档、图形数据库)
HBase 列族数据库
2
在线商城精细化业务运营系统
结构化数据 半&非结构化数据
告警
关系型 数据库
其他存 储集群
外部数 据接口
中间计算结果及数据接口
可视化 数据展
现
BI商业 智能
大数据应用App
智能供应 链管理
推荐系 统
监控
Storm实时流式 计算框架
NoSQL数据库(文 档、图形数据库)
HBase 列族数据库
数据集市
Hive 数据仓库
4
数据处理
数据处理对收集到的数据进行加工整理,形成适合数 据分析的样式,是数据分析前必须经历的过程。
分布式数据库 ETL数据处理
Flume & Sqoop
Oracle
MySQL
SQL Server
结构化数据(电商业务数据)
数据清洗
数据转换
数据提取
数据处理要解决的问题: • 重复的数据处理 • 缺失的数据处理 • 格式不统一的数据处理 • 检查数据逻辑错误 • 需要进行计算的数据处理
点击流和数据接口 中的数据(通常序 列化半结构化数据) 直接存放到HDFS中;
非结构化的数据直 接存放到HDFS中;
电商业务结构化数据,通过两种途径抽取并存放到HDFS分布式文件系统中:
能够序列化的数据,直接存放到HDFS中;
不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中,再经过序列化后再存放到HDFS中,经 整理后还不能序列化的数据也直接存放到HDFS中;
根据在线商城数据分析的实时性和延时需求,可选择不同的大数据计算框架构建查询分 析业务:
Storm实时内存流数据计算框架:一个分布式的、容错的、实时的内存流式计算系统;
Hadoop离线大数据计算框架:大数据离线批处理系统,传统大数据离线MapReduce计算分析;
Spark并行大数据计算框架:Hadoop MapReduce的通用的并行计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从 而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
行业业务属性决定计算的逻辑,计算数学是实现计算逻辑的方法(利用数学领域的算法和理论) 数据分析不仅仅指运算数据,还包括全面了解数据分析所处的背景和环境 数据分析结果可以保存在多种结构中 数据也可以在不同的分布式集群之间进行传输、复制、同步 数据分析结果可以通过多种展现形式(表格、各种展现图)进行数据展现
分布式文件系统(存放电商相关业务数据)
数据接口、ETL数据抽取、数据处理
电商业 务大数 据应用 系统
电商业 务大数 据平台
被动采数据 主动采数据
被动采数据
电商业务 系统app
结构化数据
O2O 系统
被动采数据
1. 主动传数据
半结构化 / 2. 被动采数据
PC 非结构化数 据
3
多数据源抽取并存储
NoSQL
2. 在线商城业务中半结构化的数据直接存放在HDFS分布式文件系统中,一 定格式关系的半结构化数据存放在Hadoop HBase列族数据库中和其他 NoSQL数据库中;
6
大数据计算框架
计
Storm内存流式计算框架
算
Hadoop离线计算框架
Spark 并行计算框架
层
适用于实时查询分析
适用于离线的大数据统计分析 适用于大数据并行计算
在线商城精细化业务运营系统方案
Fra Baidu bibliotek
在线商城精细化业务运营系统建设目标
在线商城精细化业务运营系统建设目标分为两 部分:大数据平台层和数据分析引擎(大数据 应用)。
• 构建一个海尔电商业务大数据平台,收集、 存储和组织多源在线商城电子商务及相关业 务数据;
• 数据分析引擎,包括BI商业智能分析系统、 智慧供应链管理、推荐营销系统,对电商业 务及相关业务数据进行监控、分析和挖掘, 并进行可视化数据展现;
7
数据引擎--大数据应用
告警
关系型 数据库
其他存 储集群
外部数 据接口
中间计算结果及数据接口
可视化 数据展
现
大数据应用App 数据引擎
BI商业 智能
智能供应 链管理
推荐系 统
电商业 务大数 据应用 系统
行业属性 + 算法 = 大数据应用系统(帮助用户自动化数据分析:BI商业智能、个性 化推荐、智能供应链管理)
8
在线商城精细化业务营销--数据分析
数据分析是指用适当的统计分析方法,对收集来的大量数据进行分析,提取出有价 值的信息,总结出所研究对象的内在规律。
在线商城精细化业 务运营 数据分析
描述性
数据分析
常见的分析方法, 统计商城常规性指
标。
EDA探索性
数据分析
侧重在数据之中发 现新的特征,高级
数据分析
CDA验证性
HDFS 分布式文件系统
分布式数据库 ETL清洗
序列化 Flume & Sqoop
Oracle
MySQL
SQL Server
电商业务结构化数据
日志
点击流
其他数据接口
电商业务半结构化 / 非结构化数据
电商业务半结构化和非 结构化数据:
各种日志数据(通 常序列化半结构化 数据)直接存放到 HDFS中;
数据集市
Hive 数据仓库
分布式文件系统(存放电商相关业务数据)
数据接口、ETL数据抽取、数据处理
在线 商城 数据 平台
Hadoop Hive 数据仓库
业务主题
业务主题
数据集市
HDFS分布式文件系统中存放海量的结构化和半结构化数据,合理化组织数 据的存储:
1. 电商业务结构化数据和有一定格式关系的半结构化的数据存放在 Hadoop Hive数据仓库中,并根据海尔商业的业务需求,根据业务主题 进行数据集市的构建;
数据分析
侧重于验证已有假 设是否成立,高级
数据分析
商城BI分析,KPI
商城的智能供应链
商城的智能供应链
制订和监控
管理、推荐系统
管理、推荐系统
9
在线商城精细化业务--BI商业智能分析
• 平均订单金额 = 下单金额/下单单量 • 销售额 = 访客数 * 转化率 * 客单价,提升
• 客单价 = 下单金额/下单客户数
数据计算
• 数据处理包括数据清洗、数据转化、数据提取、数据计算等处理方法。 • 数据处理最基本的目的是从大量杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
5
在线商城大数据组织及存储
监控
Storm实时流式 计算框架
NoSQL数据库(文 档、图形数据库)
HBase 列族数据库
2
在线商城精细化业务运营系统
结构化数据 半&非结构化数据
告警
关系型 数据库
其他存 储集群
外部数 据接口
中间计算结果及数据接口
可视化 数据展
现
BI商业 智能
大数据应用App
智能供应 链管理
推荐系 统
监控
Storm实时流式 计算框架
NoSQL数据库(文 档、图形数据库)
HBase 列族数据库
数据集市
Hive 数据仓库
4
数据处理
数据处理对收集到的数据进行加工整理,形成适合数 据分析的样式,是数据分析前必须经历的过程。
分布式数据库 ETL数据处理
Flume & Sqoop
Oracle
MySQL
SQL Server
结构化数据(电商业务数据)
数据清洗
数据转换
数据提取
数据处理要解决的问题: • 重复的数据处理 • 缺失的数据处理 • 格式不统一的数据处理 • 检查数据逻辑错误 • 需要进行计算的数据处理
点击流和数据接口 中的数据(通常序 列化半结构化数据) 直接存放到HDFS中;
非结构化的数据直 接存放到HDFS中;
电商业务结构化数据,通过两种途径抽取并存放到HDFS分布式文件系统中:
能够序列化的数据,直接存放到HDFS中;
不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中,再经过序列化后再存放到HDFS中,经 整理后还不能序列化的数据也直接存放到HDFS中;
根据在线商城数据分析的实时性和延时需求,可选择不同的大数据计算框架构建查询分 析业务:
Storm实时内存流数据计算框架:一个分布式的、容错的、实时的内存流式计算系统;
Hadoop离线大数据计算框架:大数据离线批处理系统,传统大数据离线MapReduce计算分析;
Spark并行大数据计算框架:Hadoop MapReduce的通用的并行计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从 而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
行业业务属性决定计算的逻辑,计算数学是实现计算逻辑的方法(利用数学领域的算法和理论) 数据分析不仅仅指运算数据,还包括全面了解数据分析所处的背景和环境 数据分析结果可以保存在多种结构中 数据也可以在不同的分布式集群之间进行传输、复制、同步 数据分析结果可以通过多种展现形式(表格、各种展现图)进行数据展现
分布式文件系统(存放电商相关业务数据)
数据接口、ETL数据抽取、数据处理
电商业 务大数 据应用 系统
电商业 务大数 据平台
被动采数据 主动采数据
被动采数据
电商业务 系统app
结构化数据
O2O 系统
被动采数据
1. 主动传数据
半结构化 / 2. 被动采数据
PC 非结构化数 据
3
多数据源抽取并存储
NoSQL
2. 在线商城业务中半结构化的数据直接存放在HDFS分布式文件系统中,一 定格式关系的半结构化数据存放在Hadoop HBase列族数据库中和其他 NoSQL数据库中;
6
大数据计算框架
计
Storm内存流式计算框架
算
Hadoop离线计算框架
Spark 并行计算框架
层
适用于实时查询分析
适用于离线的大数据统计分析 适用于大数据并行计算