大数据背景下的数据分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
结构分析
分组分析
预警分析
杜邦分析
……
•统计学和计算机技 术等多学科的结合
•揭示数据之间隐藏 的关系
•将数据分析的范围 从“已知”扩展到 “未知”,从“过去” 推向“将来”
•一系列以事实为支 持,辅助商业决策的 技术和方法,曾用名 包括专家系统、智能 决策等
•一般由数据仓库、 联机分析处理、数据 挖掘、数据备份和恢 复等部分组成
大数据背景
2015年使大数据政策顶层设计年,2016年是大数据政策细化落地年,国家发改委、环 保部、工信部、国家林业局、农业部等均推出大数据发展意见和方案。
排名
文件名称
发文单位
发文时间
1
也没办法修改。 《大数据产业发展规划(2016-2020年)》
工信部
2016-12-30
2
《关于促进和规范健康医疗大数据应用发展的指导意见》
也没办法修改。
比较学术的说法是“大数 据”是指以多元形式,自许 多来源搜集而来的庞大数据 组,往往具有实时性。在企 业对企业销售的情况下,这 些数据可能得自社交网络、 电子商务网站、顾客来访纪 录,还有许多其他来源。这 些数据,并非公司顾客关系 管理数据库的常态数据组。
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
数据清洗&数据探索
数据收集的方法多种多样。在对收集的数据进行分析前,要明确数据类型、规模,对数据有初步理 解,同时要对数据中的“噪声”进行处理,以支持后续数据建模。
数据探索 • 特征描述 • 分布推断 • 结构优化
数据清洗
数据探索
• 数据清洗和数据探索通常交互进行 • 数据探索有助于选择数据清洗方法 • 数据清洗后可以更有效的进行数据探索
国务院
2016-06-24
3
《农业农村大数据试点方案》
农业部
2016-10-14
4
《关于推进交通运输行业数据资源开放和共享的实施意见》
交通部
2016-09-02
5
《关于加快中国林业大数据发展的指导意见》
林业局
2016-07-13
6
《关于推进全国发展改革系统大数据工作的指导意见》
国家发革委
2016-09-09
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据背景下数据分析框架
业务理解
开始
理解业务背景, 评估分析需求
数据理解
收集数据
否
是
是否明
确需求
数据清 洗
否
是
是否满
足要求
数据准备
数据探
索
否
是
特征描述 分布特性
结构分析
……
数据转换
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
7
《生态环境大数据建设总体方案》
环保部
Fra Baidu bibliotek
2016-03-08
8
《促进大数据发展三年工作方案(2016-2018)》
国家发革委
2016-04-13
9
《促进国土资源大数据应用发展实施意见》
国土资源部
2016-07-04
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
百度地图的定 位数据
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
数据清洗 • 异常值判别 • 缺失值处理 • 数据结构统一
数据特征描述
中心位置
中心位置
众数 中位数/四分位数 均值
分DDi散aiaggr程raamm度 22
图D形iag特ra征m 3
分散程度
方差和标准差 极差、四分位差 标准分数 z-score 离散系数
建立模型
分 类
KNN算法
与
SVM算法
回
贝叶斯
归
神经网络
C4.5决策树
聚
……
类
分
K均值算法
析
……
建关 立联 模分 型析
FP-growth算法 Apriori算法 ……
时
指数平滑
序
支持向量机
模
灰色理论
型
……
结
灰色理论
构 优
遗传算法
化
……
模型评估
均方根误差 均方误差 正概率统计
……
群间差异度 群内相似度 业务符合度
图形特征
偏度 数据分布偏斜程度的
测度
峰度 数据分布扁平程度的
测度
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
左偏分布 尖峰分布
右偏分布 扁平分布
大数据背景下数据分析过程
常规分析
数据挖掘
商务智能
大数据技术
数据可视化
•揭示数据之间的静 态关系 •分析过程滞后 •对数据质量要求高
……
支持度 置信度 ……
均方根误差 均方误差 正概率统计
……
分析结 果应用
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
如何理解大数据时代
大数据时代的是信息的集中存储,集中分析,集中处理的一个时代,我们每一个人都 是一个构成部分,一个人的电话,住址,性别,兴趣,需求等,和几千人的汇集在一起就是 大的数据,如何存储,分析和处理,关系到一个企业的生死存亡。
大数据的价值体现在以下几个方面: 也没办法修改。
1) 对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。 2) 企业可以利用大数据做服务转型。 3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价
① 数据体量大:从 TB级别,跃升到 PB ② 数据多样性:多为非结构型数据,如网络日志、视频、图
片、地理位置信息 ③ 价值密度低:以视频为例,连续不间断监控过程中,可能
有用的数据仅仅有一两秒 ④ 速度快:产生了大量的高速动态数据流,对数据流的实时
分析与处理要求不断增加,数据处理的越及时,产生的价 值越大。
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
4
大数据背景故事 1.Facebook泄密与川普胜选
2.微信的兴起 3.朋友圈3天可见
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据概述
现在越来越多的人喜 欢网上购物,人们通过各 种APP在网上选择商品, 那么APP每天都会面对几 万几十万,甚至更多的信 息,每个人的信息都要存 储,简而言之,大数据就 是这些存储的信息。
值。 总结:对于消费者来说仅仅是大数据里的一员,对于企业来说,如何使用大数据 才是关键。
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据的本质
大数据并不神秘,本质就是由于计算机软件硬件的发展,各种数据大量而且迅 速的汇总起来的信息。服务者希望通过技术手段对这些信息加以分析利用,所起的一 个顺应时代的名字而已。
数据分析师主题分享课
大数据背景下统计软件在数据分 析中的应用
主讲人:李茂华 金融学博士、副教授、企业社会责任研究中心主任
时间:2019.8.17
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
CDA 数据分析师
背景介绍 大数据简介 大数据下数据分析
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
10 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据背景下数据分析
数据 数据 挖掘 清洗 网络 数据 爬虫 探索
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
数据挖掘:Data Mining
一般流程
12 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据的“大”体现:
数据量大
数据类型多
结构复杂
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据的基本特征
用4个V来总结:Volume、Variety、Value和Velocity
•对数据分析的体系 化管理,数据分析的 主体依然是数据挖掘
•从多种类型的数据 中,快速获取知识 的能力
•数据挖掘技术的衍 生
•大数据时代,展示 数据可以更好辅助 理解数据、演绎数 据
数据 分析
• 本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、 软件。
• 随着数据量的不断扩大,数据分析理论正处于飞速发展期,因此本文的方法侧重于 基础原理介绍。
分组分析
预警分析
杜邦分析
……
•统计学和计算机技 术等多学科的结合
•揭示数据之间隐藏 的关系
•将数据分析的范围 从“已知”扩展到 “未知”,从“过去” 推向“将来”
•一系列以事实为支 持,辅助商业决策的 技术和方法,曾用名 包括专家系统、智能 决策等
•一般由数据仓库、 联机分析处理、数据 挖掘、数据备份和恢 复等部分组成
大数据背景
2015年使大数据政策顶层设计年,2016年是大数据政策细化落地年,国家发改委、环 保部、工信部、国家林业局、农业部等均推出大数据发展意见和方案。
排名
文件名称
发文单位
发文时间
1
也没办法修改。 《大数据产业发展规划(2016-2020年)》
工信部
2016-12-30
2
《关于促进和规范健康医疗大数据应用发展的指导意见》
也没办法修改。
比较学术的说法是“大数 据”是指以多元形式,自许 多来源搜集而来的庞大数据 组,往往具有实时性。在企 业对企业销售的情况下,这 些数据可能得自社交网络、 电子商务网站、顾客来访纪 录,还有许多其他来源。这 些数据,并非公司顾客关系 管理数据库的常态数据组。
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
数据清洗&数据探索
数据收集的方法多种多样。在对收集的数据进行分析前,要明确数据类型、规模,对数据有初步理 解,同时要对数据中的“噪声”进行处理,以支持后续数据建模。
数据探索 • 特征描述 • 分布推断 • 结构优化
数据清洗
数据探索
• 数据清洗和数据探索通常交互进行 • 数据探索有助于选择数据清洗方法 • 数据清洗后可以更有效的进行数据探索
国务院
2016-06-24
3
《农业农村大数据试点方案》
农业部
2016-10-14
4
《关于推进交通运输行业数据资源开放和共享的实施意见》
交通部
2016-09-02
5
《关于加快中国林业大数据发展的指导意见》
林业局
2016-07-13
6
《关于推进全国发展改革系统大数据工作的指导意见》
国家发革委
2016-09-09
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据背景下数据分析框架
业务理解
开始
理解业务背景, 评估分析需求
数据理解
收集数据
否
是
是否明
确需求
数据清 洗
否
是
是否满
足要求
数据准备
数据探
索
否
是
特征描述 分布特性
结构分析
……
数据转换
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
7
《生态环境大数据建设总体方案》
环保部
Fra Baidu bibliotek
2016-03-08
8
《促进大数据发展三年工作方案(2016-2018)》
国家发革委
2016-04-13
9
《促进国土资源大数据应用发展实施意见》
国土资源部
2016-07-04
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
百度地图的定 位数据
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
数据清洗 • 异常值判别 • 缺失值处理 • 数据结构统一
数据特征描述
中心位置
中心位置
众数 中位数/四分位数 均值
分DDi散aiaggr程raamm度 22
图D形iag特ra征m 3
分散程度
方差和标准差 极差、四分位差 标准分数 z-score 离散系数
建立模型
分 类
KNN算法
与
SVM算法
回
贝叶斯
归
神经网络
C4.5决策树
聚
……
类
分
K均值算法
析
……
建关 立联 模分 型析
FP-growth算法 Apriori算法 ……
时
指数平滑
序
支持向量机
模
灰色理论
型
……
结
灰色理论
构 优
遗传算法
化
……
模型评估
均方根误差 均方误差 正概率统计
……
群间差异度 群内相似度 业务符合度
图形特征
偏度 数据分布偏斜程度的
测度
峰度 数据分布扁平程度的
测度
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
左偏分布 尖峰分布
右偏分布 扁平分布
大数据背景下数据分析过程
常规分析
数据挖掘
商务智能
大数据技术
数据可视化
•揭示数据之间的静 态关系 •分析过程滞后 •对数据质量要求高
……
支持度 置信度 ……
均方根误差 均方误差 正概率统计
……
分析结 果应用
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
如何理解大数据时代
大数据时代的是信息的集中存储,集中分析,集中处理的一个时代,我们每一个人都 是一个构成部分,一个人的电话,住址,性别,兴趣,需求等,和几千人的汇集在一起就是 大的数据,如何存储,分析和处理,关系到一个企业的生死存亡。
大数据的价值体现在以下几个方面: 也没办法修改。
1) 对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。 2) 企业可以利用大数据做服务转型。 3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价
① 数据体量大:从 TB级别,跃升到 PB ② 数据多样性:多为非结构型数据,如网络日志、视频、图
片、地理位置信息 ③ 价值密度低:以视频为例,连续不间断监控过程中,可能
有用的数据仅仅有一两秒 ④ 速度快:产生了大量的高速动态数据流,对数据流的实时
分析与处理要求不断增加,数据处理的越及时,产生的价 值越大。
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
4
大数据背景故事 1.Facebook泄密与川普胜选
2.微信的兴起 3.朋友圈3天可见
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据概述
现在越来越多的人喜 欢网上购物,人们通过各 种APP在网上选择商品, 那么APP每天都会面对几 万几十万,甚至更多的信 息,每个人的信息都要存 储,简而言之,大数据就 是这些存储的信息。
值。 总结:对于消费者来说仅仅是大数据里的一员,对于企业来说,如何使用大数据 才是关键。
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据的本质
大数据并不神秘,本质就是由于计算机软件硬件的发展,各种数据大量而且迅 速的汇总起来的信息。服务者希望通过技术手段对这些信息加以分析利用,所起的一 个顺应时代的名字而已。
数据分析师主题分享课
大数据背景下统计软件在数据分 析中的应用
主讲人:李茂华 金融学博士、副教授、企业社会责任研究中心主任
时间:2019.8.17
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
CDA 数据分析师
背景介绍 大数据简介 大数据下数据分析
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
10 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据背景下数据分析
数据 数据 挖掘 清洗 网络 数据 爬虫 探索
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
数据挖掘:Data Mining
一般流程
12 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据的“大”体现:
数据量大
数据类型多
结构复杂
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
大数据的基本特征
用4个V来总结:Volume、Variety、Value和Velocity
•对数据分析的体系 化管理,数据分析的 主体依然是数据挖掘
•从多种类型的数据 中,快速获取知识 的能力
•数据挖掘技术的衍 生
•大数据时代,展示 数据可以更好辅助 理解数据、演绎数 据
数据 分析
• 本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、 软件。
• 随着数据量的不断扩大,数据分析理论正处于飞速发展期,因此本文的方法侧重于 基础原理介绍。