(完整版)大数据分析与挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
20
数据挖掘:Data Mining 时间序列分析
时间序列预测即以时间序列所能反映的社会经济现象的发展过程和规律性,进行 引伸外推,预测其发展趋势的方法,简单来说就是从已知事件测定未知事件。
时间序列数据的趋势变动可分为以下四点: 趋势性、周期性、随机性、综合性 预测时一般设法过滤除去不规则变动,突出反映趋势性和周期性变动。
11
数据挖掘背后的 大数据思维
➢ 寻找特效药:
➢ 科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物 质,然后合成新药。是一个非常漫长的过程,而且费用非常高。
➢ 有了大数据,寻找特效药的方法就和过去有所不同了。
➢ 斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种 胃病特别有效。
有用的数据仅仅有一两秒 ④ 速度快:产生了大量的高速动态数据流,对数据流的实时
分析与处理要求不断增加,数据处理的越及时,产生的价 值越大。
9
大数据基本特征的第五个V:Veracity 数据的不确定性
10
数据挖掘:Data Mining
概念
从大量数据中抽取出(隐含
的、有潜在用途的、未知的、 人们可以理解的)有价值的 信息和模式的过程。这些新 发现的规律、模式、信息和 概念具有潜在使用价值。
14
数据挖掘:Data Mining 功能
➢关联规则 ➢分类与预测 ➢聚类分析 ➢…
15
数据挖掘:Data Mining 关联规则
16
关联规则:零售业应用
几十年来,大型零售商塔吉特收集了海量的数据,记 录了每一位经常光顾其各分店的顾客数据。
发现女客户会在怀孕四个月左右,大量购买无香味乳 液。由此挖掘出25项与怀孕高度相关的商品,制作“ 怀孕预测”指数。
计算能力和能提供的数据的大小
➢ 团队通过在网络围棋对战平台上
最强人类对手,百万级的对弈落
子去训练
25
数据挖掘:Data Mining 大数据管理与挖掘案例
随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多 的生活痕迹,大数据不断增长的商业影响也在如下时刻表现出来: 你搜索飞往哈尔滨的航班,然后便看到网站上出现了当地宾馆的
刚取了通知书就有助学金诈骗电话 刚买了房就有无数装修公司的电话……
8
大数据的基本特征
用4个V来总结:Volume、Variety、Value和Velocity
① 数据体量大:从 TB级别,跃升到 PB ② 数据多样性:多为非结构型数据,如网络日志、视频、图
片、地理位置信息 ③ 价值密度低:以视频为例,连续不间断监控过程中,可能
打折信息 你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的
利润 用算法预测人们购票需求,航空公司以不可预知的方式调整价格 智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信
通常会利用社会学、心理学甚至是医学上的基本结 论和原理作为指导
通过人工智能领域中使用的机器学习、图论等算法 对社交网络中的群体行为和未来的趋势进行模拟和 预测。
24
大数据带给数据挖掘的…
➢ 神经网络在几十年前就有了
➢ 因为他们需要大量的“训练”
➢ 对早期研究者来说,想要获得不
错效果的最小量训练都远远超过
推算出预产期后,就能抢先一步,将孕妇装、婴儿床 等折扣券寄给客户。
在接下来的几年中会根据婴儿的生长周期定期给这些 顾客推送相关产品,使这些客户形成长期的忠诚度。
17
数据挖掘:Data Mining 分类与预测
18
数据挖掘 分类与预测 金融创新产品设计
19
数据挖掘:Data Mining 时间序列分析
大数据分析与挖掘
大数据与数据挖掘 课程的背景……
2
中国大数据发展调查报告 (2018年):
➢ 2017年中国大数据产业总体规模为4700亿元人民币, 同比增长30%;预计2018-2020年增速将保持在30%以 上。
➢ 大部分企业均已意识到数据分析对企业发展的重要 性。
✓ 近四成的企业已经应用了大数据。与2016年相比上升4.5% ✓ 金融等领域大数据应用增加趋势较为明显。
➢ 企业应用大数据所带来的主要效果包括实现智能决 策、提升运营效率和改善风险管理。
3
我们身边的大数据…
4
百度地图的定位数据
对大数据的初步认识(1)
➢ 三十多年来,我国春运大军从1 亿多人次到36亿人次
➢ 春运的最热现象是逆向过年,即 老人们到孩子工作的地方过年。
除夕夜 哈尔滨迁徙地图
6
对大数据的初步认识(2) 大数据与交通拥堵
➢ 这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A 药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在 反过来寻找原因。
➢ 这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的 做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多 的数据支持。
在大数据时代,我们能够得益于一种新的思维方法—从大 量的数据中直接找到答案,即使不知道原因。
21
数据挖掘:Data Mining 聚类分析
22
数据挖掘:Data Mining 社交网络、舆情分析…
23
社来自百度文库网络的分析
社交网络中社区圈子的识别 社交网络中人物影响力的计算 信息在社交网络上的传播模型 虚假信息和机器人账号的识别 基于社交网络信息对股市、大选以及传染病的预测 社交网络的分析和研究是一个交叉领域的学科
12
数据挖掘背后的 大数据思维
在数据挖掘的思想中,知识的学习是不需 要通过具体问题的专业知识建模。
这其实是模拟了人的原始学习过程 --- 比 如你要预测一个人跑100米要多久时间, 可以根据之前了解的他这样体型的人跑 100米用的多少时间做一个估计,而不会 使用牛顿定律来算。
13
数据挖掘:Data Mining 一般流程
➢ 一卡通大量使用,乘客出行的海量数据
➢ 预埋传感器,收集车流量、客流量信息
➢ 卫星地图数据对道路交通情况进行分析
➢ 出租车提供实时数据,了解主要道路的路况
➢ 智能手机使用地图应用,分析出实时的道路交通拥堵状况、出行流
动趋势或特定区域的人员聚集程度
7
对大数据的初步认识(3) 大数据分析电信诈骗
➢ 根据2015年的统计数据,我国公民个人信息泄露数量已经达到40亿条 左右。
数据挖掘:Data Mining 时间序列分析
时间序列预测即以时间序列所能反映的社会经济现象的发展过程和规律性,进行 引伸外推,预测其发展趋势的方法,简单来说就是从已知事件测定未知事件。
时间序列数据的趋势变动可分为以下四点: 趋势性、周期性、随机性、综合性 预测时一般设法过滤除去不规则变动,突出反映趋势性和周期性变动。
11
数据挖掘背后的 大数据思维
➢ 寻找特效药:
➢ 科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物 质,然后合成新药。是一个非常漫长的过程,而且费用非常高。
➢ 有了大数据,寻找特效药的方法就和过去有所不同了。
➢ 斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种 胃病特别有效。
有用的数据仅仅有一两秒 ④ 速度快:产生了大量的高速动态数据流,对数据流的实时
分析与处理要求不断增加,数据处理的越及时,产生的价 值越大。
9
大数据基本特征的第五个V:Veracity 数据的不确定性
10
数据挖掘:Data Mining
概念
从大量数据中抽取出(隐含
的、有潜在用途的、未知的、 人们可以理解的)有价值的 信息和模式的过程。这些新 发现的规律、模式、信息和 概念具有潜在使用价值。
14
数据挖掘:Data Mining 功能
➢关联规则 ➢分类与预测 ➢聚类分析 ➢…
15
数据挖掘:Data Mining 关联规则
16
关联规则:零售业应用
几十年来,大型零售商塔吉特收集了海量的数据,记 录了每一位经常光顾其各分店的顾客数据。
发现女客户会在怀孕四个月左右,大量购买无香味乳 液。由此挖掘出25项与怀孕高度相关的商品,制作“ 怀孕预测”指数。
计算能力和能提供的数据的大小
➢ 团队通过在网络围棋对战平台上
最强人类对手,百万级的对弈落
子去训练
25
数据挖掘:Data Mining 大数据管理与挖掘案例
随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多 的生活痕迹,大数据不断增长的商业影响也在如下时刻表现出来: 你搜索飞往哈尔滨的航班,然后便看到网站上出现了当地宾馆的
刚取了通知书就有助学金诈骗电话 刚买了房就有无数装修公司的电话……
8
大数据的基本特征
用4个V来总结:Volume、Variety、Value和Velocity
① 数据体量大:从 TB级别,跃升到 PB ② 数据多样性:多为非结构型数据,如网络日志、视频、图
片、地理位置信息 ③ 价值密度低:以视频为例,连续不间断监控过程中,可能
打折信息 你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的
利润 用算法预测人们购票需求,航空公司以不可预知的方式调整价格 智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信
通常会利用社会学、心理学甚至是医学上的基本结 论和原理作为指导
通过人工智能领域中使用的机器学习、图论等算法 对社交网络中的群体行为和未来的趋势进行模拟和 预测。
24
大数据带给数据挖掘的…
➢ 神经网络在几十年前就有了
➢ 因为他们需要大量的“训练”
➢ 对早期研究者来说,想要获得不
错效果的最小量训练都远远超过
推算出预产期后,就能抢先一步,将孕妇装、婴儿床 等折扣券寄给客户。
在接下来的几年中会根据婴儿的生长周期定期给这些 顾客推送相关产品,使这些客户形成长期的忠诚度。
17
数据挖掘:Data Mining 分类与预测
18
数据挖掘 分类与预测 金融创新产品设计
19
数据挖掘:Data Mining 时间序列分析
大数据分析与挖掘
大数据与数据挖掘 课程的背景……
2
中国大数据发展调查报告 (2018年):
➢ 2017年中国大数据产业总体规模为4700亿元人民币, 同比增长30%;预计2018-2020年增速将保持在30%以 上。
➢ 大部分企业均已意识到数据分析对企业发展的重要 性。
✓ 近四成的企业已经应用了大数据。与2016年相比上升4.5% ✓ 金融等领域大数据应用增加趋势较为明显。
➢ 企业应用大数据所带来的主要效果包括实现智能决 策、提升运营效率和改善风险管理。
3
我们身边的大数据…
4
百度地图的定位数据
对大数据的初步认识(1)
➢ 三十多年来,我国春运大军从1 亿多人次到36亿人次
➢ 春运的最热现象是逆向过年,即 老人们到孩子工作的地方过年。
除夕夜 哈尔滨迁徙地图
6
对大数据的初步认识(2) 大数据与交通拥堵
➢ 这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A 药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在 反过来寻找原因。
➢ 这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的 做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多 的数据支持。
在大数据时代,我们能够得益于一种新的思维方法—从大 量的数据中直接找到答案,即使不知道原因。
21
数据挖掘:Data Mining 聚类分析
22
数据挖掘:Data Mining 社交网络、舆情分析…
23
社来自百度文库网络的分析
社交网络中社区圈子的识别 社交网络中人物影响力的计算 信息在社交网络上的传播模型 虚假信息和机器人账号的识别 基于社交网络信息对股市、大选以及传染病的预测 社交网络的分析和研究是一个交叉领域的学科
12
数据挖掘背后的 大数据思维
在数据挖掘的思想中,知识的学习是不需 要通过具体问题的专业知识建模。
这其实是模拟了人的原始学习过程 --- 比 如你要预测一个人跑100米要多久时间, 可以根据之前了解的他这样体型的人跑 100米用的多少时间做一个估计,而不会 使用牛顿定律来算。
13
数据挖掘:Data Mining 一般流程
➢ 一卡通大量使用,乘客出行的海量数据
➢ 预埋传感器,收集车流量、客流量信息
➢ 卫星地图数据对道路交通情况进行分析
➢ 出租车提供实时数据,了解主要道路的路况
➢ 智能手机使用地图应用,分析出实时的道路交通拥堵状况、出行流
动趋势或特定区域的人员聚集程度
7
对大数据的初步认识(3) 大数据分析电信诈骗
➢ 根据2015年的统计数据,我国公民个人信息泄露数量已经达到40亿条 左右。