大数据的发展与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不同类别客户保费有差异
大数据在保险公司的应用
• 汽车保险
– 大数据时代保险公司考虑更多因素
• 开车主要只是上下班,这条线路过去一年统计的事 故 率很低
• 车况(车的使用年限、车型)好,此车型车祸率较低 • 统计驾驶习惯,临时刹车少,超车少,与周围车保
持 了应有的车距,驾驶习惯好 • 最后结论
– 车型好,车况好,驾驶习惯好,常走的线路事故率低,过去 一年也没有出过车祸,因此可以给予更大幅度的优惠折扣
– 大数据一般会涉及2 种或2 种以上数据形式。
它要收集超过100TB 的数据,并且是高速、实 时数据流; 或者是从小数据开始,但数据每年会 增长60%以上
大数据的基本概念
• Gartner的定义
– 大数据是需要新处理模式才能具有更强的决策 力、洞察发现力和流程优化能力的海量、高增
长率和多样化的信息资产
– 大数据成为提升政府治理能力的新途径
• 建立“用数据说话、用数据决策、用数据管理、用数据创新 ” 的管理机制
大数据的基本概念
• 维基百科的定义
– 大数据是指利用常用软件工具捕获、管理和处
理数据所耗时间超过可容忍时间的数据集
大数据的基本概念
• IDC(International Data Corporation)的定义
客户群不同的特征,从而对客户群进行针对 性营销,或者面向特定细分客户群开发特定 产品,从而提高产品销量
股票
基金
大数据在商业银行的应用
• 精准营销
– 西太平洋银行利用社交媒体数据对客户进行情感 分析来实现精准营销
大数据在商业银行的应用
• 风险管理——孤立点分析
– 摩根大通在业务交易中引入信用卡和借记卡数据 进行诈骗检验
大数据在保险公司的应用
• 客户流失预测
– 保留老客户的成本远低于获取新客户的成本 – 对所有客户进行一对一营销成本昂贵 – 客户流失预测出那些可能流失的客户,对这部
分客户进行一对一营销,降低营销成本
大数据在保险公司的应用
• 客户流失预测
– 分类分析的应用
大数据在保险公司的应用
• 客户流失预测
保费>816.67
大数据的特点
• 多样性(Variety)
– 大数据时代半结构化、非结构化数据逐渐成为 主流数据。非结构化数据量已占到数据总量的 75%以上,且非结构化数据的增长速度比结构 化数据快10 倍到50 倍。
– 数据类型层出不穷,已经很难用一种或几种规 定的模式来表征日趋复杂、多样的数据形式
视频、音频、图片、邮件、HTML、RFID、GPS 和传感器
的重要属性 – 视频监控,大量的图像数据被存储下来,对于
某一特定的应用,比如获取犯罪嫌疑人的体貌 特征,有效的视频数据可能仅仅有1-2秒
大数据的产生
• 数据产生方式的变革
– 人类社会的数据产生方式经历了3个阶段,而 正是数据产生方式的巨大变化才最终导致大数 据的产生
• 运营式系统阶段 • 用户原创内容阶段 • 感知式系统阶段
给医生提出诊疗建议
……
12
33
大数据在汽车制造公司的应用
• 大数据预测
– 基于微博和百度指数的福特汽车销量预测
• 背景 • 来源
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在商业银行的应用
• 精准营销 – 通过聚类分析,对客户进行划分,获得各个
– 百度每天大约要处理几十PB 数据 – Facebook 注册用户超过10亿,每月上传的照
片超过10 亿张,每天生成300TB 以上的日志 数据 – 淘宝网会员超过3.7 亿,在线商品超过11 亿类 ,每天交易数千万笔,产生约20TB 数据。
大数据的特点
大数据的特点
• 著名咨询公司IDC的统计
大数据的基本概念
• 重要意义
– 大数据成为推动经济转型发展的新动力
• 大数据持续激发商业模式创新,不断催生新业态,已成为互 联 网等新兴领域促进业务创新增值、提升企业核心价值的重 要驱 动力
– 大数据成为重塑国家竞争优势的新机遇
• 发掘和释放数据资源的潜在价值,有利于更好发挥数据资源 的 战略作用
– 主要原因
• 以博客、微博和微信等为代表的新型社交网络的 出 现和快速发展
• 以智能手机、平板电脑为代表的新型移动设备的 出 现,使得人们在网上发表自己意见的途径更为 便捷
大数据的产生
• 感知式系统阶段
– 人类社会数据量第3次飞跃最终导致了大数据 的产生,今天正处于这个阶段
– 飞跃的根本原因——感知式系统的广泛使用
– 不断激增的数据不但不能为解决问题带来优势 ,反而成了快速解决问题的负担
– 数据不是静止不动的,而是在互联网络中不断 流动,且通常这样的数据价值是随着时间的推 移而迅速降低的,如果数据尚未得到有效的处 理,就失去了价值,大量的数据就没有意义
大数据的特点
• 价值性(Value)
– 大数据的价值往往呈现出稀疏性的特点 – 数据价值密度低是大数据关注的非结构化数据
• 例如,从来没有信用卡取现行为,被阻止
– 中信银行借助大数据分析技术监控评估客户的行 为,并对客户的信用消费预警
• 例如,消费金额超过预期的预警
大数据在保险公司的应用
• 汽车保险
– 传统上保险公司只把车险客户做了简单分类
• 第一种是连续两年没有出车祸的 • 第二种过去一年没有出车祸 • 第三种过去一年出了一次车祸 • 第四种是过去一年出了两次及以上车祸的
数据规模
数十亿条/月 数千万条/月 数十万条/月 数百万条/月 数百万条/月 数百亿页 数百万条
大数据的特点
• 多样性(Variety)
– 数据类型繁多,复杂多变是大数据的重要特性 – 以往的数据尽管数量庞大,但通常是事先定义
好的结构化数据。结构化数据是将事物向便于 人类和计算机存储、处理、查询的方向抽象的 结果 – 数据都以表格的形式保存在数据库中
大数据的特点
• 规模性(Volume)
– 根据IDC 的定义至少要有超过100TB 的可供分 析的数据,数据量大是大数据的基本属性
大数据的特点
• 著名咨询公司IDC的统计
– 2011 年全球被创建和复制的数据总量为1.8ZB (10 的21 次方),其中75%来自于个人(主 要是图片、视频和音乐),远远超过人类有史 以来所有印刷材料的数据总量(200PB)
大数据的产生
• 运营式系统阶段
– 数据库出现使得数据管理的复杂度大大降低
• 超市的销售记录系统 • 银行的交易记录系统 • 医院病人的医疗记录
– 主要特点是数据伴随运营活动产生并记录在数 据库中
• 比如淘宝每销售出一件产品就会在数据库中产生 相 应的一条销售记录
大数据的产生
• 用户原创内容阶段
– 互联网促使人类社会数据量出现第2次飞跃, 但是真正的数据爆发产生于Web2.0时代, Web2.0的最重要标志就是用户原创内容
• 制造极其微小的带有处理功能的传感器 • 设备对整个社会运转进行监控 • 设备会源源不断地产生新数据
空气钻井事故预警系统
空气钻井事故预警系统
空气钻井事故预警系统
空气管道
传感 器
空气钻井事故预警系统
大数据在医疗行业的应用
• 临床决策支持系统
– 使用图像分析和识别技术, 识别医疗影像数据 – 挖掘医疗文献数据建立医疗专家数据库, 从而
– 传感网和物联网的蓬勃发展是大数据的又一推 动力,各个城市的视频监控每时每刻都在采集 巨量的流媒体数
– 劳斯莱斯公司对全世界数以万计的飞机引擎进 行实时监控,每年传送PB数量级的数据。
大数据的特点
• 数据丰富,信息贫乏
组织
项目
电信 银行 股票 卷烟厂 超市 搜索引擎 在线零售商
通话清单 业务数据 日线数据 生产数据 销售数据 网页 交易数据
1 数概 2数 3 数产 4 数应
大数据的基本概念
• 国务院《促进大数据发展行动纲要》
– 大数据是以容量大、类型多、存取速度快、应 用价值高为主要特征的数据集合,正快速发展 为对数量巨大、来源分散、格式多样的数据进 行采集、存储和关联分析,从中发现新知识、 创造新价值、提升新能力的新一代信息技术和 服务业态。
Web数据挖掘面临的难题
• Web上半结构化数据特点
– Web页面的结构是页面自描述的 – 在页面里数据与结构混合存在 – 结构经常动态变化
Web数据挖掘面临的难题
Web数据挖掘面临的难题
Web数据挖掘面临的难题
大数据的特点
• 高速性(Velocity)
– 要求数据的快速处理,是大数据区别于传统海 量数据处理的重要特性之一
4
流失率47.43% 2
险种Y
保费<=816.67
wenku.baidu.com
5
1 险种B、S
3 流失率18.73%
流失率30.83% 流失率59.78%
– 预测到2020 年,全球数据量暴增44 倍(相比 2009 年),总量会达到35 ZB。
大数据的特点
• 数据增长定律
– 图灵奖获得者Jim Gray提出数据增长的经验定 律
• 网络环境下每18 个月产生的数据量等于有史以来数 据量之和
大数据的特点
• 著名咨询公司IDC的统计
– Google 公司通过大规模集群和MapReduce 软件,每月处理的数据量超过400PB
大数据在保险公司的应用
• 汽车保险
– 大数据时代保险公司考虑更多因素
• 开车主要只是上下班,这条线路过去一年统计的事 故 率很低
• 车况(车的使用年限、车型)好,此车型车祸率较低 • 统计驾驶习惯,临时刹车少,超车少,与周围车保
持 了应有的车距,驾驶习惯好 • 最后结论
– 车型好,车况好,驾驶习惯好,常走的线路事故率低,过去 一年也没有出过车祸,因此可以给予更大幅度的优惠折扣
– 大数据一般会涉及2 种或2 种以上数据形式。
它要收集超过100TB 的数据,并且是高速、实 时数据流; 或者是从小数据开始,但数据每年会 增长60%以上
大数据的基本概念
• Gartner的定义
– 大数据是需要新处理模式才能具有更强的决策 力、洞察发现力和流程优化能力的海量、高增
长率和多样化的信息资产
– 大数据成为提升政府治理能力的新途径
• 建立“用数据说话、用数据决策、用数据管理、用数据创新 ” 的管理机制
大数据的基本概念
• 维基百科的定义
– 大数据是指利用常用软件工具捕获、管理和处
理数据所耗时间超过可容忍时间的数据集
大数据的基本概念
• IDC(International Data Corporation)的定义
客户群不同的特征,从而对客户群进行针对 性营销,或者面向特定细分客户群开发特定 产品,从而提高产品销量
股票
基金
大数据在商业银行的应用
• 精准营销
– 西太平洋银行利用社交媒体数据对客户进行情感 分析来实现精准营销
大数据在商业银行的应用
• 风险管理——孤立点分析
– 摩根大通在业务交易中引入信用卡和借记卡数据 进行诈骗检验
大数据在保险公司的应用
• 客户流失预测
– 保留老客户的成本远低于获取新客户的成本 – 对所有客户进行一对一营销成本昂贵 – 客户流失预测出那些可能流失的客户,对这部
分客户进行一对一营销,降低营销成本
大数据在保险公司的应用
• 客户流失预测
– 分类分析的应用
大数据在保险公司的应用
• 客户流失预测
保费>816.67
大数据的特点
• 多样性(Variety)
– 大数据时代半结构化、非结构化数据逐渐成为 主流数据。非结构化数据量已占到数据总量的 75%以上,且非结构化数据的增长速度比结构 化数据快10 倍到50 倍。
– 数据类型层出不穷,已经很难用一种或几种规 定的模式来表征日趋复杂、多样的数据形式
视频、音频、图片、邮件、HTML、RFID、GPS 和传感器
的重要属性 – 视频监控,大量的图像数据被存储下来,对于
某一特定的应用,比如获取犯罪嫌疑人的体貌 特征,有效的视频数据可能仅仅有1-2秒
大数据的产生
• 数据产生方式的变革
– 人类社会的数据产生方式经历了3个阶段,而 正是数据产生方式的巨大变化才最终导致大数 据的产生
• 运营式系统阶段 • 用户原创内容阶段 • 感知式系统阶段
给医生提出诊疗建议
……
12
33
大数据在汽车制造公司的应用
• 大数据预测
– 基于微博和百度指数的福特汽车销量预测
• 背景 • 来源
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在商业银行的应用
• 精准营销 – 通过聚类分析,对客户进行划分,获得各个
– 百度每天大约要处理几十PB 数据 – Facebook 注册用户超过10亿,每月上传的照
片超过10 亿张,每天生成300TB 以上的日志 数据 – 淘宝网会员超过3.7 亿,在线商品超过11 亿类 ,每天交易数千万笔,产生约20TB 数据。
大数据的特点
大数据的特点
• 著名咨询公司IDC的统计
大数据的基本概念
• 重要意义
– 大数据成为推动经济转型发展的新动力
• 大数据持续激发商业模式创新,不断催生新业态,已成为互 联 网等新兴领域促进业务创新增值、提升企业核心价值的重 要驱 动力
– 大数据成为重塑国家竞争优势的新机遇
• 发掘和释放数据资源的潜在价值,有利于更好发挥数据资源 的 战略作用
– 主要原因
• 以博客、微博和微信等为代表的新型社交网络的 出 现和快速发展
• 以智能手机、平板电脑为代表的新型移动设备的 出 现,使得人们在网上发表自己意见的途径更为 便捷
大数据的产生
• 感知式系统阶段
– 人类社会数据量第3次飞跃最终导致了大数据 的产生,今天正处于这个阶段
– 飞跃的根本原因——感知式系统的广泛使用
– 不断激增的数据不但不能为解决问题带来优势 ,反而成了快速解决问题的负担
– 数据不是静止不动的,而是在互联网络中不断 流动,且通常这样的数据价值是随着时间的推 移而迅速降低的,如果数据尚未得到有效的处 理,就失去了价值,大量的数据就没有意义
大数据的特点
• 价值性(Value)
– 大数据的价值往往呈现出稀疏性的特点 – 数据价值密度低是大数据关注的非结构化数据
• 例如,从来没有信用卡取现行为,被阻止
– 中信银行借助大数据分析技术监控评估客户的行 为,并对客户的信用消费预警
• 例如,消费金额超过预期的预警
大数据在保险公司的应用
• 汽车保险
– 传统上保险公司只把车险客户做了简单分类
• 第一种是连续两年没有出车祸的 • 第二种过去一年没有出车祸 • 第三种过去一年出了一次车祸 • 第四种是过去一年出了两次及以上车祸的
数据规模
数十亿条/月 数千万条/月 数十万条/月 数百万条/月 数百万条/月 数百亿页 数百万条
大数据的特点
• 多样性(Variety)
– 数据类型繁多,复杂多变是大数据的重要特性 – 以往的数据尽管数量庞大,但通常是事先定义
好的结构化数据。结构化数据是将事物向便于 人类和计算机存储、处理、查询的方向抽象的 结果 – 数据都以表格的形式保存在数据库中
大数据的特点
• 规模性(Volume)
– 根据IDC 的定义至少要有超过100TB 的可供分 析的数据,数据量大是大数据的基本属性
大数据的特点
• 著名咨询公司IDC的统计
– 2011 年全球被创建和复制的数据总量为1.8ZB (10 的21 次方),其中75%来自于个人(主 要是图片、视频和音乐),远远超过人类有史 以来所有印刷材料的数据总量(200PB)
大数据的产生
• 运营式系统阶段
– 数据库出现使得数据管理的复杂度大大降低
• 超市的销售记录系统 • 银行的交易记录系统 • 医院病人的医疗记录
– 主要特点是数据伴随运营活动产生并记录在数 据库中
• 比如淘宝每销售出一件产品就会在数据库中产生 相 应的一条销售记录
大数据的产生
• 用户原创内容阶段
– 互联网促使人类社会数据量出现第2次飞跃, 但是真正的数据爆发产生于Web2.0时代, Web2.0的最重要标志就是用户原创内容
• 制造极其微小的带有处理功能的传感器 • 设备对整个社会运转进行监控 • 设备会源源不断地产生新数据
空气钻井事故预警系统
空气钻井事故预警系统
空气钻井事故预警系统
空气管道
传感 器
空气钻井事故预警系统
大数据在医疗行业的应用
• 临床决策支持系统
– 使用图像分析和识别技术, 识别医疗影像数据 – 挖掘医疗文献数据建立医疗专家数据库, 从而
– 传感网和物联网的蓬勃发展是大数据的又一推 动力,各个城市的视频监控每时每刻都在采集 巨量的流媒体数
– 劳斯莱斯公司对全世界数以万计的飞机引擎进 行实时监控,每年传送PB数量级的数据。
大数据的特点
• 数据丰富,信息贫乏
组织
项目
电信 银行 股票 卷烟厂 超市 搜索引擎 在线零售商
通话清单 业务数据 日线数据 生产数据 销售数据 网页 交易数据
1 数概 2数 3 数产 4 数应
大数据的基本概念
• 国务院《促进大数据发展行动纲要》
– 大数据是以容量大、类型多、存取速度快、应 用价值高为主要特征的数据集合,正快速发展 为对数量巨大、来源分散、格式多样的数据进 行采集、存储和关联分析,从中发现新知识、 创造新价值、提升新能力的新一代信息技术和 服务业态。
Web数据挖掘面临的难题
• Web上半结构化数据特点
– Web页面的结构是页面自描述的 – 在页面里数据与结构混合存在 – 结构经常动态变化
Web数据挖掘面临的难题
Web数据挖掘面临的难题
Web数据挖掘面临的难题
大数据的特点
• 高速性(Velocity)
– 要求数据的快速处理,是大数据区别于传统海 量数据处理的重要特性之一
4
流失率47.43% 2
险种Y
保费<=816.67
wenku.baidu.com
5
1 险种B、S
3 流失率18.73%
流失率30.83% 流失率59.78%
– 预测到2020 年,全球数据量暴增44 倍(相比 2009 年),总量会达到35 ZB。
大数据的特点
• 数据增长定律
– 图灵奖获得者Jim Gray提出数据增长的经验定 律
• 网络环境下每18 个月产生的数据量等于有史以来数 据量之和
大数据的特点
• 著名咨询公司IDC的统计
– Google 公司通过大规模集群和MapReduce 软件,每月处理的数据量超过400PB