3大数据的发展与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代保险公司考虑更多因素
开车主要只是上下班,这条线路过去一年统计的事故
率很低 车况(车的使用年限、车型)好,此车型车祸率较低 统计驾驶习惯,临时刹车少,超车少,与周围车保持 了应有的车距,驾驶习惯好 最后结论
车型好,车况好,驾驶习惯好,常走的线路事故率低,过去 一年也没有出过车祸,因此可以给予更大幅度的优惠折扣
空气管道
传感 器
空气钻井事故预警系统
大数据在医疗行业的应用
临床决策支持系统
使用图像分析和识别技术,
识别医疗影像数据 挖掘医疗文献数据建立医疗专家数据库, 从而 给医生提出诊疗建议
…… 1 2
33
华 西 药 房 药 品 陈 列 建 议
维生素矿物质类及肠内肠外 营养药 激素类及影响内分泌药物
大数据在保险公司的应用
客户流失预测
保留老客户的成本远低于获取新客户的成本 对所有客户进行一对一营销成本昂贵 客户流失预测出那些可能流失的客户,对这部分
客户进行一对一营销,降低营销成本
大数据在保险公司的应用
客户流失预测
分类分析的应用
客户自然属性 客户退保原因 客户所属地区
客户缴费情况
大数据的产生
感知式系统阶段
人类社会数据量第3次飞跃最终导致了大数据
的产生,今天正处于这个阶段 飞跃的根本原因——感知式系统的广泛使用
制造极其微小的带有处理功能的传感器 设备对整个社会运转进行监控 设备会源源不断地产生新数据
空气钻井事故预警系统
空气钻井事故预警系统
空气钻井事故预警系统
大数据的发展和应用
1 1 2 3 4
互联网的产生和发展
大数据的概念
大数据的特点
大数据的产生
大数据的应用
大数据的基本概念
国务院《促进大数据发展行动纲要》
大数据是以容量大、类型多、存取速度快、应用
价值高为主要特征的数据集合,正快速发展为对 数量巨大、来源分散、格式多样的数据进行采集、 存储和关联分析,从中发现新知识、创造新价值、 提升新能力的新一代信息技术和服务业态。
大数据的特点
价值性(Value)
大数据的价值往往呈现出稀疏性的特点 数据价值密度低是大数据关注的非结构化数据的
重要属性 视频监控,大量的图像数据被存储下来,对于某 一特定的应用,比如获取犯罪嫌疑人的体貌特征, 有效的视频数据可能仅仅有1-2秒
大数据的产生
数据产生方式的变革
人类社会的数据产生方式经历了3个阶段,而
大数据的基本概念
重要意义
大数据成为推动经济转型发展的新动力
大数据持续激发商业模式创新,不断催生新业态,已成为互联网 等新兴领域促进业务创新增值、提升企业核心价值的重要驱动力 发掘和释放数据资源的潜在价值,有利于更好发挥数据资源的战 略作用 建立“用数据说话、用数据决策、用数据管理、用数据创新”的 管理机制
客户购买的险种
保险公司客户流失需考虑的主要因素
大数据在保险公司的应用
客户流失预测
保费>816.67 4 流失率30.83%
流失率47.43% 险种Y
2 保费<=816.67 5 流失率59.78%
1 3 流失率18.73%
险种B、S
2014 年 1 月 预测值 43217 预测误差 (%) 4.25
������
2
预测值 37408
预测误差 (%) -0.09
0.92
大数据在商业银行的应用
精准营销 通过聚类分析,对客户进行划分,获得各个
客户群不同的特征,从而对客户群进行针对 性营销,或者面向特定细分客户群开发特定 产品,从而提高产品销量
大数据的特点
多样性(Variety)
数据类型繁多,复杂多变是大数据的重要特性 以往的数据尽管数量庞大,但通常是事先定义好
的结构化数据。结构化数据是将事物向便于人类 和计算机存储、处理、查询的方向抽象的结果 数据都以表格的形式保存在数据库中
大数据的特点
多样性(Variety)
大数据时代半结构化、非结构化数据逐渐成为
种或2 种以上数据形式。 它要收集超过100TB 的数据,并且是高速、实 时数据流; 或者是从小数据开始,但数据每年会 增长60%以上
大数据的基本概念
Gartner的定义
大数据是需要新处理模式才能具有更强的决策
力、洞察发现力和流程优化能力的海量、高增 长率和多样化的信息资产
大数据的特点
规模性(Volume)
根据IDC
的定义至少要有超过100TB 的可供分 析的数据,数据量大是大数据的基本属性
大数据的特点
著名咨询公司IDC的统计
2011
年全球被创建和复制的数据总量为1.8ZB (10 的21 次方),其中75%来自于个人(主 要是图片、视频和音乐),远远超过人类有史 以来所有印刷材料的数据总量(200PB) 预测到2020 年,全球数据量暴增44 倍(相比 2009 年),总量会达到35 ZB。
呼吸系统药物
抗感染类
阿莫西林 胶囊
甲来自百度文库唑片
大数据在汽车制造公司的应用
大数据预测
基于微博和百度指数的福特汽车销量预测
背景 来源
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
2013 年 12 月 模型名称 组合模型
大数据成为重塑国家竞争优势的新机遇
大数据成为提升政府治理能力的新途径
大数据的基本概念
维基百科的定义
大数据是指利用常用软件工具捕获、管理和处
理数据所耗时间超过可容忍时间的数据集
大数据的基本概念
IDC(International Data Corporation)的定义
大数据一般会涉及2
正是数据产生方式的巨大变化才最终导致大数 据的产生
运营式系统阶段 用户原创内容阶段 感知式系统阶段
大数据的产生
运营式系统阶段
数据库出现使得数据管理的复杂度大大降低
超市的销售记录系统 银行的交易记录系统 医院病人的医疗记录
主要特点是数据伴随运营活动产生并记录在数据
库中
比如淘宝每销售出一件产品就会在数据库中产生相应的
一条销售记录
大数据的产生
用户原创内容阶段
互联网促使人类社会数据量出现第2次飞跃,但
是真正的数据爆发产生于Web2.0时代, Web2.0 的最重要标志就是用户原创内容 主要原因
以博客、微博和微信等为代表的新型社交网络的出现和
快速发展 以智能手机、平板电脑为代表的新型移动设备的出现, 使得人们在网上发表自己意见的途径更为便捷
例如,消费金额超过预期的预警
大数据在保险公司的应用
汽车保险
传统上保险公司只把车险客户做了简单分类
第一种是连续两年没有出车祸的 第二种过去一年没有出车祸 第三种过去一年出了一次车祸 第四种是过去一年出了两次及以上车祸的
不同类别客户保费有差异
大数据在保险公司的应用
汽车保险
大数据的特点
大数据的特点
著名咨询公司IDC的统计
传感网和物联网的蓬勃发展是大数据的又一推
动力,各个城市的视频监控每时每刻都在采集 巨量的流媒体数 劳斯莱斯公司对全世界数以万计的飞机引擎进 行实时监控,每年传送PB数量级的数据。
大数据的特点
数据丰富,信息贫乏
组织 电信 银行 股票 卷烟厂 超市 搜索引擎 在线零售商 项目 通话清单 业务数据 日线数据 生产数据 销售数据 网页 交易数据 数据规模 数十亿条/月 数千万条/月 数十万条/月 数百万条/月 数百万条/月 数百亿页 数百万条
醋酸泼 尼松片 碳酸钙 D3 片 阿法骨化 醇软胶囊
免疫系统药 物
吗替麦考酚 酯胶囊 他克莫司 胶囊
血液系统药物
叶酸片
抗肿瘤药
甲氨蝶呤片
镇痛 解热 抗炎 抗痛风药
调节水盐 电解质 及酸碱平衡药
碳酸氢钠片
苯溴马隆片
中成药
蓝芩口服液 感咳双清胶囊
治疗精神障碍药物
复方丹参滴丸 生脉胶囊
华 西 药 房 药 品 陈 列 建 议
大数据的特点
数据增长定律
图灵奖获得者Jim
律
Gray提出数据增长的经验定
网络环境下每18
个月产生的数据量等于有史以来数
据量之和
大数据的特点
著名咨询公司IDC的统计
Google
公司通过大规模集群和MapReduce 软件,每月处理的数据量超过400PB 百度每天大约要处理几十PB 数据 Facebook 注册用户超过10亿,每月上传的照 片超过10 亿张,每天生成300TB 以上的日志 数据 淘宝网会员超过3.7 亿,在线商品超过11 亿类, 每天交易数千万笔,产生约20TB 数据。
主流数据。非结构化数据量已占到数据总量的 75%以上,且非结构化数据的增长速度比结构 化数据快10 倍到50 倍。 数据类型层出不穷,已经很难用一种或几种规 定的模式来表征日趋复杂、多样的数据形式
视频、音频、图片、邮件、HTML、RFID、GPS 和传感器
WEB数据挖掘面临的难题
Web上半结构化数据特点
Web页面的结构是页面自描述的 在页面里数据与结构混合存在 结构经常动态变化
WEB数据挖掘面临的难题
WEB数据挖掘面临的难题
WEB数据挖掘面临的难题
大数据的特点
高速性(Velocity)
要求数据的快速处理,是大数据区别于传统海量
数据处理的重要特性之一 不断激增的数据不但不能为解决问题带来优势, 反而成了快速解决问题的负担 数据不是静止不动的,而是在互联网络中不断流 动,且通常这样的数据价值是随着时间的推移而 迅速降低的,如果数据尚未得到有效的处理,就 失去了价值,大量的数据就没有意义
股票
基金
大数据在商业银行的应用
精准营销
西太平洋银行利用社交媒体数据对客户进行情感
分析来实现精准营销
大数据在商业银行的应用
风险管理——孤立点分析
摩根大通在业务交易中引入信用卡和借记卡数据
进行诈骗检验
例如,从来没有信用卡取现行为,被阻止
中信银行借助大数据分析技术监控评估客户的行
为,并对客户的信用消费预警
开车主要只是上下班,这条线路过去一年统计的事故
率很低 车况(车的使用年限、车型)好,此车型车祸率较低 统计驾驶习惯,临时刹车少,超车少,与周围车保持 了应有的车距,驾驶习惯好 最后结论
车型好,车况好,驾驶习惯好,常走的线路事故率低,过去 一年也没有出过车祸,因此可以给予更大幅度的优惠折扣
空气管道
传感 器
空气钻井事故预警系统
大数据在医疗行业的应用
临床决策支持系统
使用图像分析和识别技术,
识别医疗影像数据 挖掘医疗文献数据建立医疗专家数据库, 从而 给医生提出诊疗建议
…… 1 2
33
华 西 药 房 药 品 陈 列 建 议
维生素矿物质类及肠内肠外 营养药 激素类及影响内分泌药物
大数据在保险公司的应用
客户流失预测
保留老客户的成本远低于获取新客户的成本 对所有客户进行一对一营销成本昂贵 客户流失预测出那些可能流失的客户,对这部分
客户进行一对一营销,降低营销成本
大数据在保险公司的应用
客户流失预测
分类分析的应用
客户自然属性 客户退保原因 客户所属地区
客户缴费情况
大数据的产生
感知式系统阶段
人类社会数据量第3次飞跃最终导致了大数据
的产生,今天正处于这个阶段 飞跃的根本原因——感知式系统的广泛使用
制造极其微小的带有处理功能的传感器 设备对整个社会运转进行监控 设备会源源不断地产生新数据
空气钻井事故预警系统
空气钻井事故预警系统
空气钻井事故预警系统
大数据的发展和应用
1 1 2 3 4
互联网的产生和发展
大数据的概念
大数据的特点
大数据的产生
大数据的应用
大数据的基本概念
国务院《促进大数据发展行动纲要》
大数据是以容量大、类型多、存取速度快、应用
价值高为主要特征的数据集合,正快速发展为对 数量巨大、来源分散、格式多样的数据进行采集、 存储和关联分析,从中发现新知识、创造新价值、 提升新能力的新一代信息技术和服务业态。
大数据的特点
价值性(Value)
大数据的价值往往呈现出稀疏性的特点 数据价值密度低是大数据关注的非结构化数据的
重要属性 视频监控,大量的图像数据被存储下来,对于某 一特定的应用,比如获取犯罪嫌疑人的体貌特征, 有效的视频数据可能仅仅有1-2秒
大数据的产生
数据产生方式的变革
人类社会的数据产生方式经历了3个阶段,而
大数据的基本概念
重要意义
大数据成为推动经济转型发展的新动力
大数据持续激发商业模式创新,不断催生新业态,已成为互联网 等新兴领域促进业务创新增值、提升企业核心价值的重要驱动力 发掘和释放数据资源的潜在价值,有利于更好发挥数据资源的战 略作用 建立“用数据说话、用数据决策、用数据管理、用数据创新”的 管理机制
客户购买的险种
保险公司客户流失需考虑的主要因素
大数据在保险公司的应用
客户流失预测
保费>816.67 4 流失率30.83%
流失率47.43% 险种Y
2 保费<=816.67 5 流失率59.78%
1 3 流失率18.73%
险种B、S
2014 年 1 月 预测值 43217 预测误差 (%) 4.25
������
2
预测值 37408
预测误差 (%) -0.09
0.92
大数据在商业银行的应用
精准营销 通过聚类分析,对客户进行划分,获得各个
客户群不同的特征,从而对客户群进行针对 性营销,或者面向特定细分客户群开发特定 产品,从而提高产品销量
大数据的特点
多样性(Variety)
数据类型繁多,复杂多变是大数据的重要特性 以往的数据尽管数量庞大,但通常是事先定义好
的结构化数据。结构化数据是将事物向便于人类 和计算机存储、处理、查询的方向抽象的结果 数据都以表格的形式保存在数据库中
大数据的特点
多样性(Variety)
大数据时代半结构化、非结构化数据逐渐成为
种或2 种以上数据形式。 它要收集超过100TB 的数据,并且是高速、实 时数据流; 或者是从小数据开始,但数据每年会 增长60%以上
大数据的基本概念
Gartner的定义
大数据是需要新处理模式才能具有更强的决策
力、洞察发现力和流程优化能力的海量、高增 长率和多样化的信息资产
大数据的特点
规模性(Volume)
根据IDC
的定义至少要有超过100TB 的可供分 析的数据,数据量大是大数据的基本属性
大数据的特点
著名咨询公司IDC的统计
2011
年全球被创建和复制的数据总量为1.8ZB (10 的21 次方),其中75%来自于个人(主 要是图片、视频和音乐),远远超过人类有史 以来所有印刷材料的数据总量(200PB) 预测到2020 年,全球数据量暴增44 倍(相比 2009 年),总量会达到35 ZB。
呼吸系统药物
抗感染类
阿莫西林 胶囊
甲来自百度文库唑片
大数据在汽车制造公司的应用
大数据预测
基于微博和百度指数的福特汽车销量预测
背景 来源
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
大数据在汽车制造公司的应用
2013 年 12 月 模型名称 组合模型
大数据成为重塑国家竞争优势的新机遇
大数据成为提升政府治理能力的新途径
大数据的基本概念
维基百科的定义
大数据是指利用常用软件工具捕获、管理和处
理数据所耗时间超过可容忍时间的数据集
大数据的基本概念
IDC(International Data Corporation)的定义
大数据一般会涉及2
正是数据产生方式的巨大变化才最终导致大数 据的产生
运营式系统阶段 用户原创内容阶段 感知式系统阶段
大数据的产生
运营式系统阶段
数据库出现使得数据管理的复杂度大大降低
超市的销售记录系统 银行的交易记录系统 医院病人的医疗记录
主要特点是数据伴随运营活动产生并记录在数据
库中
比如淘宝每销售出一件产品就会在数据库中产生相应的
一条销售记录
大数据的产生
用户原创内容阶段
互联网促使人类社会数据量出现第2次飞跃,但
是真正的数据爆发产生于Web2.0时代, Web2.0 的最重要标志就是用户原创内容 主要原因
以博客、微博和微信等为代表的新型社交网络的出现和
快速发展 以智能手机、平板电脑为代表的新型移动设备的出现, 使得人们在网上发表自己意见的途径更为便捷
例如,消费金额超过预期的预警
大数据在保险公司的应用
汽车保险
传统上保险公司只把车险客户做了简单分类
第一种是连续两年没有出车祸的 第二种过去一年没有出车祸 第三种过去一年出了一次车祸 第四种是过去一年出了两次及以上车祸的
不同类别客户保费有差异
大数据在保险公司的应用
汽车保险
大数据的特点
大数据的特点
著名咨询公司IDC的统计
传感网和物联网的蓬勃发展是大数据的又一推
动力,各个城市的视频监控每时每刻都在采集 巨量的流媒体数 劳斯莱斯公司对全世界数以万计的飞机引擎进 行实时监控,每年传送PB数量级的数据。
大数据的特点
数据丰富,信息贫乏
组织 电信 银行 股票 卷烟厂 超市 搜索引擎 在线零售商 项目 通话清单 业务数据 日线数据 生产数据 销售数据 网页 交易数据 数据规模 数十亿条/月 数千万条/月 数十万条/月 数百万条/月 数百万条/月 数百亿页 数百万条
醋酸泼 尼松片 碳酸钙 D3 片 阿法骨化 醇软胶囊
免疫系统药 物
吗替麦考酚 酯胶囊 他克莫司 胶囊
血液系统药物
叶酸片
抗肿瘤药
甲氨蝶呤片
镇痛 解热 抗炎 抗痛风药
调节水盐 电解质 及酸碱平衡药
碳酸氢钠片
苯溴马隆片
中成药
蓝芩口服液 感咳双清胶囊
治疗精神障碍药物
复方丹参滴丸 生脉胶囊
华 西 药 房 药 品 陈 列 建 议
大数据的特点
数据增长定律
图灵奖获得者Jim
律
Gray提出数据增长的经验定
网络环境下每18
个月产生的数据量等于有史以来数
据量之和
大数据的特点
著名咨询公司IDC的统计
公司通过大规模集群和MapReduce 软件,每月处理的数据量超过400PB 百度每天大约要处理几十PB 数据 Facebook 注册用户超过10亿,每月上传的照 片超过10 亿张,每天生成300TB 以上的日志 数据 淘宝网会员超过3.7 亿,在线商品超过11 亿类, 每天交易数千万笔,产生约20TB 数据。
主流数据。非结构化数据量已占到数据总量的 75%以上,且非结构化数据的增长速度比结构 化数据快10 倍到50 倍。 数据类型层出不穷,已经很难用一种或几种规 定的模式来表征日趋复杂、多样的数据形式
视频、音频、图片、邮件、HTML、RFID、GPS 和传感器
WEB数据挖掘面临的难题
Web上半结构化数据特点
Web页面的结构是页面自描述的 在页面里数据与结构混合存在 结构经常动态变化
WEB数据挖掘面临的难题
WEB数据挖掘面临的难题
WEB数据挖掘面临的难题
大数据的特点
高速性(Velocity)
要求数据的快速处理,是大数据区别于传统海量
数据处理的重要特性之一 不断激增的数据不但不能为解决问题带来优势, 反而成了快速解决问题的负担 数据不是静止不动的,而是在互联网络中不断流 动,且通常这样的数据价值是随着时间的推移而 迅速降低的,如果数据尚未得到有效的处理,就 失去了价值,大量的数据就没有意义
股票
基金
大数据在商业银行的应用
精准营销
西太平洋银行利用社交媒体数据对客户进行情感
分析来实现精准营销
大数据在商业银行的应用
风险管理——孤立点分析
摩根大通在业务交易中引入信用卡和借记卡数据
进行诈骗检验
例如,从来没有信用卡取现行为,被阻止
中信银行借助大数据分析技术监控评估客户的行
为,并对客户的信用消费预警