大数据的来源与价值
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、电话营销
2、欺诈分析
利用数据挖掘对过去电话访谈、成交记录建立
利用历史数据,寻找影响保险欺诈最为显著的因
预测模型,找出有购买意愿的潜在客户
素及量化取值区间,建立预测模型,快速将理赔
案件依照欺诈可能性进行分类处理,协助无问题
案件快速通过 3、客户体验
太平洋寿险发布大数据客户体验指数(DEO指数), 其基于客户与公司线上线下互动产生的全量数
1、BAT为代表的互联网公司。 2、电信、金融、保险、电力、石化系统。 3、公共安全、医疗、交通领域。 4、气象、教育、地理、政务等。 5、其他,商业销售、制造业、农业、物流和流通等领域。
大数据分类——按数据来源划分 BAT为代表的互联网公司
阿里巴巴
• 目前保存的数据量为 近百PB
• 拥有90%以上的电商 数据
Fra Baidu bibliotek
大数据在医疗卫生领域的应用
✓ 根据麦肯锡的报告,医疗大数据的分析将为美国产生3000亿美元的价值,减少8%的国家医疗保健 支出。
大数据在医疗卫生领域中的应用
✓ 医疗服务的交付方式将发生重大变革,从患者对医生信息的获取,到医生对患者的诊疗, 到出院后的康复和回访,数字医疗的冲击将贯穿整个过程
✓ 诊疗过程也会有巨大变革,国外已经有公司在运营专门的远程医疗医院。美国某医疗机构 ,完全通过远程的方式提供在线问诊服务。而移动医疗对诊疗过程带来的影响更是重大, 通过可穿戴设备、植入式设备,方便获取病人实时体征信息,这个在以前是不可能或者成 本高昂,对于病情诊断意义重大。而体征获取传感器与植入式治疗设备的配合对于部分疾 病的治疗将有划时代的意义。
• 保险系统数据量也接近 PB级别
• 仅国家电网采集获得的 数据总量就上10个PB级 别
• 石油化工、智能水表等 领域每年产生和保存下 来的数据量也达到数十 PB级别。
大数据分类——按数据来源划分 公共安全、医疗、交通领域
公共安全
• 北京:50万个监控摄 像头,每天采集视频 数据量约3PB
• 整个视频监控每年保 存下来的数据在数百 PB以上
定长的限制
大数据分类——按存储形式划分
半结构化数据
• 介于完全结构化数据和完全无结构的数据之间 • 格式较为规范,一般都是纯文本数据 • 包括日志数据、XML、JSON等格式的数据 • 一般是自描述的,数据的结构和内容混在一起,没有明显的区分 • 数据模型主要为树和图的形式。
新周刊微博案例分享
作为国内新锐媒体代表的“新周刊”是新浪微博的第一批受益 媒体,他们开通了新浪微博后,截止到2010年11月19日,粉丝 数已经达到了878966人,发表微博6488条。
00之前加油的客户,有60%会去吃饭; 商圈,目前已实际覆盖全国161个商圈,累计服务
再结合LBS信息,分析客户就餐区域, 千万人次。第二步,利用用户活动轨迹追踪,确定
发现其中70%有去中心城区吃饭的习惯。 高价值商圈,设计业务。第三步,再利用大数据进
于是信用卡中心与中心城区的汉拿山烤 行客户需求的体验分析,既包括客户的需要,也包
大数据分类——按存储形式划分
大数据不仅仅体现在数据量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属 于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化或半 结构化的数据。
大数据分类——按存储形式划分
结构化数据
• 即行数据,可用二维表结构来逻辑表达实现 • 主要存储在关系型数据库中 • 先有结构再有数据,结构一般不变 • 处理起来较方便
• 交易数据、用户浏览 和点击网页数据、购 物数据
百度
腾讯
• 2013数据总量接近一千 个PB
• 中文网页、百度推广、 百度日志、UGC
• 以70%以上的搜索市场 份额坐拥庞大的搜索数 据
• 总存储数据量经压缩处 理以后在100PB左右
• 数据量月增10%
• 大量社交、游戏等领域 积累的文本、音频、视 频和关系类数据
✓ 印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言中预测道 琼斯工业指数。准确率高达87%。
✓ 淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI, 它比国家统计局公布的CPI还提前半个月预测经济的走势。
大数据在农业领域的应用
南京零距离微博案例分享
微博节省沟通成本, 新闻发布更为便捷, 让团队的协同工作更为快速
?
厕所没有纸了 怎么办
?
谁最先报道了 绵阳地震
?
11除70的商的小数点后面的第200位上的 数字是几
01 大数据概述
02 大数据分类(3种划分方式)
03
大数据的价值
大数据在宏观经济管理领域的应用
✓ IBM日本公司建立了一个经济指标预测系统,它从互联网新闻中搜索出影响制造业的480项经济 数据,再计算出PMI预测值,准确度相当高。
医疗卫生
交通
• 仅广州中山大学医院 2013年数据量为1000个
TB
• 整个医疗卫生行业一年 能够保存下来的数据就 可达到数百PB
• 航班往返一次能产生数 据就达到TB级别
• 列车、水陆路运输产生 的各种视频、文本类数 据,每年保存下来的也 达到数十PB。
• 添加标题
大数据分类——按数据来源划分 气象、教育、地理、政务等领域
据,DEO指数根据销售、售后服务、理赔三大领域,诚信、品质、效率、期望值四个维度,选取保
险监管部门确定的行业标准12个服务评价定量指标,以及公司重点关注的另外8个客户体验指标,
以报告期积累的全量实际数据为基准值计算得出。
2013年各渠道与客户交互数为2432万人次。电话和柜面两大传统服务渠道占比达81%,新兴移动
• 添加标题
大数据分类——按数据来源划分 电信、金融、保险、电力、石化系统
电信行业
金融与保险
电力与石化
• 用户上网记录、通话、 信息、地理位置
• 运营商拥有的数据数 量都在10PB以上
• 年度用户数据增长约 数十PB
• 开户信息数据,银行网 点和在线交易数据、自 身运营的数据
• 金融系统每年产生数据 达数十PB
大数据在金融业的应用
✓ 华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴的时候会买股票,而 焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多,依此决定公司股票的买 入或卖出。
✓ 阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷 款,并且不需要这些中小企业的担保。
气象与地理
• 中国气象局保存的数 据约4~5PB,每年约 增数百个TB
• 各种地图和地理位置 信息每年约数十PB
政务与教育
• 北京市政务数据资源网 涵盖旅游、教育、交通、 医疗等门类,一年上线 公布了400余个数据 包
• 政务数据多为结构化数 据
大数据分类——按数据来源划分
商业销售、制造业、农业、物流和流通等领域
封新城
新周刊
主编、媒体微博交相呼应
截止到2010年11月,封新城的微博粉丝数 已接近36万
都市快报微博案例分享 版面整体合作:推出《微生活》栏目,此栏目是都市快报和新 浪网合作推出的版面。《微生活》的内容来自新浪微博。《微 生活》和读者分享的则是一周微博热议、微博语录、热文微议 等精彩内容。
微博话题征集:都市快报通过在新浪微博上进行写给100岁新中国的 信,并通过整版选取内容刊登,极富新意
大数据的来源与价值
01 大数据概述
02 大数据分类(3种划分方式)
03
大数据的价值
大数据概述——数据量
2013 年中国产生的数据总量超过0.8ZB(相当于8亿TB),2 倍于2012 年,相当于2009 年全球的数据总量。预计到2020 年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。
✓ Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、 气温和土壤状况及历年农作物产量做成精密图表,从而能够预测美国任一农场下一年的产量。任何一 个农场主去他那里问明年种什么能卖出去、能赚钱,他能告诉你,说错了他保证赔偿,赔偿比保险公 司还要高,到现在为止他还没有赔过。
✓ 当顾客在超市买东西时,通过手机定位,可以分析他们在货柜前停留时间的长短,从而判断顾客对 什么感兴趣。
✓ 不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传感器,根据顾客在不同 货物前停留时间的长短来分析顾客可能的购物行为。
✓ 在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易平台把消费记 录拿来自己使用,还会把消费记录卖给其他商家。
度、客户细分和客户保持进行分析,以减少客户流
公司是在最能给公司创造收益的客户集中地地
失
区运营
大数据在保险领域的应用 ✓ 保险领域应用方案——架构
大数据在保险领域的应用 ✓ 保险领域应用方案——示例:社交媒体信息交叉验证欺诈行为
交叉 验证
大数据在医疗卫生领域的应用
✓ Google通过用户搜索与流感相关词汇的频率,判断某个地方可能会发生流感。2009年在甲型H1N1 流感爆发的几周前,Google就做出预测,而且还判断出了流感是从哪里来的。
——DNET《数据中心2013:硬件重构与软件定义》年度技术报告
01 大数据概述
02 大数据分类(3种划分方式)
03
大数据的价值
大数据分类——按产生主体划分
最里层:少量企业应用产生 的数据
次外层:大量人产生的数据
最外层:巨量机器产生的数 据
• 关系型数据库中的数 据
• 数据仓库中的数据
• 微博、微信 • 电子商务在线交易日志
肉店合作,在每个周末17:30的时候, 括客户的体验(即用户需要相对于用户意义、目的、
向驶出加油站的客户,打出这样的手机 情感的关联),最终实现用户体验的LIKE曲线。
广告:"物超所值,美味、环境优雅,
价格适中,朋友聚会的理想场所,持中
信卡可享五折优惠!"
大数据在保险领域的应用
✓ 保险领域数据挖掘应用现状
数据 • 呼叫中心评论、留言或
者电话投诉等 • 企业应用的相关评论数
据
• 应用服务器日志 • 传感器数据(天气、水、
智能电网等)
• 图像和视频(摄像头监 控数据等)
• RFID、二维码或条形码 扫描数据
大数据分类——按数据来源划分
通过服务器和数据中心数量,以及各行业数据梳理,大致判断国内2013年一年产生的数据总量以 及大致分布,数据主要分布在以下行业:
✓ 目前阿里公司已放贷上千亿元,坏帐率仅0.3%。2012年年底,四大商业银行的坏账率为1%左右 ,尽管四大银行要求有担保,但坏账率仍然比阿里高出3倍。
大数据在银行业的应用
中信银行将客户使用信信用用卡卡服加务油 实现方式
与吃饭的信息关联起来进行分析,通过
数据的挖掘,卡中心发现,在周末18:
第一步,利用移动互联网技术,定位功能确定
渠道占比迅速攀升。客户关注的十大热点为退保利益、退保手续、分红利益、产品咨询、续期交费
状态、生存金领取手续、出险报案、续期交费凭证、续期交费时间期次、理赔责任
4、交叉销售
5、续保率维持
美国保险公司利用数据挖掘技术对不同客户的
澳大利亚的保险公司利用数据挖掘工具对客户忠诚
消费特征进行分析,制定交叉销售策略,保证
✓ 通过手机上农产品“移动支付”数据、“采购投入”数据和“补贴“数据分析,可准确预测农产品生 产趋势,政府可依此决定出台激励措施和确定合适的作物存储量,还可为农民提供服务。
大数据在商业领域的应用
✓ 沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习 语义搜索引擎“北极星“,方便浏览,在线购物者因此增加10%-15%,增加销售十多亿美元。
大数据分类——按存储形式划分
非结构化数据
• 相对于结构化数据而言,不方便用数据库二维逻辑表来表现 • 非纯文本类数据,没有标准格式 • 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、
图像和音频/视频信息 • 存储在非结构数据库中 • 非结构化WEB数据库:突破了关系数据库结构定义不易改变和数据
制造业
• 制造业的存储数据类型: ① 产品设计数据:以文件为主,非结构化,共享要求较高,保存
时间较长。 ② 企业生产环节的业务数据:数据库结构化数据 ③ 生产监控数据:数据量非常大
其他传统行业
• 线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运 输等行业数据量剧增
• 行业数据量还处于积累期,整个体量都不算大,多则达到PB级 别,少则百TB甚至数十TB级别。