大数据的来源与价值
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分类——按存储形式划分
非结构化数据
• 相对于结构化数据而言,不方便用数据库二维 逻辑表来表现 • 非纯文本类数据,没有标准格式 • 包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息 • 存储在非结构数据库中 • 非结构化WEB数据库:突破了关系数据库结构 定义不易改变和数据定长的限制
到现在为止他还没有赔过。
通过手机上农产品“移动支付”数据、“采购投入”数据和“补贴“数据分析, 可准确预测农产品生产趋势,政府可依此决定出台激励措施和确定合适的作物 存储量,还可为农民提供服务。
大数据在商业领域的应用
沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大
众评分,开发机器学习语义搜索引擎“北极星“,方便浏览,在线购物者因
电力与石化
• 仅国家电网采集 获得的数据总量 就上10个PB级别 • 石油化工、智能 水表等领域每年 产生和保存下来 的数据量也达到 数十PB级别。
大数据分类——按数据来源划分
公共安全、医疗、交通领域
公共安全
• 北京:50万个 监控摄像头, 每天采集视频 数据量约3PB • 整个视频监控 每年保存下来 的数据在数百 PB以上
气象与地理
• 中国气象局保 存的数据约 4~5PB,每年 约增数百个TB • 各种地图和地 理位置信息每 年约数十PB
政务与教育
• 北京市政务数据 资源网涵盖旅游、 教育、交通、医 疗等门类,一年 上线公布了40 0余个数据包 • 政务数据多为结 构化数据
大数据分类——按数据来源划分
商业销售、制造业、农业、物流和流通等领域
最外层:巨量机器 产生的数据
• 应用服务器日志 • 传感器数据(天 气、水、智能电 网等) • 图像和视频(摄 像头监控数据等) • RFID、二维码或 条形码扫描数据
大数据分类——按数据来源划分
通过服务器和数据中心数量,以及各行业数据梳理, 大致判断国内2013年一年产生的数据总量以及大致分布, 数据主要分布在以下行业: 1、BAT为代表的互联网公司。 2、电信、金融、保险、电力、石化系统。 3、公共安全、医疗、交通领域。 4、气象、教育、地理、政务等。 5、其他,商业销售、制造业、农业、物流和流通等领域。
括客户的体验(即用户需要相对于用户意义、目的、
情感的关联),最终实现用户体验的LIKE曲线。
大数据在保险领域的应用
保险领域数据挖掘应用现状
利用数据挖掘对过去电话访谈、成交记录建立 预测模型,找出有购买意愿的潜在客户
1、电话营销
利用历史数据,寻找影响保险欺诈最为显著的因素及量化 取值区间,建立预测模型,快速将理赔案件依照欺诈可能 性进行分类处理,协助无问题案件快速通过
新周刊 主编、媒体微博交相呼应
截止到2010年11月,封新城的微 博粉丝数已接近36万
封新城
都市快报微博案例分享
版面整体合作:推出《微生活》栏目,此栏目
是都市快报和新浪网合作推出的版面。《微生活》的 内容来自新浪微博。《微生活》和读者分享的则是一 周微博热议、微博语录、热文微议等精彩内容。
微博话题征集:都市快报通过在新浪微博上进行写
授课人:韩冬梅 dongmeihan@shufe.edu.cn
PPT模板下载:www.1ppt.com/moban/ 节日PPT模板:www.1ppt.com/jieri/ PPT背景图片:www.1ppt.com/beijing/ 优秀PPT下载:www.1ppt.com/xiazai/ Word教程: www.1ppt.com/word/ 资料下载:www.1ppt.com/ziliao/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/
01
02
大数据概述 大数据分类(3种划分方式) 大数据的价值
03
大数据分类——按产生主体划分
最里层:少量企业 应用产生的数据 • 关系型数据库 中的数据 • 数据仓库中的 数据
次外层:大量人产 生的数据 • 微博、微信 • 电子商务在线交 易日志数据 • 呼叫中心评论、 留言或者电话投 诉等 • 企业应用的相关 评论数据
出3倍。
大数据在银行业的应用
信用卡服务 实现方式
中信银行将客户使用信用卡加油与吃饭 的信息关联起来进行分析,通过数据的挖掘, 卡中心发现,在周末18:00之前加油的客户, 有60%会去吃饭;再结合LBS信息,分析客户 就餐区域,发现其中70%有去中心城区吃饭的
第一步,利用移动互联网技术,定位功能确定
行业PPT模板:www.1ppt.com/hangye/ PPT 素材下载:www.1ppt.com/s ucai/ PPT 图表下载:www.1ppt.com/t ubiao/ PPT 教程: www.1ppt.com/powerpoint/ Excel 教程:www.1ppt.com/exce l/ PPT 课件下载:www.1ppt.com/ kejian/ 试卷下载:www.1ppt.com/shit i/
医疗卫生
• 仅广州中山大学 医院2013年数据 量为1000个TB • 整个医疗卫生行 业一年能够保存 下来的数据就可 达到数百PB
交通
• 航班往返一次能 产生数据就达到 TB级别 • 列车、水陆路运 输产生的各种视 频、文本类数据, 每年保存下来的 也达到数十PB。
大数据分类——按数据来源划分
气象、教育、地理、政务等领域
03
大数据在宏观经济管理领域的应用
IBM日本公司建立了一个经济指标预测系统,它从互联网新闻中搜索出 影响制造业的480项经济数据,再计算出PMI预测值,准确度相当高。 印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万 条短信、微博留言中预测道琼斯工业指数。准确率高达87%。 淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上390个类目的热
制造业
• 制造业的存储数据类型: ① 产品设计数据:以文件为主,非结构化,共享要 求较高,保存时间较长。 ② 企业生产环节的业务数据:数据库结构化数据 ③ 生产监控数据:数据量非常大 • 线下商业销售、农林牧渔业、线下餐饮、食品、 科研、物流运输等行业数据量剧增 行业数据量还处于积累期,整个体量都不算大, 多则达到PB级别,少则百TB甚至数十TB级别。
此增加10%-15%,增加销售十多亿美元。 当顾客在超市买东西时,通过手机定位,可以分析他们在货柜前停留时间的 长短,从而判断顾客对什么感兴趣。 不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传
感器,根据顾客在不同货物前停留时间的长短来分析顾客可能的购物行为。
在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不 仅从交易平台把消费记录拿来自己使用,还会把消费记录卖给其他商家。
商圈,目前已实际覆盖全国161个商圈,累计服务
千万人次。第二步,利用用户活动轨迹追踪,确定 高价值商圈,设计业务。第三步,再利用大数据进 行客户需求的体验分析,既包括客户的需要,也包
习惯。于是信用卡中心与中心城区的汉拿山烤
肉店合作,在每个周末17:30的时候,向驶 出加油站的客户,打出这样的手机广告:"物 超所值,美味、环境优雅,价格适中,朋友聚 会的理想场所,持中信卡可享五折优惠!"
2、欺诈分析
太平洋寿险发布大数据客户体验指数(DEO指数), 其基于客户与公司线上线下互动产生的全量数据,DEO指数根 据销售、售后服务、理赔三大领域,诚信、品质、效率、期望值四个维度,选取保险监管部门确定的行业标准12个 服务评价定量指标,以及公司重点关注的另外8个客户体验指标,以报告期积累的全量实际数据为基准值计算得出。 2013年各渠道与客户交互数为2432万人次。电话和柜面两大传统服务渠道占比达81%,新兴移动渠道占比迅速攀升 。客户关注的十大热点为退保利益、退保手续、分红利益、产品咨询、续期交费状态、生存金领取手续、出险报案、 续期交费凭证、续期交费时间期次、理赔责任
3、客户体验
美国保险公司利用数据挖掘技术对不同客户的消费特征 进行分析,制定交叉销售策略,保证公司是在最能给公 司创造收益的客户集中地地区运营
4、交叉销售
澳大利亚的保险公司利用数据挖掘工具对客户忠诚 度、客户细分和客户保持进行分析,以减少客户流 失
大数据分类——按数据来源划分
电信、金融、保险、电力、石化系统
电信行业
• 用户上网记录、 通话、信息、 地理位置 • 运营商拥有的 数据数量都在 10PB以上 • 年度用户数据 增长约数十PB
金融与保险
• 开户信息数据, 银行网点和在线 交易数据、自身 运营的数据 • 金融系统每年产 生数据达数十PB • 保险系统数据量 也接近PB级别
大数据分类——按存储形式划分
半结构化数据
介于完全结构化数据和完全无结构的数据之间 格式较为规范,一般都是纯文本数据 包括日志数据、XML、JSON等格式的数据 一般是自描述的,数据的结构和内容混在一起, 没有明显的区分 • 数据模型主要为树和图的形式。 • • • •
新周刊微博案例分享
作为国内新锐媒体代表的“新周刊”是新浪微博 的第一批受益媒体,他们开通了新浪微博后,截 止到2010年11月19日,粉丝数已经达到了 878966人,发表微博6488条。
门商品价格来统计CPI,它比国家统计局公布的CPI还提前半个月预测经
济的走势。
大数据在农业领域的应用
Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气 数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而 能够预测美国任一农场下一年的产量。任何一个农场主去他那里问明年种什么 能卖出去、能赚钱,他能告诉你,说错了他保证赔偿,赔偿比保险公司还要高,
给100岁新中国的信,并通过整版选取内容刊登,极富新意
南京零距离微博案例分享
微博节省沟通成本,
新闻发布更为
便捷, 快速
让团队的协同工作更为
怎么 办
厕所没有 纸了
来自百度文库
谁最先报道了
绵阳地震
11除70的商的小数点后 面的第200位上的
数字是几
01
02
大数据概述 大数据分类(3种划分方式) 大数据的价值
01
02
大数据概述 大数据分类(3种划分方式) 大数据的价值
03
大数据概述——数据量
2013 年中国产生的数据总量超过0.8ZB(相当于8 亿TB),2 倍于2012 年,相当于2009 年全球的数据 总量。预计到2020 年,中国产生的数据总量将是2013 年的10倍,超过8.5ZB。
——DNET《数据中心2013:硬件重构与软件定义》年 度技术报告
其他传统行 业
•
大数据分类——按存储形式划分
大数据不仅仅体现在数据量大,也体现在数据类型多。 如此海量的数据中,仅有 20% 左右属于结构化的数据, 80%的数据属于广泛存在于社交网络、物联网、电子商务 等领域的非结构化或半结构化的数据。
大数据分类——按存储形式划分
结构化数据
• • • • 即行数据,可用二维表结构来逻辑表达实现 主要存储在关系型数据库中 先有结构再有数据,结构一般不变 处理起来较方便
大数据在金融业的应用
华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴 的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人 多还是焦虑的人多,依此决定公司股票的买入或卖出。
阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营 的企业,给他们提供贷款,并且不需要这些中小企业的担保。 目前阿里公司已放贷上千亿元,坏帐率仅0.3%。2012年年底,四大商业银 行的坏账率为1%左右,尽管四大银行要求有担保,但坏账率仍然比阿里高
大数据分类——按数据来源划分
BAT为代表的互联网公司
阿里巴巴
• 目前保存的数 据量为近百PB • 拥有90%以上 的电商数据 • 交易数据、用 户浏览和点击 网页数据、购 物数据
百度
腾讯
• 2013数据总量接 • 总存储数据量经 近一千个PB 压缩处理以后在 100PB左右 • 中文网页、百度 推广、百度日志、 • 数据量月增10% UGC • 大量社交、游戏 • 以70%以上的搜 等领域积累的文 索市场份额坐拥 本、音频、视频 庞大的搜索数据 和关系类数据