大数据应用案例分析PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医疗条件
共用车辆情况 婚姻状态
学习周期 感知力
教育水平 民族特征 消费习惯
购买 能力
心理 特征
通过对用户不同维度的大数据分析,最终得出可执行的业务决策。
基本 属性
兴趌 爱好
社交 网络
03 基于机器学习的数据挖掘及分类基本识别流程
训练样本
数据预处理
训练样本
分词
特征选择
训
数据源 a.去除营销博文干扰 b.去
数据量巨大
全球在2010 年正式进入ZB 时 代,IDC预计到 2020 年,全 球将总共拥有35ZB 的数据量
3.速度( Velocity)
实时获取需要的信息 比如:在客户每次浏览页面, 每次下订单过程中都会 对用 户进行实时的推荐,决策已经 变得实时
2. 多样(Variety)
结构化数据、半结构化数据和非结
库
练
除提及人的干扰(@) c.
及
去除如门户的作者的干扰 否
测
试
过
模型评估 是否通过
训练生成 的模型
模型训练
特征权重计算
程
是
预
测
过
待预测类 别文本原
数据预处理
待预测 类别文
训练生成 的模型
文本打 上类别
程
始库
本库
标签
04 大 数 据 的 处 理
里程数据
数
工况数据 车辆信息
融融合合信信息息 数数据据库库
04 产 品 竞 争
截至2016年7月呈现2亿音乐用户听歌行为以及2万音乐人活跃行为
*听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为; *个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好 音乐;*听歌进入多元化时代,民谣、电音、二次元音乐崛起; *独立音乐人迅速崛起,社交互动助推音乐人涨粉; *90后已成为音乐消费主力人群; *用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛;
02 大 数 据 的 构 成
大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案
海量交易数据: 企业内部的经营交易信息主要包括联 机交易数据和联机 分析数据,是结构化的、通过关系 数据库进行管理和访 问的静态、历史数据。通过这些 数据,我们能了解过去 发生了什么。
想驾驭这庞大的数据,我们 必 须了解大数据的特征。
大数据处理办法
01 用 户 画 像 体 系
每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求
。 产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容
进 行精准投放。
购买能力如何?
活跃程度如何?
常住地在哪儿?
基本特征? 常去的商圈是哪儿?
海量数据处理: 大数据的涌现已经催生出了设计用于 数据密集型处理的 架构。例如具有开放源码、在商品 硬件群中运行的 Apache Hadoop。
注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂
03 大 数 据 4V 特 征
大数据
解 决 方 案
产品
转 化
市场价值
1. 海量(Volume)
大数据应用案例分析
目录
1 大数据概念 2 大数据处理办法 3 大数据应用案例
1
大数据概念
01 大 数 据 时 代 到 来
随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置 、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。
PB EB ZB
TB
GB
1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量 : 在2006 年,个人用户才刚刚迈进TB时代 , 全球一共新产生了约180EB的数据;
在2011 年,这个数字达到了1.8ZB。
据IDC研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
构化 数据
如今的数据类型早已不是单一的文本形式 ,网络日志、 音频、视频、图片、地理 位置信息等,对数据的处理 能力提出了 更高要求
4. 价值(value)
沙里淘金,价值密度低
虽然数据量很大,但是价值密度较 低,如何通过强大 的机器算法更 迅速地完成数据价值“提纯”,是 目前 大数据亟待解决的难题
2
Leabharlann Baidu
据 挖
充电数据
数据 去重
空值
数据
处理
去噪
格式 统一
对齐融合
掘
行驶轨迹
分
类
的
去除异常的 数据项
将空值更
汇聚多源异 构数据 中 的一致部分
过 程
将多源异构数
改为 对
使用UGC算法去除无用数
据转换 为统一
应的默认
据 使用基于密度的聚类去除
数据表达形式
值
异常数据
3
大数据应用案例
01 大数据是做好音乐平台的一把利器
职业是什么?
对什么感兴趣?
消费习惯和特征是什么 ?
赢利点在哪?
公司在哪?
年龄分布、区域分布是什么样的?
02 用 户 画 像 体 系
驾驶行为数据将构建精准的车险用户画像
性别 犯罪记录 年龄
国籍
违章驾驶记录
驾驶时间
碰撞事故
车辆维修 收入情况 疲劳驾驶 酒驾经历 生活方式
行为 习惯
地理位置
使用药物情况
开车地点 职业 驾照类别 开车频率 开车原因 健庩状况
目标 细分 用户 群体
用户特征
音乐 消费
者
学生 白领
年轻,时间宽裕,喜欢新鲜, 爱评论爱分享爱展示,有个性
时间碎片化,有一定压力,会 关注娱乐界动态
IT从 压力大,需要更多消遣和心理 业者 慰藉
时尚 人士
热爱音乐和潮流,有个性
需求
1、个性化推荐音乐 2、对音乐有评论等互动行 为 3、分享展示喜欢的音乐 4、迅速找到喜欢的音乐 5、推荐潮流音乐 6、有明星动态
7、分享自己的口味
主要需求(音乐消费者)
1、播放音乐 2、发现音乐 (喜欢的、特别的、潮流的) 3、展示自我,有基于音乐的互动。
*综艺影视对音乐的影响依旧强大,热门歌曲中7成来源于 综艺或影视;
*偶像流行乐保持高热度,欧美歌曲受众提升; *音乐市场正在构建一种新的评价体系,评论数成为歌曲 热度重要评价指标;
*男歌手受喜爱度高于女歌手,女性歌迷消费群体经济崛 起;
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高素质年轻人群。
海量交互数据: 源于Facebook、Twitter、微博、及 其他来源的社交媒 体数据构成。它包括了呼叫详细记 录CDR、设备和传感 器信息、GPS和地理定位映射数 据、通过管理文件传输 Manage File Transfer协议传 送的海量图像文件、Web 文本和点击流数据、科学信 息、电子邮件等等。可以告 诉我们未来会发生什么。