大数据应用案例分析课件(PPT 22页)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

海量交互数据: 源于Facebook、Twitter、微博、及 其他来源的社交媒 体数据构成。它包括了呼叫详细记 录CDR、设备和传感 器信息、GPS和地理定位映射数 据、通过管理文件传输 Manage File Transfer协议传 送的海量图像文件、Web 文本和点击流数据、科学信 息、电子邮件等等。可以告 诉我们未来会发生什么。
大数据处理办法
01 用 户 画 像 体 系
每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求
。 产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容
进 行精准投放。
购买能力如何?
活跃程度如何?
常住地在哪儿?
基本特征? 常去的商圈是哪儿?
04 产 品 竞 争
截至2016年7月呈现2亿音乐用户听歌行为以及2万音乐人活跃行为
*听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为; *个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好 音乐;*听歌进入多元化时代,民谣、电音、二次元音乐崛起; *独立音乐人迅速崛起,社交互动助推音乐人涨粉; *90后已成为音乐消费主力人群; *用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛;
*综艺影视对音乐的影响依旧强大,热门歌曲中7成来源于 综艺或影视;
*偶像流行乐保持高热度,欧美歌曲受众提升; *音乐市场正在构建一种新的评价体系,评论数成为歌曲 热度重要评价指标;
*男歌手受喜爱度高于女歌手,女性歌迷消费群体经济崛 起;
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高素质年轻人群。
TB
GB
1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量:
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据;
在2011 年,这个数字达到了1.8ZB。
据IDC研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!


除提及人的干扰(@) c.

去除如门户的作者的干扰 否



模型评估 是否通过
训练生成 的模型
模型训练
特征权重计算





待预测类 别文本原
数据预处理
待预测 类别文
训练生成 的模型
文本打 上类别

始库
本库
标签
04 大 数 据 的 处 理
里程数据

工况数据 车辆信息
融融合合信信息息 数数据据库库
02 大 数 据 的 构 成
大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案
海量交易数据: 企业内部的经营交易信息主要包括联 机交易数据和联机 分析数据,是结构化的、通过关系 数据库进行管理和访 问的静态、历史数据。通过这些 数据,我们能了解过去 发生了什么。
想驾驭这庞大的数据,我们 必 须了解大数据的特征。
7、分享自己的口味
主要需求(音乐消费者)
1、播放音乐 2、发现音乐 (喜欢的、特别的、潮流的) 3、展示自我,有基于音乐的互动。
大数据应用案例分析
目录
1 大数据概念 2 大数据处理办法 3 大数据应用案例
1
大数据概念
01 大 数 据 时 代 到 来
随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置 、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。
PB EB ZB
据 挖
充电数据
数据 去重
空值
数据
处理
去噪
格式 统一
对齐融合

行驶轨迹



去除异常的数 据项
将空值更
汇聚多源异构 数据 中的 一致部分
过 程
将多源异构数
改为 对
使用UGC算法去除无用数
据转换 为统一
应的默认
据 使用基于密度的聚类去除
数据表达形式

异常数据
3
大数据应用案例
01 大数据是做好音乐平台的一把利器
目标 细分 用户 群体
用户特征
音乐 消费

学生
年轻,时间宽裕,喜欢新鲜, 爱评论爱分享爱展示,有个性
白领
时间碎片化,有一定压力,会 关注娱乐界动态
IT从 压力大,需要更多消遣和心理 业者 慰藉
时尚 人士
热爱音乐和潮流,有个性
需求
1、个性化推荐音乐 2、对音乐有评论等互动行 为 3、分享展示喜欢的音乐 4、迅速找到喜欢的音乐 5、推荐潮流音乐 6、有明星动态
海量数据处理: 大数据的涌现已经催生出了设计用于 数据密集型处理的 架构。例如具有开放源码、在商品 硬件群中运行的 Apache Hadoop。
注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂
03 大 数 据 4V 特 征
大数据
解 决 方 案
产品
转 化
市场价值
1. 海量(Volume)
医疗条件
共用车辆情况 婚姻状态
学习周期 感知力
教育水平 民族特征 消费习惯
购买 能力
心理 特征
通过对用户不同维度的大数据分析,最终得出可执行的业务决策。
基本 属性
兴趌 爱好
社交 网络
03 基于机器学习的数据挖掘及分类基本识别流程
训练样本
数据预处理
训练样本
分词
特征选择

数据源 a.去除营销博文干扰 b.去
数据量巨大
全球在2010 年正式进入ZB 时 代,IDC预计到 2020 年,全 球将总共拥有35ZB 的数据量
3.速度( Velocity)
实时获取需要的信息 比ຫໍສະໝຸດ Baidu:在客户每次浏览页面, 每次下订单过程中都会 对用 户进行实时的推荐,决策已经 变得实时
2. 多样(Variety)
结构化数据、半结构化数据和非结
职业是什么?
对什么感兴趣?
消费习惯和特征是什么 ?
赢利点在哪?
公司在哪?
年龄分布、区域分布是什么样的?
02 用 户 画 像 体 系
驾驶行为数据将构建精准的车险用户画像
性别 犯罪记录 年龄
国籍
违章驾驶记录
驾驶时间
碰撞事故
车辆维修 收入情况 疲劳驾驶 酒驾经历 生活方式
行为 习惯
地理位置
使用药物情况
开车地点 职业 驾照类别 开车频率 开车原因 健庩状况
构化 数据
如今的数据类型早已不是单一的文本形式 ,网络日志、 音频、视频、图片、地理 位置信息等,对数据的处理 能力提出了 更高要求
4. 价值(value)
沙里淘金,价值密度低
虽然数据量很大,但是价值密度较 低,如何通过强大 的机器算法更 迅速地完成数据价值“提纯”,是 目前 大数据亟待解决的难题
2
相关文档
最新文档