大数据应用案例分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
海量数据处理: 大数据的涌现 据密集型处理的 架构。例如具 群中运行的 Apache Hadoop
注:大数据 不仅仅指的是数据量庞大,更为
03 大 数 据 4V 特 征
大数据
解 决 方 案
产品
转 化
市场价值
1. 海量(Volume)
数据量巨大
全球在2010 年正式进入ZB 时 代,IDC预计到 2020 年,全 球将总共拥有35ZB 的数据量
喜欢分享音乐,评论音乐
5、希望得到更多展示( 专栏)
主要需 1、宣传 (新歌 2、宣传 (演播 3、盈利 (版权
3.速度( Velocity)
实时获取需要的信息 比如:在客户每次浏览页面, 每次下订单过程中都会 对用 户进行实时的推荐,决策已经 变得实时
2. 多
结构化
构化 数
如今的数 式,网络 地理位置 提出了更
4. 价
沙里淘金
虽然数据 低,如何 迅速地完 目前 大数
2
大数据处理办法
01 用 户 画 像 体 系
性别 犯罪记录 年龄
国籍
违章驾驶记录
驾驶时间
碰撞事故
车辆维修 收入情况 疲劳驾驶 酒驾经历 生活方式
地理位置
使用药物情况
开车地点
共用车辆情况
职业
婚姻状态
驾照类别 开车频率 开车原因
健庩状况
医疗条件
学习周期 感知力
教育水平 民族特征 消费习惯
通过对用户不同维度的大数据分析,最终得出可执行的业务决策。
03 基于机器学习的数据挖掘及分类基本
大数据应用案例分析
2020年7月7日星期二
目录
1 大数据概念 2 大数据处理办法 3 大数据应用案例
1
大数据概念
01 大 数 据 时 代 到 来
随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越 、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸
PB EB ZB
02 大 数 据 的 构 成
大数据 =海量数据(交易数据、交互数据)+针对
海量交易数据: 企业内部的经 交易数据和联机 分析数据,是 库进行管理和访 问的静态、历 我们能了解过去 发生了什么。
想驾驭这庞大的数据,我们 必 须了解大数据的特征。
海量交互数据: 源于Facebo 他来源的社交媒 体数据构成。 CDR、设备和传感 器信息、G 通过管理文件传输 Manage F 量图像文件、Web 文本和点击 邮件等等。可以告 诉我们未来
*综艺影视对音乐的影响依旧 综艺或影视;
*偶像流行乐保持高热度,欧 *音乐市场正在构建一种新的 热度重要评价指标;
*男歌手受喜爱度高于女歌手 起;
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高
目标 细分 用户 群体
用户特征
音乐 消费
者
学生 白领
年轻,时间宽裕,喜欢新鲜, 爱评论爱分享爱展示,有个性
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高
通过数据可以发现网易云音乐用户群中19-30岁年龄段用户最多,占比达到48%,整 化。
职业分布:学生和IT从业者占据绝大用户群,企业中高层管理人员所占比例最少,另 员所占比例区别不大,用户群体整体受教育程度普遍较高。
用户分析 05
—目标用户:(内容产生者是活跃音乐社区的关
数据 去重
去除异常的数 据项
将空值更 改为 对 应的默认 值
空值
数据
处理
去噪
格式 统一
对齐融合
融融合合信信息息 数数据据库库
使用UGC算法去除无用数 据 使用基于密度的聚类去除
异常数据
汇聚多源异 数据 中 一致部分
将多源异构数 据转换 为统一 数据表达形式
3
大数据应用案例
01 大数据是做好音乐平台的一把利器
每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源
。 产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需
Leabharlann Baidu
进 行精准投放。
购买能力如何?
常住地在哪儿?
基本特征?
常去的商圈是哪儿?
赢利点在哪?
公司在哪?
年龄分布
02 用 户 画 像 体 系
驾驶行为数据将构建精准的车险用户画像
TB
GB 在2011 年,这个数字达到了1.8ZB。
1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量 : 在2006 年,个人用户才刚刚迈进TB时 , 全球一共新产生了约180EB的数据;
据IDC研究机构预测: 到2020 年,整个世界的数据总量将会增 44 倍,达到35.2ZB(1ZB=10 亿TB)!
钢铁锅,含眼
削个椰子皮,你却TM给个梨 爽歪的麻雀,在电线杆上裸睡
撒米拉带带,哇嘎哇嘎哎哟 四斤大豆,三根皮带 多情咱切抱刘继
艾薇,莎啦啦,艾瑞噢喔噢喔,手刹 想听的歌记不起名字??
04 产 品 竞 争
截至2016年7月呈现2亿音乐用户听歌行为以及2
*听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为; *个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好 音乐;*听歌进入多元化时代,民谣、电音、二次元音乐崛起; *独立音乐人迅速崛起,社交互动助推音乐人涨粉; *90后已成为音乐消费主力人群; *用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛;
目标 细分 用户 群体
用户特征
需求
音乐 内容 产生 者
音乐人 /DJ
作品找不到渠道,希望建立个 人品牌,更好的运营个人品牌
1、传播自己的音乐,让 更多的人知道 2、与粉丝有互动
歌手 有一定知名度,有粉丝基础
3、进一步提高知名度, 吸引更多粉丝
唱片 公司
商业机构,营利是最重要的目 的。
4、提高收入
音乐爱 好者
时间碎片化,有一定压力,会 关注娱乐界动态
IT从 压力大,需要更多消遣和心理 业者 慰藉
时尚 人士
热爱音乐和潮流,有个性
需求
1、个性化推荐音乐 2、对音乐有评论等互动行 为 3、分享展示喜欢的音乐 4、迅速找到喜欢的音乐 5、推荐潮流音乐 6、有明星动态
7、分享自己的口味
主要需求
1、播放音 2、发现音 (喜欢的、 3、展示自 。
训练样本
数据预处理
训练样本
数据源
a.去除营销博文干扰
库
b.去除提及人的干扰(@)
c.去除如门户的作者的干扰
否
分词
模型评估 是否通过
训练生成 的模型
模型训练
特征 特征权
是
待预测类 别文本原 始库
数据预处理
待预测 类别文 本库
训练生成 的模型
文本打 上类别 标签
04 大 数 据 的 处 理
里程数据 工况数据 车辆信息 充电数据 行驶轨迹
注:大数据 不仅仅指的是数据量庞大,更为
03 大 数 据 4V 特 征
大数据
解 决 方 案
产品
转 化
市场价值
1. 海量(Volume)
数据量巨大
全球在2010 年正式进入ZB 时 代,IDC预计到 2020 年,全 球将总共拥有35ZB 的数据量
喜欢分享音乐,评论音乐
5、希望得到更多展示( 专栏)
主要需 1、宣传 (新歌 2、宣传 (演播 3、盈利 (版权
3.速度( Velocity)
实时获取需要的信息 比如:在客户每次浏览页面, 每次下订单过程中都会 对用 户进行实时的推荐,决策已经 变得实时
2. 多
结构化
构化 数
如今的数 式,网络 地理位置 提出了更
4. 价
沙里淘金
虽然数据 低,如何 迅速地完 目前 大数
2
大数据处理办法
01 用 户 画 像 体 系
性别 犯罪记录 年龄
国籍
违章驾驶记录
驾驶时间
碰撞事故
车辆维修 收入情况 疲劳驾驶 酒驾经历 生活方式
地理位置
使用药物情况
开车地点
共用车辆情况
职业
婚姻状态
驾照类别 开车频率 开车原因
健庩状况
医疗条件
学习周期 感知力
教育水平 民族特征 消费习惯
通过对用户不同维度的大数据分析,最终得出可执行的业务决策。
03 基于机器学习的数据挖掘及分类基本
大数据应用案例分析
2020年7月7日星期二
目录
1 大数据概念 2 大数据处理办法 3 大数据应用案例
1
大数据概念
01 大 数 据 时 代 到 来
随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越 、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸
PB EB ZB
02 大 数 据 的 构 成
大数据 =海量数据(交易数据、交互数据)+针对
海量交易数据: 企业内部的经 交易数据和联机 分析数据,是 库进行管理和访 问的静态、历 我们能了解过去 发生了什么。
想驾驭这庞大的数据,我们 必 须了解大数据的特征。
海量交互数据: 源于Facebo 他来源的社交媒 体数据构成。 CDR、设备和传感 器信息、G 通过管理文件传输 Manage F 量图像文件、Web 文本和点击 邮件等等。可以告 诉我们未来
*综艺影视对音乐的影响依旧 综艺或影视;
*偶像流行乐保持高热度,欧 *音乐市场正在构建一种新的 热度重要评价指标;
*男歌手受喜爱度高于女歌手 起;
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高
目标 细分 用户 群体
用户特征
音乐 消费
者
学生 白领
年轻,时间宽裕,喜欢新鲜, 爱评论爱分享爱展示,有个性
用户分析 05
—目标用户:热爱音乐,对音乐有较高需求的高
通过数据可以发现网易云音乐用户群中19-30岁年龄段用户最多,占比达到48%,整 化。
职业分布:学生和IT从业者占据绝大用户群,企业中高层管理人员所占比例最少,另 员所占比例区别不大,用户群体整体受教育程度普遍较高。
用户分析 05
—目标用户:(内容产生者是活跃音乐社区的关
数据 去重
去除异常的数 据项
将空值更 改为 对 应的默认 值
空值
数据
处理
去噪
格式 统一
对齐融合
融融合合信信息息 数数据据库库
使用UGC算法去除无用数 据 使用基于密度的聚类去除
异常数据
汇聚多源异 数据 中 一致部分
将多源异构数 据转换 为统一 数据表达形式
3
大数据应用案例
01 大数据是做好音乐平台的一把利器
每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源
。 产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需
Leabharlann Baidu
进 行精准投放。
购买能力如何?
常住地在哪儿?
基本特征?
常去的商圈是哪儿?
赢利点在哪?
公司在哪?
年龄分布
02 用 户 画 像 体 系
驾驶行为数据将构建精准的车险用户画像
TB
GB 在2011 年,这个数字达到了1.8ZB。
1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量 : 在2006 年,个人用户才刚刚迈进TB时 , 全球一共新产生了约180EB的数据;
据IDC研究机构预测: 到2020 年,整个世界的数据总量将会增 44 倍,达到35.2ZB(1ZB=10 亿TB)!
钢铁锅,含眼
削个椰子皮,你却TM给个梨 爽歪的麻雀,在电线杆上裸睡
撒米拉带带,哇嘎哇嘎哎哟 四斤大豆,三根皮带 多情咱切抱刘继
艾薇,莎啦啦,艾瑞噢喔噢喔,手刹 想听的歌记不起名字??
04 产 品 竞 争
截至2016年7月呈现2亿音乐用户听歌行为以及2
*听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为; *个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好 音乐;*听歌进入多元化时代,民谣、电音、二次元音乐崛起; *独立音乐人迅速崛起,社交互动助推音乐人涨粉; *90后已成为音乐消费主力人群; *用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛;
目标 细分 用户 群体
用户特征
需求
音乐 内容 产生 者
音乐人 /DJ
作品找不到渠道,希望建立个 人品牌,更好的运营个人品牌
1、传播自己的音乐,让 更多的人知道 2、与粉丝有互动
歌手 有一定知名度,有粉丝基础
3、进一步提高知名度, 吸引更多粉丝
唱片 公司
商业机构,营利是最重要的目 的。
4、提高收入
音乐爱 好者
时间碎片化,有一定压力,会 关注娱乐界动态
IT从 压力大,需要更多消遣和心理 业者 慰藉
时尚 人士
热爱音乐和潮流,有个性
需求
1、个性化推荐音乐 2、对音乐有评论等互动行 为 3、分享展示喜欢的音乐 4、迅速找到喜欢的音乐 5、推荐潮流音乐 6、有明星动态
7、分享自己的口味
主要需求
1、播放音 2、发现音 (喜欢的、 3、展示自 。
训练样本
数据预处理
训练样本
数据源
a.去除营销博文干扰
库
b.去除提及人的干扰(@)
c.去除如门户的作者的干扰
否
分词
模型评估 是否通过
训练生成 的模型
模型训练
特征 特征权
是
待预测类 别文本原 始库
数据预处理
待预测 类别文 本库
训练生成 的模型
文本打 上类别 标签
04 大 数 据 的 处 理
里程数据 工况数据 车辆信息 充电数据 行驶轨迹