大数据在B2C电商中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
评论挖掘
TF*IDF ——文本与关键词相关度的科学度量
TF1*IDF1+ TF2*IDF2 +…+ TFN*IDFN •TF——词频:关键词在文本中出现的频率 •IDF——逆文本频率指数log(D/DW):关键词在所 有文本集中出现的频率越高,IDF越低
e.g. “原子能”“的”“应用” TF:0.002、0.035、0.005 IDF:8.96、0、1
12
推荐系统
•新的挑战和方案——
–用户意图模糊情景下的多维度补充; –平台电商的店铺定向、季节定向; –反作弊问题; –考虑用户本身的权重和行为频度; –冷启动问题; –用户疲劳;
…… 13
评论挖掘
14
评论挖掘
维克托·迈 尔-舍恩伯
格
自然语言处理
大数据
计算机 应用
信息管理
互联网
数据挖 掘
畅销书
18
评论挖掘
19
评分预测问题
预测
——?分
帮助用户决策
20
评分预测问题
常用算法: • 基于平均值; • 基于相似物品; • 隐语义与矩阵分解模型; • 算法融合; • ……
21
销量预测模型
买断风险↓
毛利↑
满位率↓
22
运营效率↑
一个旅游业的案例
Farecast.com—— •近十万亿条价格记录; •票价预测准确率达75%; •平均每张机票为旅客节省 50美元; •2008年以1.15亿美元被微 软收购,并入必应;
用户的兴趣传承 强烈 较少 较慢
长尾丰富、个性化需求强烈 Amazon、Netflix 推荐结果实时变化
容易以历史行为解释
8
推荐系统
奇异值分解 ——探索相似度背后隐含根源
分类1 分类2 分类3
兴趣1 XXX
XXX
XXX
兴趣2 XXX
XXX
XXX
兴趣3
XXX
XXX
9
XXX
推荐系统
二分图模型
——一个游走在用户和商品之间的爬虫
用户类型 注册/匿名 注册 注册 注册 注册 注册 注册/匿名 注册/匿名 注册
31
数据规模 大 中 中 中 小 小 大 大 小
实时展现 × √ √ √ √ √ × × √
返回
16
评论挖掘
• 大数据+自然语言处理技术(NLP)
向量空间模型
分词消歧
特征词聚类
词性标注
TF*IDF
互信息特征筛选
17
主题LDA
情感分析
评论挖掘
(当当网)评论挖掘A/B测试结果: • 顾客体验提升; • 购买决策时间变短; • 点击评论次数减少; • 页面停留时间降低; • 转化率提升; • 全年贡献过亿;
大数据在B2C电商 中的应用
——张昊
旅游事业部 频道组
举例
2
…
大数据相关应用
用户行为分析
流量分析
推荐系统
广告精准投放
实时定制报表
价格预测
评分预测问题
供应链管理
行业信息监控
评论挖掘分析
传播热点分析
社会化图谱挖掘
CRM
LBS
销量预测
3
推荐系统
4
推荐系统
流程架构
用户行为数据库 用户属性数据库
行为提取
• 90%的数据产生于最近两年; • 2020年,非结构化数据量10倍于结构化
数据;
27
附——大数据之4V
28
附——大数据之客户画像
29
附——人人“好友智能分组”
30
返回
附——大数据之用户行为
• 电商网站中的典型用户行为
行为 浏览网页 将商品加入购物车 购买商品 收藏商品 评论商品 给商品评分 搜索商品 点击搜索结果 分享商品
23
On going——大数据+实时处理
24
延伸阅读
25
谢 谢!
附——大数据有多大
• 1分钟产生的数据量:
–48小时新视频@Youtube –2000000次搜索请求@Google –684478条分享消息@Facebook –100000条新微博@Twitter –3600张照片@Instagram
协同过滤算法
典型应用 推荐原理 推荐结果 个性化要求 内容数量 更新速度 适用领域 举例 用户的新行为 推荐解释
新闻推荐 有共同爱好的用户喜欢
小群体的热点 不太明显 多 快
时效性强、个性化不明显 GroupLens、Digg
推荐结果不一定立即变化 难
电子商务、图书/电影推荐 与用户之前喜欢的物品类似
• 高相似性的判断标准: 1. 两个顶点间有很多路径相
连; 2. 连接两个顶点间的路径长
度都比较短; 3. 连接两个顶点间的路径不
会出现大的顶点;
10
推荐系统
算法总结
用户
喜欢、购买 商品
有相似兴 趣的好友
用户
喜欢、具有 特征
11
相似性判断 相似
喜欢
商品
包含 特征聚类
推荐系统
系统评测
• 预测准确度 • 用户满意度 • 覆盖率 • 多样性 • 新颖性 • 惊喜度 • 信任度 • 实时性 • 健壮性 • 商业目标
A
行为特征转换
…
相关表1 相关表2
B
相关表N
特征向量
特征物品 相关推荐
候选物品集合 5
初始推荐结果
过滤 排序 推荐解释选择
C
用户行为反馈
物品属性
最终推荐结果
推荐系统
推荐算法简介
6
推荐系统
协同过滤算法 ——基于商品/用户间的相似度
• 余弦距离 • Jaccard距离 • 欧氏距离 • 海明距离
7
推荐系统
~
这 个 商 品 不 错
相关度分析
“大数据”是需要新处理模式才能具有更强的决策 力、洞察发现力Hale Waihona Puke Baidu流程优化能力的海量、高增长率和多 样化的信息资产。
喜欢作者说的知道“是什么”就够了,没必要知道 “为什么”这个理论。奥伦*埃奇奥尼因为自己买到了 比同一架飞机乘客贵的机票而非常气愤,因此他创造了 最早的互联网搜索引擎。且不说这个引擎的后续,至少 埃奇奥尼创立的预测系统帮助乘客节省了很多钱。我们 不需要知道机票为什么涨或者跌,我们只想着用最少的 钱去买到同样的机票,如此,这样有预见性的数据库就 是起到了重要的作用。而在其他领域上,同样的可以用 这样的大数据的思维方式去思考。数据不是静止不动的 ,需要有变革的思维去看它。而现在的数据已经成了一 种商业资本,可以创造新的经济利益。从某种程度上说 ,大数据是数据分析的前沿技术。简言之,从各种各样 类型的数据中,快速获得有价值信息的能力,就是大数 据技术。明白这一点至关重要,也正是这一点促使该技 术具备走向众多企业的潜力。基本上,人们比以往任何 时候都与数据或信息交互。 谷歌搜索、Facebook的帖 子和微博消息使得人们的行为和情绪的细节化测量成为 可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背 后找到更符合用户兴趣和习惯的产品和服务,并对产品 和服务进行针对性地调整和优化,……
评论挖掘
TF*IDF ——文本与关键词相关度的科学度量
TF1*IDF1+ TF2*IDF2 +…+ TFN*IDFN •TF——词频:关键词在文本中出现的频率 •IDF——逆文本频率指数log(D/DW):关键词在所 有文本集中出现的频率越高,IDF越低
e.g. “原子能”“的”“应用” TF:0.002、0.035、0.005 IDF:8.96、0、1
12
推荐系统
•新的挑战和方案——
–用户意图模糊情景下的多维度补充; –平台电商的店铺定向、季节定向; –反作弊问题; –考虑用户本身的权重和行为频度; –冷启动问题; –用户疲劳;
…… 13
评论挖掘
14
评论挖掘
维克托·迈 尔-舍恩伯
格
自然语言处理
大数据
计算机 应用
信息管理
互联网
数据挖 掘
畅销书
18
评论挖掘
19
评分预测问题
预测
——?分
帮助用户决策
20
评分预测问题
常用算法: • 基于平均值; • 基于相似物品; • 隐语义与矩阵分解模型; • 算法融合; • ……
21
销量预测模型
买断风险↓
毛利↑
满位率↓
22
运营效率↑
一个旅游业的案例
Farecast.com—— •近十万亿条价格记录; •票价预测准确率达75%; •平均每张机票为旅客节省 50美元; •2008年以1.15亿美元被微 软收购,并入必应;
用户的兴趣传承 强烈 较少 较慢
长尾丰富、个性化需求强烈 Amazon、Netflix 推荐结果实时变化
容易以历史行为解释
8
推荐系统
奇异值分解 ——探索相似度背后隐含根源
分类1 分类2 分类3
兴趣1 XXX
XXX
XXX
兴趣2 XXX
XXX
XXX
兴趣3
XXX
XXX
9
XXX
推荐系统
二分图模型
——一个游走在用户和商品之间的爬虫
用户类型 注册/匿名 注册 注册 注册 注册 注册 注册/匿名 注册/匿名 注册
31
数据规模 大 中 中 中 小 小 大 大 小
实时展现 × √ √ √ √ √ × × √
返回
16
评论挖掘
• 大数据+自然语言处理技术(NLP)
向量空间模型
分词消歧
特征词聚类
词性标注
TF*IDF
互信息特征筛选
17
主题LDA
情感分析
评论挖掘
(当当网)评论挖掘A/B测试结果: • 顾客体验提升; • 购买决策时间变短; • 点击评论次数减少; • 页面停留时间降低; • 转化率提升; • 全年贡献过亿;
大数据在B2C电商 中的应用
——张昊
旅游事业部 频道组
举例
2
…
大数据相关应用
用户行为分析
流量分析
推荐系统
广告精准投放
实时定制报表
价格预测
评分预测问题
供应链管理
行业信息监控
评论挖掘分析
传播热点分析
社会化图谱挖掘
CRM
LBS
销量预测
3
推荐系统
4
推荐系统
流程架构
用户行为数据库 用户属性数据库
行为提取
• 90%的数据产生于最近两年; • 2020年,非结构化数据量10倍于结构化
数据;
27
附——大数据之4V
28
附——大数据之客户画像
29
附——人人“好友智能分组”
30
返回
附——大数据之用户行为
• 电商网站中的典型用户行为
行为 浏览网页 将商品加入购物车 购买商品 收藏商品 评论商品 给商品评分 搜索商品 点击搜索结果 分享商品
23
On going——大数据+实时处理
24
延伸阅读
25
谢 谢!
附——大数据有多大
• 1分钟产生的数据量:
–48小时新视频@Youtube –2000000次搜索请求@Google –684478条分享消息@Facebook –100000条新微博@Twitter –3600张照片@Instagram
协同过滤算法
典型应用 推荐原理 推荐结果 个性化要求 内容数量 更新速度 适用领域 举例 用户的新行为 推荐解释
新闻推荐 有共同爱好的用户喜欢
小群体的热点 不太明显 多 快
时效性强、个性化不明显 GroupLens、Digg
推荐结果不一定立即变化 难
电子商务、图书/电影推荐 与用户之前喜欢的物品类似
• 高相似性的判断标准: 1. 两个顶点间有很多路径相
连; 2. 连接两个顶点间的路径长
度都比较短; 3. 连接两个顶点间的路径不
会出现大的顶点;
10
推荐系统
算法总结
用户
喜欢、购买 商品
有相似兴 趣的好友
用户
喜欢、具有 特征
11
相似性判断 相似
喜欢
商品
包含 特征聚类
推荐系统
系统评测
• 预测准确度 • 用户满意度 • 覆盖率 • 多样性 • 新颖性 • 惊喜度 • 信任度 • 实时性 • 健壮性 • 商业目标
A
行为特征转换
…
相关表1 相关表2
B
相关表N
特征向量
特征物品 相关推荐
候选物品集合 5
初始推荐结果
过滤 排序 推荐解释选择
C
用户行为反馈
物品属性
最终推荐结果
推荐系统
推荐算法简介
6
推荐系统
协同过滤算法 ——基于商品/用户间的相似度
• 余弦距离 • Jaccard距离 • 欧氏距离 • 海明距离
7
推荐系统
~
这 个 商 品 不 错
相关度分析
“大数据”是需要新处理模式才能具有更强的决策 力、洞察发现力Hale Waihona Puke Baidu流程优化能力的海量、高增长率和多 样化的信息资产。
喜欢作者说的知道“是什么”就够了,没必要知道 “为什么”这个理论。奥伦*埃奇奥尼因为自己买到了 比同一架飞机乘客贵的机票而非常气愤,因此他创造了 最早的互联网搜索引擎。且不说这个引擎的后续,至少 埃奇奥尼创立的预测系统帮助乘客节省了很多钱。我们 不需要知道机票为什么涨或者跌,我们只想着用最少的 钱去买到同样的机票,如此,这样有预见性的数据库就 是起到了重要的作用。而在其他领域上,同样的可以用 这样的大数据的思维方式去思考。数据不是静止不动的 ,需要有变革的思维去看它。而现在的数据已经成了一 种商业资本,可以创造新的经济利益。从某种程度上说 ,大数据是数据分析的前沿技术。简言之,从各种各样 类型的数据中,快速获得有价值信息的能力,就是大数 据技术。明白这一点至关重要,也正是这一点促使该技 术具备走向众多企业的潜力。基本上,人们比以往任何 时候都与数据或信息交互。 谷歌搜索、Facebook的帖 子和微博消息使得人们的行为和情绪的细节化测量成为 可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背 后找到更符合用户兴趣和习惯的产品和服务,并对产品 和服务进行针对性地调整和优化,……