03_信息流获客路径数据科学模型探究_桂圆圆
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方法思路:(假设A={A1,A2,···,An}表示账户计 划单元,B={B1,B2,···,Bm}表示创意) 对于已经投放过的单元创意组合,用历史结果
作为未来该组合投放的的效果估计; 对于未投放的单元创意组合,利用相似度和已
投放的结果去预测,具体预测方法如右图所示, 其中e(AiBj)表示Ai账户单元与Bj创意组合的投 放效果,r()表示相似度,∂是权重系数。算法中 只采用r()>0.5的进行计算。
数据科学模型的为贝壳找房优化提升数据依据
数据科学模型助力贝壳找房更快的找到更好的获客路径
目标:获得1万个APP激活
数据科学模型贡献
使用前
使用后
用时
5天
3天
40% 更快
成本
CPA=20 CPA=17
15% 更好
数据科学模型的调整和优化
数据规范性
在进行定向输入时,发现“定向-设备”的大小写会影响评估结果的产出。新版本会在 模型更新时,进行大小写统一处理,避免输入数据不规范导致无结果产出。
计算过程如下:
①r(AiAj)表示账户单元i与账户单元j之间的 相 似 度 , 对 提 供 的 账 户 分 类 进 行 one-hot 编码,并计算各账户之间的欧式距离,相 似度=1-最大最小标准化后的距离。
②r(BiBj)表示创意i与创意j之间的相似度,对 创 意 进 行 人 工 提 取 关 键 词 , 之 后 进 行 onehot编码,按照r(AiAj)方法进行计算相似度。
展现量占比
点击量
点击率
转化量
转化率
备注:CPC归属定向-投放出价维度,故未放入指标层
来源:[5]. 马立平. 层次分析法[J]. 数据, 2000(7):38-39. [6]. 黄昶君, 王林. 大数据时代商业银行电子商务零售客户风险评分模型设计框架及实证分析[J]. 投资研究, 2014(4):16-26.
着陆页可选1-4种
着陆页分为主页、细节页、转化页、活动页共4种。
获客路径组合最少有:
110万*5*1=550万
信息流获客路径的多样性,对营销人员提出了新挑战
• 挑战1:千万条获客路径路径中哪条更好? • 挑战2:我怎么快速找到它?
桂圆圆
SEE. 研究的背景和意义
2. 信息流获客数据科学模型的建立
3. 数据科学模型在贝壳找房的应用
4.研究的前景和展望
在智能营销占据大壁江山前,信息流获客路径数据科学模型可以在一定程度 上提升投放效率。但因为模型刚刚研发使用,还有很多可以升级之处。
1. 研究的背景和意义
2. 信息流获客数据科学模型的建立
为了帮助营销人员在众多获客路径中更快找到更好的获客路径,我们决定通过 数据赋能,建立科学的数学模型来解决这一因选择过多引起的难题。
3. 数据科学模型在贝壳找房的应用
4.研究的前景和展望
新挑战新应对: 数据赋能,信息流获客路径数据科学模型清洗
对以上整理后的投放数据做按时间汇总处理,去掉日均展现<1的数据,约72%的样本均符合要求。 汇总并筛选过后约有2.5万条可以用做下一步数据模型的构建型的加载
以ctr作为标准为例:将清洗过后的标记样本数据输入到数据科学模型中,进行处理,计 算出贝壳找房的∂值,∂ = 0.876。
确定哪些参数之间具有相关性
评估信息流广告获客路径优劣,会先看它圈定目标用户的量级,其次看它将目标用户转化为客户的能力。 圈定目标用户的能力可以通过展现量占比来确定,而转化目标用户的能力需要通过点击率和转化率来确定。
核心数据参数的影响因子分析
核心数据参数的影响因子总结
选择相似度算法,确立参数之间的数据相关性
数据科学模型应用过程如下图所示:
需求层
数据层
数据采集
分析层
即将上线的路径
数据标记
数据来源:[7]. 忻超. 互联网应用数据建模分析和信息挖掘[D]. 北京邮电大学, 2013.
输出层
效果预估 创意推荐
结果验证 投放测试
贝壳找房样本数据的采集和标记
我们选取了5.13-7.17共66天,64万条创意层级的投放转化数据。因为从账户获取到数据结构为仅为名 称,需要参照数据科学模型的影响因子,对定向、创意、着陆页进行标记。标记后的样本,如下图所示:
吸引点击 着陆页
转化
目标 用户
来源:[4]. 陈小妹. 程序化购买广告的效果评估体系建构[D]. 暨南大学, 2016.
通过不同节点组合,获取客户的路径至少有550万种
后台定向一级可选组合约110万种
素材可选组合≥5种
4种组合
样式5种
标题≥1种 图片≥1种
5*2*3*9种
8*2种 2种 2种
4*2*2种
信息流获客路径数据科学模型的输出结果说明
数据科学模型的结果输出展示
结果说明: 一条路径代表从计划-单元-创意的设置,可依此来设置账户结构; 流量占比=选定路径的展现量/预测结果的展现量,为相对值。值越高,获取流量的能力越高。
桂圆圆
SE019年6月12日星期三
2018
信息流获客路径数据 科学模型探究
桂圆圆
桂圆圆
SE. 研究的背景和意义
移动互联网存量时代,信息流成为了新的获客渠道。信息流获客路径的多样性, 对营销人员提出了新的挑战:如何快速找到更好的获客路径。
2. 信息流获客数据科学模型的建立
• 千万条获客路径路径 更优 中哪条更好?
更快 • 我怎么快速找到它?
信息流获客路径数据科学模型的构建流程
参数A
展现量 占比
参数B
转化率
参数D
创意
参数C
定向
参数E
着陆页
参数F
点击率
智慧建模 计算相似度
路径1
流量占比:10% 点击率:2.1% 转化率:1.3%
路径2 路径3 路径4
流量占比:5% 点击率:1.8% 转化率:1.2%
③∂主要根据最大似然估计方法进行估计,具体推导在此省略。
数据来源:[8]. 宋运红, 李振祥, 孙连辉,等. 马氏距离与欧氏距离方法在地球化学异常处理中的对比[J]. 吉林地质, 2008, 27(4):125-128+137. [9]. 于洋, 孙月静. 对数正态分布参数的最大似然估计[J]. 九江学院学报(社会科学版), 2007, 26(6):55-57.
3. 数据科学模型在贝壳找房的应用
4.研究的前景和展望
移动互联网存量时代来临,信息流成为获客渠道的主力
来源:[1]. CNNIC 《中国互联网络发展状况统计报告》,2018年2月 [2].中国产业信息网, 2018年4月 [3].艾瑞咨询 《润物有声II 2018中国互联网产业发展报告》,2018年
1. 研究的背景和意义
2. 信息流获客数据科学模型的建立
3. 数据科学模型在贝壳找房的应用
贝壳找房是房产行业最大的客户,主要考核APP激活。我们通过应用数据科学模型, 取得了获客量不变的情况下,获客时间缩减了40%,获客成本降低了20%的效果。
4.研究的前景和展望
数据科学模型在贝壳找房的应用流程
背景介绍:贝壳找房是信息流房产行业最大的客户,考核是APP激活量、APP激活成本。经过2个月的数 据积累,我们尝试运用数据科学模型帮助贝壳找房找到更好的获客路径增加获客量。
未来展望
精准广告行业
智能化账户搭建
更多探索...
数据科学模型2.0
数据科学模型1.0
2018
THANK YOU
提升易用性
现在整个数据科学模型的操作流程为:①优化师对历史数据进行定向特征标记&卖点 提取——②数据分析团队进行数据汇总&模型计算——③推荐路径输出——④优化师进行 测试——①……每次迭代都需要数据分析团队进行数据导入,增加了模型的使用难度。新 版本,会生成一个数据导入的范本来提升模型的易用性
桂圆圆
流量占比:6% 点击率:1.9% 转化率:1.6%
流量占比:3% 点击率:0.9% 转化率:1%
确定数据科学模型的参数
目标层
数据科学模型的参数
定向
准则层(业务层) 推广 版位 基础 人口 设备 投放
对象
定向 信息 应用 出价
创意
样式 文案 图片
着陆页
主页
细节 页
转化 页
活动 页
指标层(数据层)
展现量
信息流获取客户的过程(路径)涉及定向/素材等节点
香农-韦弗 传播模式
信息源 产生信息 发射器 发出信息
信道
传输信息
接收器
接收还原 信息接 收者
信息流 传播过程广告主产生信息信 息流产生曝光 信 息流
产生点击
广告主 网站
转化
目标 用户
信息流 投放过程
广告主 产生信息
后台 定向
决定曝光 后台 素材
作为未来该组合投放的的效果估计; 对于未投放的单元创意组合,利用相似度和已
投放的结果去预测,具体预测方法如右图所示, 其中e(AiBj)表示Ai账户单元与Bj创意组合的投 放效果,r()表示相似度,∂是权重系数。算法中 只采用r()>0.5的进行计算。
数据科学模型的为贝壳找房优化提升数据依据
数据科学模型助力贝壳找房更快的找到更好的获客路径
目标:获得1万个APP激活
数据科学模型贡献
使用前
使用后
用时
5天
3天
40% 更快
成本
CPA=20 CPA=17
15% 更好
数据科学模型的调整和优化
数据规范性
在进行定向输入时,发现“定向-设备”的大小写会影响评估结果的产出。新版本会在 模型更新时,进行大小写统一处理,避免输入数据不规范导致无结果产出。
计算过程如下:
①r(AiAj)表示账户单元i与账户单元j之间的 相 似 度 , 对 提 供 的 账 户 分 类 进 行 one-hot 编码,并计算各账户之间的欧式距离,相 似度=1-最大最小标准化后的距离。
②r(BiBj)表示创意i与创意j之间的相似度,对 创 意 进 行 人 工 提 取 关 键 词 , 之 后 进 行 onehot编码,按照r(AiAj)方法进行计算相似度。
展现量占比
点击量
点击率
转化量
转化率
备注:CPC归属定向-投放出价维度,故未放入指标层
来源:[5]. 马立平. 层次分析法[J]. 数据, 2000(7):38-39. [6]. 黄昶君, 王林. 大数据时代商业银行电子商务零售客户风险评分模型设计框架及实证分析[J]. 投资研究, 2014(4):16-26.
着陆页可选1-4种
着陆页分为主页、细节页、转化页、活动页共4种。
获客路径组合最少有:
110万*5*1=550万
信息流获客路径的多样性,对营销人员提出了新挑战
• 挑战1:千万条获客路径路径中哪条更好? • 挑战2:我怎么快速找到它?
桂圆圆
SEE. 研究的背景和意义
2. 信息流获客数据科学模型的建立
3. 数据科学模型在贝壳找房的应用
4.研究的前景和展望
在智能营销占据大壁江山前,信息流获客路径数据科学模型可以在一定程度 上提升投放效率。但因为模型刚刚研发使用,还有很多可以升级之处。
1. 研究的背景和意义
2. 信息流获客数据科学模型的建立
为了帮助营销人员在众多获客路径中更快找到更好的获客路径,我们决定通过 数据赋能,建立科学的数学模型来解决这一因选择过多引起的难题。
3. 数据科学模型在贝壳找房的应用
4.研究的前景和展望
新挑战新应对: 数据赋能,信息流获客路径数据科学模型清洗
对以上整理后的投放数据做按时间汇总处理,去掉日均展现<1的数据,约72%的样本均符合要求。 汇总并筛选过后约有2.5万条可以用做下一步数据模型的构建型的加载
以ctr作为标准为例:将清洗过后的标记样本数据输入到数据科学模型中,进行处理,计 算出贝壳找房的∂值,∂ = 0.876。
确定哪些参数之间具有相关性
评估信息流广告获客路径优劣,会先看它圈定目标用户的量级,其次看它将目标用户转化为客户的能力。 圈定目标用户的能力可以通过展现量占比来确定,而转化目标用户的能力需要通过点击率和转化率来确定。
核心数据参数的影响因子分析
核心数据参数的影响因子总结
选择相似度算法,确立参数之间的数据相关性
数据科学模型应用过程如下图所示:
需求层
数据层
数据采集
分析层
即将上线的路径
数据标记
数据来源:[7]. 忻超. 互联网应用数据建模分析和信息挖掘[D]. 北京邮电大学, 2013.
输出层
效果预估 创意推荐
结果验证 投放测试
贝壳找房样本数据的采集和标记
我们选取了5.13-7.17共66天,64万条创意层级的投放转化数据。因为从账户获取到数据结构为仅为名 称,需要参照数据科学模型的影响因子,对定向、创意、着陆页进行标记。标记后的样本,如下图所示:
吸引点击 着陆页
转化
目标 用户
来源:[4]. 陈小妹. 程序化购买广告的效果评估体系建构[D]. 暨南大学, 2016.
通过不同节点组合,获取客户的路径至少有550万种
后台定向一级可选组合约110万种
素材可选组合≥5种
4种组合
样式5种
标题≥1种 图片≥1种
5*2*3*9种
8*2种 2种 2种
4*2*2种
信息流获客路径数据科学模型的输出结果说明
数据科学模型的结果输出展示
结果说明: 一条路径代表从计划-单元-创意的设置,可依此来设置账户结构; 流量占比=选定路径的展现量/预测结果的展现量,为相对值。值越高,获取流量的能力越高。
桂圆圆
SE019年6月12日星期三
2018
信息流获客路径数据 科学模型探究
桂圆圆
桂圆圆
SE. 研究的背景和意义
移动互联网存量时代,信息流成为了新的获客渠道。信息流获客路径的多样性, 对营销人员提出了新的挑战:如何快速找到更好的获客路径。
2. 信息流获客数据科学模型的建立
• 千万条获客路径路径 更优 中哪条更好?
更快 • 我怎么快速找到它?
信息流获客路径数据科学模型的构建流程
参数A
展现量 占比
参数B
转化率
参数D
创意
参数C
定向
参数E
着陆页
参数F
点击率
智慧建模 计算相似度
路径1
流量占比:10% 点击率:2.1% 转化率:1.3%
路径2 路径3 路径4
流量占比:5% 点击率:1.8% 转化率:1.2%
③∂主要根据最大似然估计方法进行估计,具体推导在此省略。
数据来源:[8]. 宋运红, 李振祥, 孙连辉,等. 马氏距离与欧氏距离方法在地球化学异常处理中的对比[J]. 吉林地质, 2008, 27(4):125-128+137. [9]. 于洋, 孙月静. 对数正态分布参数的最大似然估计[J]. 九江学院学报(社会科学版), 2007, 26(6):55-57.
3. 数据科学模型在贝壳找房的应用
4.研究的前景和展望
移动互联网存量时代来临,信息流成为获客渠道的主力
来源:[1]. CNNIC 《中国互联网络发展状况统计报告》,2018年2月 [2].中国产业信息网, 2018年4月 [3].艾瑞咨询 《润物有声II 2018中国互联网产业发展报告》,2018年
1. 研究的背景和意义
2. 信息流获客数据科学模型的建立
3. 数据科学模型在贝壳找房的应用
贝壳找房是房产行业最大的客户,主要考核APP激活。我们通过应用数据科学模型, 取得了获客量不变的情况下,获客时间缩减了40%,获客成本降低了20%的效果。
4.研究的前景和展望
数据科学模型在贝壳找房的应用流程
背景介绍:贝壳找房是信息流房产行业最大的客户,考核是APP激活量、APP激活成本。经过2个月的数 据积累,我们尝试运用数据科学模型帮助贝壳找房找到更好的获客路径增加获客量。
未来展望
精准广告行业
智能化账户搭建
更多探索...
数据科学模型2.0
数据科学模型1.0
2018
THANK YOU
提升易用性
现在整个数据科学模型的操作流程为:①优化师对历史数据进行定向特征标记&卖点 提取——②数据分析团队进行数据汇总&模型计算——③推荐路径输出——④优化师进行 测试——①……每次迭代都需要数据分析团队进行数据导入,增加了模型的使用难度。新 版本,会生成一个数据导入的范本来提升模型的易用性
桂圆圆
流量占比:6% 点击率:1.9% 转化率:1.6%
流量占比:3% 点击率:0.9% 转化率:1%
确定数据科学模型的参数
目标层
数据科学模型的参数
定向
准则层(业务层) 推广 版位 基础 人口 设备 投放
对象
定向 信息 应用 出价
创意
样式 文案 图片
着陆页
主页
细节 页
转化 页
活动 页
指标层(数据层)
展现量
信息流获取客户的过程(路径)涉及定向/素材等节点
香农-韦弗 传播模式
信息源 产生信息 发射器 发出信息
信道
传输信息
接收器
接收还原 信息接 收者
信息流 传播过程广告主产生信息信 息流产生曝光 信 息流
产生点击
广告主 网站
转化
目标 用户
信息流 投放过程
广告主 产生信息
后台 定向
决定曝光 后台 素材