阿里巴巴大数据竞赛介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2) 数据说明:
提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨 度4个月的行为记录。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
评比机制
评比机制 准确率与召回率
准确率: 注: N 为参赛队预测的用户数 pBrandsi为对用户i 预测他(她)会购买的品牌列表个数 hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交 集的个数
Season 1赛季数据 1) 数据说明: 用户4种行为类型(Type)对应代码分别为: 点击:0;购买:1;收藏:2;购物车:3 2) 提交评分方式: 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
评比机制
评比机制 准确率与召回率 最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终 的比赛成绩排名以F1得分为准。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
排行榜
现阶段排名
实的商业数据;二是缺少具有强大功能的计算平台支持 复杂的数据处理。 • 阿里巴巴集团于2014年正式推出“天池”平台,“天池” 平台基于阿里集团的海量数据离线处理服务ODPS,向 学术界提供科研数据和开放数据处理服务。
Xiao Liu (VISPER) 阿里巴巴大数据竞赛 March 21,2014
竞赛机制
阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴 大数据科研平台——“天池”上开展的,基于天猫海量 真实用户的访问数据的推荐算法大赛。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
竞赛机制
天池-大数据研究平台
• “平台、金融、数据”
• “数据分享平台”
• 针对当前学术界面临的两个问题,一是缺少有价值的真
如图: 将预测结果文件上传至大赛官网结果提交入口即可。(提交结果 入口在参赛者的个人中心)
Xiao Liu (VISPER) 阿里巴巴大数据竞赛 March 21,2014
数据介绍
Season 2赛季数据 1) 数据获取方式:
参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载
,所有数据分析,计算,提交评分都将在天池集群上完成。
March 21,2014
竞赛机制
赛制安排
赛制安排
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
竞赛机制
奖项设置:
Season 1 不设奖项,但是会从参赛队伍中选择较优者进入Season 2阶 段比赛 Season 2 阶段奖项: 一等奖:1支队伍,奖金贰拾万 二等奖:1支队伍,奖金伍万 三等奖:1支队伍,奖金贰万 (上述奖项以决赛答辩成绩的最终名次决定) 月星星奖:每期月度榜单排名Top10的参赛队成员都将获得搭载云OS的 手机一部(具体手机型号在公布榜单时公布) 优胜奖:决赛全国赛排名Top50的参赛队成员直接进入阿里巴巴校园招 聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶 段) ,在校期间均有效;并将获得阿里纪念T恤和大赛获奖证书 总决赛Top10的主要参赛队成员可直接入围“阿里星”计划,参赛队的指 导老师(如有)将享受天池数据的最高使用权限1年 Season 3 线上阶段奖项: Season 2 阶段的优胜者,将会受邀访问天猫,在天猫实际开发2014年 双11线上算法,并有机会赢取100万大奖(组委会将在Season 2结束后 公布细则)
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
数据介绍
数据介绍 天猫提供了884位用户对于9531种商品的操作类型,共提供 了182881条记录。
t_alibaba_data.csv
Xiao Liu (VISPER) 阿里巴巴大数据竞赛 March 21,2014
数据介绍
Xiao Liu (VISPER) 阿里巴巴大数据竞赛 March 21,2014
数据介绍
数据介绍 天猫提供了884位用户对于9531种商品的操作类型,共提供 了182881条记录。
用户对任意商品的行为都会映射为一行数据。其中所有商品ID 都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程 度的数据抽样,且数字ID都做了加密。所有行为的时间都精确 到天级别(隐藏年份)。
ALIDATA DISCOVERY
阿里巴巴大数据竞赛
相关介绍
刘晓 中国科学院计算技术研究所
2014.3.21
Xiao Liu (VISPER) 阿里巴巴大数据竞赛 March 21,2014
• 竞赛机制 • 数据介绍 • 评比机制
Xiao Liu (VISPER)
Fra Baidu bibliotek
阿里巴巴大数据竞赛
March 21,2014
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
数据介绍
数据介绍 天猫提供了884位用户对于9531种商品的操作类型,共提供 了182881条记录。
用户对任意商品的行为都会映射为一行数据。其中所有商品ID 都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程 度的数据抽样,且数字ID都做了加密。所有行为的时间都精确 到天级别(隐藏年份)。
竞赛机制
ODPS
ODPS (Open Data Processing Service)阿里云开放数据
处理服务,是阿里巴巴公司借助阿里云提供的大规模分布
式数据处理服务。
ODPS以REST API的形式,支持用户提交类SQL的查询语
言,对海量数据进行处理。
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
Xiao Liu (VISPER)
阿里巴巴大数据竞赛
March 21,2014
Xiao Liu (VISPER) 阿里巴巴大数据竞赛 March 21,2014
数据介绍
赛题介绍 本赛题适用于season1 和season 2的比赛,season 3 为线 上赛(season 2 赛后公布题目)。
在天猫,每天都会有数千万的用户通过品牌发现自 己喜欢的商品,品牌是联接消费者与商品最重要的 纽带。 本届赛题的任务就是根据用户4个月在天猫的行为日 志,建立用户的品牌偏好,并预测他们在将来一个 月内对品牌下商品的购买行为。