数据挖掘技术应用实例ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 在个性化广告方面最容易获得成功的无疑
是Facebook,因为它拥有大量的用户个人
资料,可以很容易地获取用户的兴趣,让
广告商选择自己希望对其投放广告的用户。
图1-21展示了Facebook的广告系统界面,
该界面允许广告商选择自己希望的用户群,
然后Facebook会根据广告商的选择告诉他
们这些限制条件下广告将会覆盖的用户数
.
11
和YouTube类似,美国另一家著名的视频网 站Hulu也有自己的个性化推荐页面。如图 1-10所示,Hulu在展示推荐结果时也提供 了视频标题、缩略图、视频的平均分、推
荐理由和用户反馈模块。
.
12
.
13
奥巴马成功竞选
.
14
.
15
奥巴马竞选成功后,在 Twitter 上发的第一章 照片。社交网络与数据分析,对奥巴马成 功连任功不可没。
在竞选办公室里的电话名单上,不仅仅列出 了姓名和电话号码,还按照他们被说服的 可能性和重要性对姓名进行排序。在排序 的决定性因素中,约 75% 是基本信息,如 年龄、姓别、种族、邻居和投票记录等。 一位高级顾问称:“我们可以预测哪些人 会通过网络捐款,哪些人会汇款。我们还 可以为志愿者建模,. 建模可以对让我们的19
量。
.
6
wenku.baidu.com
.
7
电影和视频推荐
.
8
在电影和视频网站中,个性化推荐系统也是 一种重要的应用。它能够帮助用户在浩瀚 的视频库中找到令他们感兴趣的视频。在 该领域成功使用推荐系统的一家公司就是 Netflix,它和亚马逊是推荐系统领域最具 代表性的两家公司。
.
9
Netflix原先是一家DVD租赁网站,最近这几 年也开始涉足在线视频业务。Netflix非常 重视个性化推荐技术,并且在2006年起开 始举办著名的Netflix Prize推荐系统比赛①。 该比赛悬赏100万美元,希望研究人员能够 将Netflix的推荐算法的预测准确度提升10%。 该比赛举办3年后,由AT&T的研究人员获 得了最终的大奖。该比赛对推荐系统的发 展起到了重要的推动作用:一方面该比赛 给学术界提供了一个实际系统中的大规模
.
17
• 这个由几十人组成的数据挖掘团队的具体 工作被严格保密。奥巴马竞选团队发言人 本拉·波尔特(Ben LaBolt)在问到数据挖掘团 队的职责时说:“他们是我们的核代码。”
• 在办公室里,该团队会给各个数据挖掘实
验进行神秘代码命名,比如“独角鲸”、
“追梦人”等。他们在远离竞选团队剩余
工作人员的地方办公。这些“科学家”为
奥巴马竞选阵营的数据挖掘团队为竞选活动 搜集、存储和分析了大量数据,给予竞选 团队的高级助手,帮助其成功“策划”多 场活动,为奥巴马竞选筹集到 10 亿美元资 金。
.
16
今年春天晚些时候,奥巴马竞选阵营的数据 挖掘团队注意到,影星乔治·克鲁尼(George Clooney)对美国西海岸 40 岁至 49 岁的女性 具有非常大的吸引力。她们无疑是最有可 能为了在好莱坞与克鲁尼和奥巴马共进晚 餐而不惜自掏腰包的一个群体。克鲁尼在 自家豪宅举办的筹款宴会上,为奥巴马筹 集到数百万美元的竞选资金。
用户行为数据集(40万用户对2万部电影的 上亿条评分记录);另一方面,3年的比赛 中,参赛者提出了很. 多推荐算法,大大降10
YouTube作为美国最大的视频网站,拥有大 量用户上传的视频内容。由于视频库非常 大,用户在YouTube中面临着严重的信息过 载问题。为此,YouTube在个性化推荐领域 也进行了深入研究,尝试了很多算法。在 YouTube最新的论文④中,他们的研究人员 表示现在使用的也是基于物品的推荐算法。 为了证明个性化推荐的有效性,YouTube曾 经做个一个实验,比较了个性化推荐的点 击率和热门视频列表的点击率,实验结果 表明个性化推荐的点击率是 热门视频点击 率的两倍。
身在白宫罗斯福厅的总统及其高级助手制
作日常简报,而有关这个团队的更多细节
是不会对外透露的,因为奥巴马竞选阵营
牢牢固守着他们自认为比罗姆尼竞选阵营
有优势的地方:即数. 据。
18
在前 18 个月,竞选团队就创建了一个单一 的庞大系统,可以将来自民意调查者、捐 资者、现场工作人员、消费者数据库、社 交媒体,以及“摇摆州”主要的民主党投 票人的信息整合在一起。
数据挖掘技术应用实例
1.个性化广告 2.电影和视频推荐 3.奥巴马成功竞选
.
1
个性化广告
.
2
广告是互联网公司生存的根本。很多互联 网公司的盈利模式都是基于广告的,而广 告的CPC、CPM直接决定了很多互联网公司 的收入。目前,很多广告都是随机投放的, 即每次用户来了,随机选择一个广告投放 给他。这种投放的效率显然很低,比如给 男性投放化妆品广告或者给女性投放西装 广告多半都是一种浪费。因此,很多公司 都致力于广告定向投放(Ad Targeting)的 研究,即如何将广告投放给它的潜在客户 群。个性化广告投放目前已经成为了一门 独立的学科——计算广告学——但该学科和 推荐系统在很多基础.理论和方法上是相通 3
例如,竞选团队早期就发现,在个人注意力 最容易被重新吸引回来的人群中,在 2008 年大选中曾退订了竞选电子邮件的那部分 人是首要目标。为此, 战略家们为特定人 群制订了相应的测试。例如,测试一个本 地志愿者打来的电话的效果如何优于一个 从非摇摆州(如加州)志愿者打来的电话。 正如竞选总指挥吉姆·梅西纳(Jim Messina) 所说,在整个竞选活中,没有数字做支撑 的假设很少存在。
个性化广告投放和狭义个性化推荐的区别是, 个性化推荐着重于帮助用户找到可能令他 们感兴趣的物品,而广告推荐着重于帮助 广告找到可能对它们感兴趣的用户,即一 个是以用户为核心,而另一个以广告为核 心。目前的个性化广告投放技术主要分为3 种。
.
4
• 上下文广告 通过分析用户正在浏览的网 页内容,投放和网页内容相关的广告。代 表系统是谷歌的Adsense。
• 搜索广告 通过分析用户在当前会话中的 搜索记录,判断用户的搜索目的,投放和 用户目的相关的广告。
• 个性化展示广告 我们经常在很多网站看 到大量展示广告(就是那些大的横幅图 片),它们是根据用户的兴趣,对不同用 户投放不同的展示广告。雅虎是这方面研 究的代表。
.
5
• 广告的个性化定向投放是很多互联网公司 的核心技术,很多公司都秘而不宣。不过, 雅虎公司是个例外,它发表了大量个性化 广告方面的论文。