大数据:互联网大规模数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

因为算法的竞争率是算法所有可能的输入下所得到最小值和最优结果的比值,因此
贪心匹配算法 1/2是竞争率的上界。又设Mo是最大匹配、Mg是贪心算法匹配,L为在Mo中匹配但在
5 的竞争率为 Mg中不匹配的左节点结合,R为L中所有节点连接的边右节点的集合。由于
1/2。
|M0|<=|M0|+|L| ,|L|<=|R|,|R|<=|Mg| ,可以推导得到|M0|<=2|Mg|,竞争率至
基于内容的推荐系统优点 不需要其它用户的数据,没有冷开始问题和稀疏
能为具有特殊兴趣爱好的用户进行推荐
优点
能推荐新的或不是很流行的项目,没有新项目问题
通过流出推荐项目内容特征,解释推荐那些项目的原因
已有比较好的技术,如关于分类学习的技术已趋成熟
基于内容的推荐系统缺点
缺点是要求内容能容易抽取成有意义的特征, 要求特征内容有良好的结构性,并且用户的 口味必须能够用内容特征形式来表达,不能 显式地得到其它用户的判断情况。
没错,这就是推荐系统的巨大魅力,大数据环境之 下,Web应用可以对涉及用户喜好进行预测,而这 种系统称为推荐系统。
推荐系统的分类
这类系统主要考察的是推 荐项的性质。用户计算机 用户以往的浏览历史来预 测用户将来的行为,也就 是基于内容的推荐。
基于内容
推 荐
的系统 系

这类系统通过计算用户或/
协同过 滤系统
基于内容的推荐系统流程
数据 收集
即搜集用户的行为资料,其中也包括很多方法,根据我找到 的资料与以往的经验来看,web日志可以作为我们的切入点, 即我们的数据来源。
过滤 数据
Web日志中有很多无用的信息,我们要把这些无用的 信息排除掉,而且要区分出用户和日志数据之间的联 系。
输出 结果
分析 数据
利用分类聚类技术分析出这些日志数据之间的关联性,以及这 些日志数据和用户之间的关联性,这也是最重要的一步。
2 最大匹配
一个二分图G,在G的一个子图M中,M的边集中的任意两条边都不依附于同一个顶点, 选择这样的边数最大的子集称为图的最大匹配问题。
3 完美匹配
在一个匹配中,所有的节点都不会同时是两条或者多条边对的端点且所有的节点都 出现,则匹配是完美的。
4
最大匹配的贪 心算法
按照任意次序来考虑边,当考虑边(x,y)时,如果x和y都不是已有匹配中边的端 点则加入,否则跳过。贪心算法产生的匹配不一定是最大匹配,很可能结果会不尽 人意。
一无所知的情况下对当前元素进行决策的过程
2
算法现象
一般情况下会寻找搜索引擎收益和广告上显示次数同时的 最大化,因为无法保证在线算法与离线算法一样有效
采用贪心策略,综合考虑关键词与广告的匹配程度、广告
3 贪心算法 商竞价、广告商剩余预算等因素,通过最大化当前输入元
素信息的某个函数得到当前的最优值。
4 竞争率
K-meawk.baidu.coms
凝聚的
K-medoids
分裂的
DBSCAN OPTICS
STING CLIQUE
Statistics
Neural Network
聚类算法需要考虑的因素
能够适用于大数据量 (可伸缩性)
01
聚类结果可解易使用 06
02
能够处理不同类型数据 (距离定义)
具有处理噪声的能力
05
04
03
能够发现任意形状的簇 (结果特点)
协同过滤系统的概念
基于用户的协同过滤推荐的基本原理是,根据所有用户对物品或 者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户 群,在一般的应用中是采用计算“K- 邻居”的算法;然后,基 于这 K 个邻居的历史偏好信息,为当前用户进行推荐。
协同过滤系统的图示
上图示意出基于用户的协同过滤推荐机制的 基本原理,假设用户 A 喜欢物品 A,物品 C, 用户 B 喜欢物品 B,用户 C 喜欢物品 A , 物品 C 和物品 D;从这些用户的历史喜好信 息中,我们可以发现用户 A 和用户 C 的口 味和偏好是比较类似的,同时用户 C 还喜欢 物品 D,那么我们可以推断用户 A 可能也喜 欢物品 D,因此可以将物品 D 推荐给用户 A。
少为1/2。因此竞争率为1/2。
广告的匹配问题
01
二部图
02
最大匹配
03
完美匹配
04
最大匹配的贪 心算法
05
贪心匹配算法 的竞争率为1/2
9 推荐系统 Part Recommendation Systems
推荐系统的概念
不知道大家有没有这样的经 验,反正我是经常碰到。
举例1,在淘宝上多次浏览某类商品时,淘宝网站 会出现该类产品的推荐,诸如:您可能感兴趣…。 举例2,某些门户网站会基于您的浏览足迹,推荐 您感兴趣的新闻内容。
大数据:互联网大规模数据挖掘与分布式处理
Mining of Massive Datasets
7 聚类 Part Clustering
聚类的概念
聚类是对点集进行考察并按照某 种距离测度将它们聚成多个“簇” 的过程。聚类的目标是同一簇内 的点之间的距离较短,而不同簇 中点之间的距离较大。如图,不 同种类的犬在某种程度上形成一 种簇。三种不同犬类的身高体重 身高 分布图,可以知道这些犬可以分 到三个簇中,每个簇恰好对应一 种犬类。
能够处理高维数据
8 Web广告 Part Advertising on the Web
Web广告背景
目前,许多WEB应用通过广告而维持生计,从在线广告中获益最多的是搜索 应用,而搜索广告的有效性主要源于将搜索查询和广告进行匹配的一个称为 Adwords模型。
本章将主要关注广告匹配的优化算法。这里使用的算法属于一种特殊的类型, 他们属于一种特殊的类型,它们属于贪心算法且从特定技术角度来说是在线算 法,重点讨论在线广告的相关问题、在线算法、Adwords实现和问题等。
Balance算法 竞争的一个下

多投标者的 Balance算法
展示广告的相 关问题
一般性的
Adwords问题
Balance算法 的最后论述
贪心算法 竞争率
最大匹配贪心 算法
贪心匹配算法 的竞争率
在线算法分类
离线算法 将算法所需的所有数据准备好才产生答案的传统算法
1
只能保存有限的流数据,但是需要在某个流元素到达之后 在线算法 就以输出的方式对查询进行应答,此时是在对未来的数据
章节具体框架
Web广告
Adwords实 现
Adwords问 题
在线广告 相关问题
在线算法
广告匹配 问题
投标和搜索查 搜索广告的历 Adwords问题
询的匹配

的定义
广告机会
在线和离线算 匹配及完美匹


更复杂问题的 Adwords问题
匹配问题
的贪心算法
Balance算法
直接广告
文档和投标之 间的匹配算法
比格犬
吉娃娃狗
腊肠狗
体重
聚类的操作
而聚类分析则是根据最大化簇内的 相似性、最小化簇间的相似性的原 则将数据对象聚类或分组,所形成 的每个簇可以看作一个数据对象类, 用显式或隐式的方法描述它们。
最小化簇间的相似性
z
x
最大化簇内的相似性
0
y
聚类分析算法的分类
聚类算法
基于划分的 基于层次的 基于密度的 基于网格的 基于模型的
和项之间的相似度来推荐项。 与某用户相似的用户所喜欢 的项会推荐给该用户。
基于内容的推荐系统概念
基于内容的推荐(Content-based Recommendation)是信息过滤技术的
延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项 目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得 到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的 属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与 待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策 树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历 史数据,用户资料模型可能随着用户的偏好改变而发生变化。
存在某个小于1的常数c,使得对于任意输入,一个具体的在 线算法的结果至少是最优离线算法结果的c倍。
广告的匹配问题
设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且
1 二部图
图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集,则称
图G为一个二分图。
相关文档
最新文档