基于机器学习的推荐系统
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
远影响 。
【 关键词 】机 器学习 推 荐 系统 大数据 数据
挖 掘
是说物品即使被选择也无需从整体 中去除 。通 整个机器 学习的最后 一步 就是测试模 型, 常训练 集和测 试集 比例 为 8 0 / 2 0 。最 后降维是 检测模型的准确率 。这是衡量一个算法的优 劣 为了去除一些非常稀疏且对结果集影响不大 的 的重要步骤 。测试的数据集可 以从 测试中随机 点,降低 维度 ,避 免维度 灾难 ,降低运算难度 。 选取或者从提前预留的测试集 中获取 。
应用 ,其中较为广泛的是采用三种 方式:基 于 商 品 的推 荐算 法、基 于用户 的推 荐算法 以及 混合 推荐 算法 。在 很 多大型 互联 网网站 比如
A m a z o n 、淘 宝、京东 等,都投 入 了很 大 的精 力在推荐系统这一领域上,希望用户 能够更 加 法 得 到 合 理 的利 用 。 随着 科 技 的 发 展 , 人 们 逐 练记 录并 使用 它们 来预 测未 知样本 的标 签类 快速的找到 自己想要 的商品。 渐把 目光转 向了数据挖掘这个 领域 。各种 数据 别。这种分类器会存储所有 的训练集 ,只有 当 尽 管机器 学 习在 推荐 系统领 域 的发展 潜 挖掘技术被利用到现实生活 中。机器 学习技 术 新纪录与训练集完全匹配时才进行分类 。相对 力很大 ,但也不得不面临一些问题 。其中一个 在其中起 了很大 的作用 ,其 中比较广 为所 知的 于其 它机器 学 习算法 ,K NN 是最简 单的 ,因 很棘手 的问题就是随着时间的推移 ,用户 的兴 就是 Al p h a Go与李 世石 的 “世 纪之 战 ”,被 为 K 无 需建立一个 显示的模型 ,被称为是 趣爱好也可能跟着变化,而我们获取 的仅仅是 誉 为人 机大 战 ,最 终 以 Al p h a G o胜利 告 终, 个懒 学习者 。尽 管 KNN方法简 单直观 ,但 用户过去的购买记录。 当用户有了新的兴趣后 , 再 一 次 向人 们 展 示 了机 器 学 习 的 强 大 。在 很 多 它的结果准确 ,非常易于提升。 短 时 间 很 难 去 捕 获 到 。这 只 是 其 中 一 个方 面 , 人眼里机器学 习是个非常抽 象的概念 ,本文将 k - me  ̄ q s 算 法:k - me a n s 算 法是 一 个分 块 对机器学习算法的研究还有 很长的路要走 ,但 对其在推荐系统领域做一定的解析 。 聚类算法,把获取 的 n 个对象数据分割成 k 个 我相信 ,随着科技的进 步,这些都不是 问题 。
一
降维。 在协 同过滤推 荐系统 中使用 的 KNN分类 ( k - Ne a r e s t Ne i g h b o r )主 要取 决于距离度 量方 法。 比较 常用 的距 离度 量 方 法 有 欧 几 里 得 距 离 、
来自百度文库
率 定义和 贝 叶斯定 理 的一类 算法, 贝叶斯 统 计 学派 使用概 率来 代表从 数据 中学 习到 的关 系 的不确 定性 。其把每 一个 属性 和类标 签 当
作 随机变 量。给 定一个 带有 N 个属 性的记 录 ( A , A , A . . , A ), 目标 是 预测 类 c k , 方 法 C I A。 , A: , . . . , AN )下,找 到能 皮尔 逊相 关 系数、J a c c a r d系 数 ( 针 对二 进制 是在 给定数 据 P ( 的值。常见 贝叶 属性 )等。抽样是数据挖掘从大数据集 中选择 够最 大化该类 后验概率 的 C 相关数据子集的主要技术 ,其在最终的解释步 斯分类器算法有朴素贝叶斯算法、平均单依赖 AO DE)以及贝叶斯网络 ( B BN)等。 骤也起 了很重要的作用 ,最常采用 的抽样方法 估计 ( 是无取代抽样 ,当物 品被选择时 ,物品被从整 2 . 4 测 试 模 型 体中取走,但执行取代抽样也是允许 的,也就
一
不相关子集 ( k<n )。它与处理混合正态分布 的最大期望算法很相似 ,因为它们都是试 图找 参考文献 何为机 器 学 习?通俗 来 说机器 学 习就 是 到数据中 自然聚类的 中心 。它假设对象属性来 [ i 】 王志梅 , 杨帆 . 基于[ / e b b i a l l 一致性 学 让机器跟人一样学 习并总结 “ 经验 ”。当然 机 自于空间向量 ,并且 目标是使各个群组 内部的 习的 P 2 P 推 荐 算法 [ J 】 . 计 算机研 究 与应 - me a n s 算法~ 开始会随 器不能跟人一样去经历各种事情积累 “ 经验 ”。 均方误 差总和最 小。k 用 , 2 0 0 6 , 4 2 ( 3 6 ) : 1 1 0 - 1 l 3 . 而 是通 过 已有的数据让机器去分析 ,总结其 中 机 选择 k个中心点,所有物 品都会被分配到它 【 2 】 吴颜 , 沈洁, 顾天 竺等 . 协 同过滤推荐 系 的规律,并总结形成一套模型 ,应用 到实际生 们最靠近的中心节点 的类 中。当物 品新添加或 统 中数据 稀疏 问题 的解决 【 J 】 . 计 算机应 者 移 除 时 , 新 聚 类 的 中心 节 点 需 要 更 新 ,聚 类 活 中去 。 用研究 , 2 0 0 7 , 2 4 ( 0 6 ) : 9 4 — 9 7 . 的 成 员 关 系 也 需 要 更 新 ,这 样 不 断 迭 代 ,直 到 【 3 】 P e t e r H a r r i n g t o n .M a c h i n e L e a r n i n g i n 2 . 1获 取 数 据 没有物 品改变它们的聚类成员关系 。最终的聚 A c t i O i l [ M 】 . 北京 : 人 民邮 电出版社 , 2 0 1 5 .
D a t a B a s e T e c h n i q u e・ 数据库技术
基于机器学 习的推荐 系统
文/ 周 齐
预处理主要分为三个方面 :距离度量、抽样 、 在 这个数 据信 息无处 不在 的 时代 ,如何 对 这些 数据 进行 获取 并进 行相 应 的分析 成 了众 多人 的 研 究 的 课 题 。本 文 针 对 这 一 现 状 , 对机 器 学 习相 关 的推 荐 系统做 了 些 简单 的概述 。通 过对机 器学 习在 推荐 系统上 用 的一些技 术 和 思想 进 行解 析,让 更 多 的人 了解 什 么是 大数据 ,什 么是机器学 习。 最 为重要 的 一点是 让 大 家 了解机 器 学 习对 我们 的 日常 所产 生 的深
2 ・ 3分} 斤 l 数据与建立模型
在整 个机 器 学习 的过程 中,难 度最 大最
3机器学 习在推荐 系统领域存在的挑战
机 器学 习在推 荐系统 中 同样有很 广泛 的
为核心的就是分析数据 。分析数据 的方法有很 多种,每一种在不 同的实际应用有其不 同的作 1 引 言 用,要具体情况具体分析 。这里将介绍几种在 相 比过 去,数 据存 储不 再 是难 题,但 随 推荐系统中较为常用的数据分析方法: 着海量数据 的产 生,产 生了大量数 据的资源无 最近邻 算法 ( KNN):KNN通过 存储训I