大数据技术与应用3 大数据分析的基础方法 新版本
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
一个练习 [ X, Y , H, D]
S1 = [0, 100] S2 = 所有的(userid, songid)对 S3 = 所有可能“用户因子”和“歌曲因子”的各种可 能的乘积组合 S4 = 1,000,000个 ((userid, songid), rating)对
1) 2) 3) 4)
25
根据输出空间的不同进行分类
二分类 多分类 回归 Structured Learning(不是重点)
a fancy but complicated learning problem 如:识别句子的语法结构,蛋白质的结构等等
…and more! 最重要、最常用算法工具:
二分类和回归
26
输入数据有标签:有监督的学习 Supervised
数据集上每一个Xn都有对应的label(分类结果) Yn
有监督的多分类问题
27
输入数据无标签:无监督的学习 Unsupervised
聚类 更多聚类问题
从文章中抽取主题 从客户的profile文件为客户分群组
聚类是一个很用价值的问题
每一个wT 代表了一个 h
wT后文中很多时候直接表示为w
h 能更加容易理解?
13
h 的几何表示
h(x) = sign(w0+w1x1+w2x2)
实数二维平面上的感知器 ( Perceptron) R2
客户属性 x:平面上的点(Rd 上的点) 标记y:ο(+1), ×(-1) 假设h:平面上的线(Rd 上的超平面) +1 在线的一侧,-1在线的另一侧 不同的线以不同的方式区分客户
增强学习通常用在在线学习方式上 在线学习: hypothesis g 通过不断的顺 序接收数据来学习
34
主动学习:靠提问来不断学习
批量学习:‘duck
feeding’ 在线学习: ‘passive sequential’ 主动学习: ‘question asking’ (sequentially)
ML
技能(Skill)
Fra Baidu bibliotek
什么是技能?
使performance measure得到提升,如预测得更准确
数据(data)
ML
性能提升、改善 (improved performance)
3
为什么要使用机器学习?
给出机器可理解的机器的定 义、规则,并且编程实现是 几乎不可能的事情 但3岁小孩可以轻易识别出 树 我们希望:基于ML的系统 可以同样较为轻易的做同样 的事情
使用w0来代表g0
15
PLA算法过程(A)
随意设置一组w0,(此处全0) 对于某wt,找到一个错误点,称 为(xn(t) , yn(t)) sign( wtxn(t) ) ≠ yn(t) 尝试以如下方式更正错误 wt+1 ← wt + yn(t)xn(t) 直到没有错误发生,将最终的w (称为wPLA) 返回,称其为g
16
PLA算法过程图示
17
PLA的遗留问题
直到没有错误发生,将最终的w (称为wPLA) 返回 ,称其为g
“直到没有错误发生”,真的能发生么?算法真的会 终止?
如果算法不终止呢?
学习结果可信么:g 约等于 f ?
在数据集D上,如果算法终止,确实没有错误
那么在D之外也是如此么?
23
多分类
对硬币进行分类(一角, 五角, 一元)(重量、大小) Y={一角, 五角, 一元} 或者{1,2,3,…,K} 二分类是 K = 2的特殊情况 更多的多分类
0—9的数字识别 水果图片识别 邮件:垃圾,重要,社交,促销,通知,…
24
回归: Regression
大数据技术与应用
概
要
机器学习的基础 感知器算法 机器学习的分类
大数据分析的基础方法
2
什么是学习?
学习:通过观察世界,从而累积经验,进而获得技能
观察(observations)
学习
技能(Skill)
机器学习:通过观察世界(分析计算数据),从而累 积经验,进而获得技能
数据(data)
批量学习:一个非常普遍的学习方式
33
在线学习
批量学习中
从已有的邮件对(email, spam)中学习,预测一个确定 的g 观测一个新到达邮件 xt 预测此邮件是否属于垃圾邮件 gt (xt ) 接收到用户的反馈结果yt ,根据(xt , yt )更新gt
在线垃圾邮件过滤器,顺序做如下事情:
X
对于任意 (xn(t) , yn(t)) ,更新之后 wf wt↑
wf wt+1 = wf ( wt + yn(t)xn(t) ) ≥ wf wt + min ym wf xm > wf wt + 0 两个向量内积越大,二者就越靠近!
20
Pocket算法—贪心PLA
初始化一组ws
随意设置一组w0,(此处全0)
感知器 线性二维分类器(linear (binary) classifier)
14
从H 中选择g
目标:g ≈ f ( f未知 ) 方法:在D上,如果:g ≈ f ,那 么可否认为: g(xn) = f (xn) = yn 难点:
H中的h是无限多的
思路:从某个g0开始,如果有错 误发生,那么就根据D来“更正” 错误
三者都比较重要、常用;
具体特征的问题最简单
42
学习的不同分类小结
根据输出空间的不同进行分类
二分类,多分类,… 有监督,无监督,半监督,… 批量学习,在线学习,… 具体特征,原始特征,抽象特征,…
根据输入数据的标记不同分类
根据学习的过程分类
根据X的输入空间不同分类
43
谢谢
2016/9/26 45
大数据分析的基础方法
10
感知器算法 PLA
Perceptron Learning Algorithm(PLA) 借鉴一个案例来分析
该不该发信用卡? 年龄 性别 年收入 工作年限 当前债务 单位类型 23岁 男 15万 3年 20万 私企
11
解决思路及过程
h 能否简化表示?
12
感知器算法的向量表示
31
Batch Learning 批量学习
硬币识别
批量的有监督多分类(batch supervised multiclass classification)
从全部的已知数据中学习
32
更多的批量学习方法
批量(email, spam) => 垃圾邮件过滤器 批量(patient, cancer) => 癌症分类器 批量(patient data) => 病人分类
预测初生婴儿下一次啼哭的时刻是否是偶数分钟? 给定一个几何图形,是否包含圆形? 是否向一个特定的用户发放信用卡? 猜测下一个十年之内地球是否会被核武器所毁灭?
6
一些基本的数学符号
以普通用户申请信 用卡为例
f 产生的 {( Xn ,Yn)}
ML
g
7
机器学习的数学过程
数学上描述的机器学习的基本过程
S1 = X; S2 = Y; S3 = H; S4 = D S1 = Y; S2 = X; S3 = H; S4 = D S1 = D; S2 = H; S3 = Y; S4 = X S1 = X; S2 = D; S3 = Y; S4 = H
9
概
要
机器学习的基础 感知器算法 机器学习的分类
ML:构建复杂系统的可能方法/途径
4
什么情况下可以使用机器学习?
机器学习使用场景的核心三要素
存在潜在模式(underlying pattern)
performance measure可以得到提升 ML的必要性 ML的前提
不容易列出规则并编程实现
有历史数据
授人以鱼不如授人以渔!
5
哪一个不能使用机器学习?
年龄 性别 年收入 工作年限 当前债务 单位类型
23岁 男 15万 3年 20万 私企
37
更多的具体特征
(size, mass)硬币识别 (客户信息)信用卡发放 (患者信息)癌症诊断 通常包含人类的智慧
特征工程
基于具体特征的机器学习: ML中较为‘easy’
38
原始特征:数字识别
数字识别问题:特征 => 数字的含义 典型的有监督多分类问题
18
线性可分(Linear Separability)
如果PLA终止 (也就是没有任何点分错),也就是 存在某个wPLA,使得D上的任何一个点都正确划分
称D是线性可分的( linear separable)
19
PLA收敛:wt 越来越靠近 wf
Wf 是完美的,因此,每一个xn(t) yn(t) wf xn(t) ≥ min ym wf xm > 0
无监督的多分类也叫聚类
28
部分输入数据有标签:半监督学习 Semi-supervised
有监督
半监督
无监督
Facebook:标记部分人脸,进行人脸识别 药品研发:有部分药品有效果记录,预测其 他药品的治疗病症 semi-supervised :标注全部数据成本太高!
29
增强学习
一种非常自然的学习方式
30
根据输入数据的标记不同分类
Supervised有监督学习:所有的数据都有yn unsupervised无监督学习:没有yn semi-supervised半监督学习:部分数据有yn Reinforcement增强学习:隐性的yn …
and more!
最重要、最常用:
有监督学习
39
原始特征:数字识别
其他基于原始特征的识 别问题:图片识别,语 音识别等
原始特征通常需要人类 或者机器转换为具体的 特征
40
抽象特征:排名预测问题
抽象特征同样需要人类或者机器进行特征转换/抽取/构建
41
根据X的输入空间不同分类
具体特征::表征复杂的(相关联的)物理意义 原始特征:简单的物理意义 抽象特征:没有或者很少物理意义 … and more!
21
概
要
机器学习的基础 感知器算法 机器学习的分类
大数据分析的基础方法
22
更多二分类算法的应用
覆盖生活方方面面
信用卡问题:发/不发 邮件过滤:是垃圾/不是垃圾邮件 去医院诊断:生病/未生病 广告:盈利/不盈利
两个算法哪个更好?
Pocket 比 PLA更慢 如果线性可分: Pocket 与 PLA效果一样好
找到一个wt,称为(xn(t) , yn(t)) sign( wtxn(t) ) ≠ yn(t) 尝试以如下方式更正错误 wt+1 ← wt + yn(t)xn(t) 如果wt+1比ws犯的错误更少,则使 用wt+1代替ws 直到足够多次的循环,将最终的w (称为wPocket) 返回,称其为g
查询特定的xn对应的 yn 是什么?
主动学习: hypothesis g 通过不断的问问题 得到提升,需要少量的yn
35
根据学习的过程分类
批量学习: 已知所有数据 在线学习:顺序的已知数据(被动方式) 主动学习:有挑选的少量数据 …and more!
最重要、最常用:
批量学习
36
信用卡发放问题
如何教你的宠物狗学习? 说‘坐下’ 小狗pees! 很难让小狗明白: xn = ‘sit down’ 时,应该yn = sit 采用奖励正确、惩罚错误的方式 另一个例子 (用户, 广告推荐, 广告点击) => 在线广告推荐系统
增强学习:通过 ‘partial/implicit’信息学习,并且 经常是顺序的