机器学习与数据挖掘(精)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习与数挖掘
回归
分类与回归

分类：通过样本预测离散变量的值回归：通过样本预测连续变量的值二者本质上类似

可以使用相同的算法，局部优化

如：SVR 具有独特的算法

但仍然存在很大差异

2018年9月30日
Machine Learning
2
回归算法

参数式方法

假设数据由一组特定模型产生
距离/相似度度量

常用距离

加权归一化L1距离

特征维重要性与预测能力成比例权重

IG (信息增益) idf 其它特征选择指标
d X , Y wi xi , yi
i
2018年9月30日
wi H C Pv H C | V wi idf i

不假设模型

理论上：可以描述任意分布

/tutorials/mbl.html
Machine Learning 4
2018年9月30日
回归算法

非参数方法

距离/相似度度量

kNN算法依赖于好的距离或相似度度量

特征空间内的距离/相似度应与目标函数的距离/相似度高度相关且关系简单，最好成正比
Machine Learning
14
距离/相似度度量

直方图的特殊距离

直方图的交

一定程度上支持部分匹配
DI , J 1 min f i; I f i; J
i
2018年9月30日
Machine Learning
15
距离/相似度度量

直方图的特殊距离

Earth Mover’s Distance(土方工程距离？)
13
距离/相似度度量

直方图的特殊距离 Jeffrey距离

据说比KL距离数值稳定性好
f i; I f i; J D I , J f i ; I f i ; J ˆ i ˆ i f f i
2018年9月30日
27
维数致密格 Z邻接数(3^d-1) 致密格邻接数
2018年9月30日
Machine Learning
相似性索引

多维范围查询

空间分割

格索引

Trie：把每维当作一个符号，则可用Trie索引 Trie索引可以在每维上支持范围查询，所以无需遍历所有邻接格可以处理任意高维数
2018年9月30日
相似性索引

多维范围查询

各种结构可高效处理的维数

R-树、SR-树：10-15维 K-d(-b-)树：<25维空间分割：<100维线性扫描可能更快

更高的维数？

2018年9月30日
Machine Learning
30
相似性索引

最近邻查询

先用范围查询获得候选数据，然后线性扫描候选数据利用范围查询的索引结构，配以优先级队列
距离/相似度度量

常用距离

Minkowski距离

Lm

以上距离均是Minkowski距离取特定m的特殊情况
很少使用较大的m：m越大，噪声越敏感
m
d m X , Y m xi yi
i
2018年9月30日 Machine Learning
9
距离/相似度度量

常用距离

归一化L1距离

值域范围小的特征维不会被完全掩盖
xi yi max i min i xi , yi 0 1
Machine Learning
数值特征 xi yi xi yi
10
d X , Y xi , yi
i
2018年9月30日

致密格：更接近球形，用较少格即可填满空间
2018年9月30日
Z2格
Machine Learning
A2格
26
相似性索引

多维范围查询

空间分割

格索引

Hash: 查询时需要把邻接格全部查一遍，无论该格是否有数据邻接格数量越少效率越高
1 Z1 2 2 2 A2 8 6 3 A3 26 12 4 D4 80 24 5 D5 242 40 6 E6 728 72 7 E7 2186 126 8 E8 6560 240 9 9 19682 272
Machine Learning 24
2018年9月30日
相似性索引

多维范围查询

空间分割

空间等分成等大小的格子

量化
高维空间：稀疏

只保留有数据的格子

用简单索引结构索引格子
2018年9月30日
Machine Learning
25
相似性索引

多维范围查询

空间分割

格量化(Lattice Quantization)

现实：找到合适的距离/相似度度量非常困难
2018年9月30日
Machine Learning
5
距离/相似度度量

常用距离

欧氏距离

平方距离，L2 等距子空间：(超)球面好处：符合直观坏处：计算量大，噪声敏感
d X ,Y
2018年9月30日
x y
i i i
相似性索引

一维范围查询索引：B-树
查询：[15,50]
2018年9月30日
Machine Learning
19
相似性索引

多维范围查询

距离函数的影响

一维：L1=L2=……= L 多维：均不相等使用哪个距离函数？最容易实现： L

效率最高其它距离函数仍然可以实现
2018年9月30日
Machine Learning
28
相似性索引

多维范围查询

数据分割

可构造平衡数，层数浅，自适应数据分布插入顺序影响性能，修改操作会显著降低性能

维数越高影响越大

空间分割

结构仅与所索引的数据有关

维数无关

不平衡，层数可能较大，量化步长难把握
Machine Learning 29
2018年9月30日
i
2018年9月30日

ˆ i f i; I f i; J / 2 f
12
距离/相似度度量

直方图的特殊距离

KL距离

“互信息量”
D I , J
i
f i; I f i; I f i; J
2018年9月30日
Machine Learning
Machine Learning
20
相似性索引

多维范围查询

K-d树, k-d-b树
2018年9月30日
Machine Learning
21
相似性索引

多维范围查询

K-d树, k-d-b树
/quadtree/index.html
2018年9月30日 Machine Learning 22

优化目标：找到最优模型参数 /tutorials/introreg.html
2018年9月30日
Machine Learning
3
回归算法

非参数方法

参数式方法的问题

如果数据分布与所假设的模型差异很大，则参数式方法性能极差直接使用训练数据来描述
i
2018年9月30日 Machine Learning 7
距离/相似度度量

常用距离

最大绝对值距离

L ，Chebyshev距离等距子空间：(超)立方体好处：计算量小坏处：不一定符合直观

但易于实现快速索引
d X , Y max xi yi
i
2018年9月30日 Machine Learning 8
2
Machine Learning
6
距离/相似度度量

常用距离

绝对值距离

街区距离，Manhattan/boxcar/taxicab距离，L1 等距子空间：(超)多面体好处：计算量小，噪声敏感度较低坏处：不一定符合直观

但符合某些应用的特性
d X , Y xi yi

支持部分匹配复杂度高
/~efros/courses/AP06/presentations/06-07-presentation.ppt
2018年9月30日
Machine Learning
16
回归算法

非参数方法

相似性索引

kNN在每次应用（分类/预测）的时候都需要处理所有训练样本

计算节点和查询矢量的最小和最大距离，据此对节点进行排序处理维数较高时的唯一选择
Machine Learning 31

线性扫描

2018年9月30日

找到最近的k个样本/某个距离范围的所有样本如果训练集大，则计算量极大相似性索引实现快速kNN查询或范围查询
2018年9月30日
Machine Learning
17
相似性索引

支持范围查询和/或最近邻查询的索引
距离阈值
最近邻查询
范围查询等距子空间
如何实现？
2018年9月30日 Machine Learning 18
Machine Learning
v
11
距离/相似度度量

直方图的特殊距离

直方图是概率密度函数

可以用评价概率分布差异性的量来计算距离

2

统计上常用的分布相似性测度
2 ˆ f i; I f i , ˆ f i
Machine Learning
D I , J
相似性索引

多维范围查询

R-树及其变种
2018年9月30日
Machine Learning
23
相似性索引

多维范围查询

更近似欧氏距离：SR-树

使用超球形节点

真的有效吗？

K-d(-b-), R-, SR-树的问题

性能与插入顺序有关大量插入、输出等操作后性能可能下降数据分割算法的通病不使用数据分割，使用空间分割