机器学习与数据挖掘(精)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i
2018年9月30日

ˆ i f i; I f i; J / 2 f
12
距离/相似度度量

直方图的特殊距离

KL距离

“互信息量”
D I , J
i
f i; I f i; I f i; J
2018年9月30日
Machine Learning
i
2018年9月30日 Machine Learning 7
距离/相似度度量

常用距离

最大绝对值距离

L ,Chebyshev距离 等距子空间:(超)立方体 好处:计算量小 坏处:不一定符合直观

但易于实现快速索引
d X , Y max xi yi
i
2018年9月30日 Machine Learning 8


不假设模型

理论上:可以描述任意分布

http://www.autonlab.org/tutorials/mbl.html
Machine Learning 4
2018年9月30日
回归算法

非参数方法

距离/相似度度量

kNN算法依赖于好的距离或相似度度量

特征空间内的距离/相似度应与目标函数的距离/相似 度高度相关 且关系简单,最好成正比

优化目标:找到最优模型参数 http://www.autonlab.org/tutorials/introreg.html
2018年9月30日
Machine Learning
3
回归算法

非参数方法

参数式方法的问题

如果数据分布与所假设的模型差异很大,则参 数式方法性能极差 直接使用训练数据来描述
13
距离/相似度度量

直方图的特殊距离 Jeffrey距离

据说比KL距离数值稳定性好
f i; I f i; J D I , J f i ; I f i ; J ˆ i ˆ i f f i
2018年9月30日
Machine Learning
20
相似性索引

多维范围查询

K-d树, k-d-b树
2018年9月30日
Machine Learning
21
相似性索引

多维范围查询

K-d树, k-d-b树
http://donar.umiacs.umd.edu/quadtree/index.html
2018年9月30日 Machine Learning 22
Machine Learning
14
距离/相似度度量

直方图的特殊距离

直方图的交

一定程度上支持部分匹配
DI , J 1 min f i; I f i; J
i
2018年9月30日
Machine Learning
15
距离/相似度度量

直方图的特殊距离

Earth Mover’s Distance(土方工程距离?)


找到最近的k个样本/某个距离范围的所有样本 如果训练集大,则计算量极大 相似性索引 实现快速kNN查询或范围查询
2018年9月30日
Machine Learning
17
相似性索引

支持范围查询和/或最近邻查询的索引
距离阈值
最近邻查询
范围查询 等距子空间
如何实现?
2018年9月30日 Machine Learning 18
相似性索引

多维范围查询

各种结构可高效处理的维数

R-树、SR-树:10-15维 K-d(-b-)树:<25维 空间分割:<100维 线性扫描可能更快

更高的维数?

2018年9月30日
Machine Learning
30
相似性索引

最近邻查询


先用范围查询获得候选数据,然后线性扫描 候选数据 利用范围查询的索引结构,配以优先级队列

致密格:更接近球形,用较少格即可填满空间
2018年9月30日
Z2格
Machine Learning
A2格
26
相似性索引

多维范围查询

空间分割

格索引

Hash: 查询时需要把邻接格全部查一遍,无论该格 是否有数据 邻接格数量越少效率越高
1 Z1 2 2 2 A2 8 6 3 A3 26 12 4 D4 80 24 5 D5 242 40 6 E6 728 72 7 E7 2186 126 8 E8 6560 240 9 9 19682 272
机器学习与数据挖掘
回归
分类与回归


分类:通过样本预测离散变量的值 回归:通过样本预测连续变量的值 二者本质上类似

可以使用相同的算法,局部优化

如:SVR 具有独特的算法

但仍然存在很大差异

2018年9月30日
Machine Learning
2
回归算法

参数式方法

假设数据由一组特定模型产生
Machine Learning 24
2018年9月30日
相似性索引

多维范围查询

空间分割

空间等分成等大小的格子

量化
高维空间:稀疏

只保留有数据的格子


用简单索引结构索引格子
2018年9月30日
Machine Learning
25
相似性索引

多维范围查询

空间分割

格量化(Lattice Quantization)
Machine Learning
v
11
距离/相似度度量

直方图的特殊距离

直方图是概率密度函数

可以用评价概率分布差异性的量来计算距离

2

统计上常用的分布相似性测度
2 ˆ f i; I f i , ˆ f i
Machine Learning
D I , J

现实:找到合适的距离/相似度度量非常困难
2018年9月30日
Machine Learning
5
距离/相似度度量

常用距离

欧氏距离

平方距离,L2 等距子空间:(超)球面 好处:符合直观 坏处:计算量大,噪声敏感
d X ,Y
2018年9月30日
x y
i i i
27
百度文库
维数 致密格 Z邻接数(3^d-1) 致密格邻接数
2018年9月30日
Machine Learning
相似性索引

多维范围查询

空间分割

格索引



Trie:把每维当作一个符号, 则可用Trie索引 Trie索引可以在每维上支持 范围查询,所以无需遍历所有 邻接格 可以处理任意高维数
2018年9月30日

值域范围小的特征维不会被完全掩盖
xi yi max i min i xi , yi 0 1
Machine Learning
数值特征 xi yi xi yi
10
d X , Y xi , yi
i
2018年9月30日

计算节点和查询矢量的最小和最大距离,据此对 节点进行排序处理 维数较高时的唯一选择
Machine Learning 31

线性扫描

2018年9月30日
相似性索引

一维范围查询索引:B-树
查询:[15,50]
2018年9月30日
Machine Learning
19
相似性索引

多维范围查询

距离函数的影响

一维:L1=L2=……= L 多维:均不相等 使用哪个距离函数? 最容易实现: L


效率最高 其它距离函数仍然可以实现
2018年9月30日
2
Machine Learning
6
距离/相似度度量

常用距离

绝对值距离

街区距离,Manhattan/boxcar/taxicab距离,L1 等距子空间:(超)多面体 好处:计算量小,噪声敏感度较低 坏处:不一定符合直观

但符合某些应用的特性
d X , Y xi yi
Machine Learning
28
相似性索引

多维范围查询

数据分割


可构造平衡数,层数浅,自适应数据分布 插入顺序影响性能,修改操作会显著降低性能

维数越高影响越大

空间分割

结构仅与所索引的数据有关

维数无关

不平衡,层数可能较大,量化步长难把握
Machine Learning 29
2018年9月30日

支持部分匹配 复杂度高
http://www-2.cs.cmu.edu/~efros/courses/AP06/presentations/06-07-presentation.ppt
2018年9月30日
Machine Learning
16
回归算法

非参数方法

相似性索引

kNN在每次应用(分类/预测)的时候都需要处 理所有训练样本
距离/相似度度量

常用距离

Minkowski距离

Lm

以上距离均是Minkowski距离取特定m的特 殊情况
很少使用较大的m:m越大,噪声越敏感
m
d m X , Y m xi yi
i
2018年9月30日 Machine Learning
9
距离/相似度度量

常用距离

归一化L1距离
距离/相似度度量

常用距离

加权归一化L1距离

特征维重要性与预测能力成比例 权重


IG (信息增益) idf 其它特征选择指标
d X , Y wi xi , yi
i
2018年9月30日
wi H C Pv H C | V wi idf i
相似性索引

多维范围查询

R-树及其变种
2018年9月30日
Machine Learning
23
相似性索引

多维范围查询

更近似欧氏距离:SR-树

使用超球形节点

真的有效吗?

K-d(-b-), R-, SR-树的问题

性能与插入顺序有关 大量插入、输出等操作后性能可能下降 数据分割算法的通病 不使用数据分割,使用空间分割
相关文档
最新文档