最近邻

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
欧式距离来度量。
形象的例子
KNN的分类思想
如果它走路像鸭子, 叫声也像鸭子, 那么他可能就是只鸭子。
Compute Distance
Test Record
Training Records
Choose k of the “nearest” records
KNN的直观解释
1、定义的直观形式:
•找出与目标最接近的K个样本; •将目标划分到找出的K个样本中出现最频繁的类。
X
2、K的直观形式:
•以目标样本为中心; •划出一个刚好包含K个样本的圆; •当K增大时,圆半径增大。
X
X
X
(a) 1-近邻
(b) 2-近邻
(c) 3-近邻
KNN的直观解释
3、直观的例子
Unknown record
•手写识别
•记录手写体特征; •计算手写体与标准汉字的相似度; •根据相似度(距离),找出K个备 选集; •人工选择一个正确汉字
d (a, b) w1 xa1 xb1 w2 xa 2 xb 2 wn xan xbn
p p
p

1/ p
如果描述特征的不是数值,距离如何计算,相似性如何计算,还 可做进一步研究。参考
Q.X Wu, T.M McGinnity, D.A Bell, G Prasad, “A Self-Organising Computing Network for DecisionMaking in Data Sets with Diversity of Data Types,” IEEE Transaction on Knowledge and Data Engineering, vol.18(7), 2006, pp. 941-953.
11
12 13 14 15
Debbie
Todd Kim Amy Wynette

男 女 女 女
1.8
1.95 1.9 1.8 1.75
中等
中等 中等 中等 中等
KNN的例子
序 号 1 2 3 4 5
姓名 Kristina Jim Maggie Martha Stephanie
性别 女 男 女 女 女
v
( xi , yi )Dz
I (v y )
i
在多数表决方法中,每个近邻对分类的影响 都一样,这使得算法对k值的选择很敏感。降低k 的影响的一种途径就是根据每个最近邻 xi 距离 的不同对其作用加权: i 1 / d x' , xi 2。 w
距离加权表决:
y ' arg max
cv
其中 d 是平均差。用t分布计算 d tcv 的置信区间:
d
cv t
ˆ d t1 ,k 1 d cv
最近邻分类
• 最近邻:和测试样例的属性相对接近的所有训练样例。 • k-最近邻:给定样例z的k-最近邻是指和z距离最近的k
个数据点。简称KNN。
• 邻近性度量:表示某种距离(或相似度)度量,常用
身高 1.6 2 1.9 1.88 1.7
类别 矮 高 中等 中等 矮
“高度”用于计算距离,K=5,对<Pat,女, 1.6>分类。
6
7 8 9 10 11 12 13 14 15
Bob
Kathy Dave Worth Steven Debbie Todd Kim Amy Wynette

女 男 男 男 女 男 女 女 女
ˆ2 d 0.151 0.15 0.251 0.25 0.0043 30 5000
d 可得到在95%的置信水平下, t 的置信区间为:
0.1 1.96 0.0655,.1 1.96 0.0655 (0.028,0.228) 0
0属于该区间,我们可以断言在95%的置信 水平下,该观察差不是统计显著的。
i i z
序 号 1 2 3 4 5 6 7 8 9 10
KNN的例子(1)
姓名 Kristina Jim Maggie Martha Stephanie Bob Kathy Dave Worth Steven 性别 女 男 女 女 女 男 女 男 男 男 身高 1.6 2 1.9 1.88 1.7 1.85 1.6 1.7 2.2 2.1 类别 矮 高 中等 中等 矮 中等 矮 矮 高 高
1.85
1.6 1.7 2.2 2.1 1.8 1.95 1.9 1.8 1.75
中等
矮 矮 高 高 中等 中等 中等 中等 中等
•对第7个记录d=< Kathy,女,1.6>,得到 N={<Kristina,女, 1.6>、< Bob,男, 1.85>、< Kathy,女,1.6>、< Martha, 女,1.88>和< Stephanie,女,1.7>}。 •对第8个记录d=< Dave,男,1.7>,得到 N={<Kristina,女, 1.6>、< Dave,男, 1.7>、< Kathy,女,1.6>、< Bob,男, 1.85>和< Stephanie,女,1.7>}。 •对第9和10个记录,没变化。 •对第11个记录d=< Debbie,女,1.8>,得 到N={<Kristina,女, 1.6>、< Dave,男, 1.7>、< Kathy,女,1.6>、< Debbie,女, 1.8>和< Stephanie,女,1.7>}。 •对第12到14个记录,没变化。
“高度”用于计算距离,K=5,对<Pat,女, 1.6>分类。
•N={<Kristina,女, 1.6>、< Dave,男, 1.7>、< Kathy,女,1.6>、< Debbie,女, 1.8>和< Stephanie,女,1.7>}。 •对第15个记录d=< Wynette,女,1.75>, 得到N={<Kristina,女, 1.6>、< Dave, 男,1.7>、< Kathy,女,1.6>、< Wynette,女,1.75>和< Stephanie,女, 1.7>}。
(三)明斯基距离 是欧几里得距离和曼哈坦距离的概化
d (a, b) x a1 xb1
p
x a 2 xb 2
p
x an xbn
p

1/ p
其中p是一个正整数, 当p=1时,它表示曼哈坦距 离;当p=2时,它表示欧几里得距离。 (四)加权的明斯基距离 如果对每一个变量根据其重要性赋予一个权重,就得到加权 的明考斯基距离。
比较分类器的方法
1.估计准确度的置信区间 2.比较两个模型的性能 3.比较两种分类法的性能
估计准确度的置信区间
通过将分类任务用二项式实验建模来 推导置信区间。二项式实验的特性如下: 1.N个独立实验,只有两种可能的结果。 2.每个实验成功的概率p是常数。
估计准确度的置信区间
• 令X是模型正确预测的记录数,p是模型真正准 确率。
e1 1 e1 e 2 1 e 2 ˆ n1 n2
2 d 2 d
在置信水平1 % 下,d t 的置信区间为:
ˆ d t d z / 2 d
比较两个模型的性能
例4.5解:错误率的观察差 d 0.15 0.25 0.1 假设 H 0:dt 0对H1:dt 0 估计方差计算如下:
k值的确定
k太小了,最近邻分类器容易受到由于训 练数据中的噪声而产生过分拟合的影响。
那么如何确定 合适的k值呢?
k太大,最近邻分类器可能会误分类测试样例, 因为最近邻列表中可能包含远离其近邻的数据点。
• 确定K的值:通过实验确定。进行若干次 实验,取分类误差率最小的k值。
y ' arg max 多数表决:
• 得到p的置信区间为:
2 2 2 N acc Z / 2 Z / 2 Z / 2 4 Nacc 4 Nacc2 2 2 N Z / 2


下表给出了在不同置信水平下 Z / 2 的值:
1
0.99
2.58
0.98
2.33
0.95
1.96
0.9
1.65
0.8
v ( xi , yi )Dz
w I (v y )
i i
算法
1. 令k是最近邻数目,D是训练样例的集合 ' ' 2. for 每个测试样例 z x , y do 3. 计算z和每个样例 ( x, y) D 之间的距 离 d ( x ' , x) 4. 选择离z最近的k个训练样例的集合Dz D 5. y ' arg max ( x , y )D I (v yi ) v 6.end for
• X服从均差为Np、方差为Np(1-p)的二项分布。
• 准确率acc=X/N服从均值为p、方差为p(1-p)/N 的二项分布
估计准确度的置信区间
• 当N充分大时,用正态分布来近似,推导 出acc的置信区间为:
P ( Z / 2
wenku.baidu.com
acc p Z1 / 2 ) 1 p(1 p) / N
•人种识别
•欧洲人的鼻子、亚洲人的眼睛
•非洲人的肤色、亚洲人的头发
(一)欧几里得距离 欧式距离由对应元素间差值平方和的平方根所表示,即
距离计算方法
设有a和b两个n维向量,xa ( xa1 , xa 2 ,, xan ), xb ( xb1 , xb 2 ,, xbn ) d (a, b) ( xa1 xb1 ) 2 ( xa 2 xb 2 ) 2 ( xan xbn )
比较两种分类法的性能
• 假设用k折交叉验证的方法比较。 • 令 M ij 表示分类技术 Li 在第j次迭代产生的模型。 • 每对模型
M1j
和 M 2 j 在相同的划分j上进行检验。
• 用 e1 j 和 e2 j 分别表示他们的错误率,则 d j e1 j e2 j
比较两种分类法的性能
d • k充分大时, j 服从服从 均值为 d t ,方差为 cv 的正态分布,其中观察的差的总方差用下式 进行估计: 2 k j 1 d j d 2 ˆ d cv k (k 1)
“高度”用于计算距离,K=5,对<Pat,女, 1.6>分类。 •对T前K=5个记录,N={<Kristina,女, 1.6>、< Jim,男,2>、< Maggie,女, 1.9>、< Martha,女,1.88>和< Stephanie,女,1.7>}。 •对第6个记录d=< Bob,男,1.85>,得到 N={<Kristina,女, 1.6>、< Bob,男, 1.85>、< Maggie,女,1.9>、< Martha,女,1.88>和< Stephanie,女, 1.7>}。 •对第7个记录d=< Kathy,女,1.6>,得 到N={<Kristina,女, 1.6>、< Bob,男, 1.85>、< Kathy,女,1.6>、< Martha, 女,1.88>和< Stephanie,女,1.7>}。
(二)曼哈坦距离 对应元素间差值绝对值的和表示,即
d (a, b) xa1 xb1 xa 2 xb 2 xan xbn
欧几里得距离与曼哈坦距离的共同点 d (a, b) 0 (1)即距离是一个非负的数值 d (a, a) 0, d (b, b) 0 (2)自身的距离为0 d (a, b) d (b, a) (3)即距离函数具有对称性 (4)即距离函数满足三角不等式 d (a, b) d (a, k ) d (b, k )
序 号 1 2 3 4 5 6 7 8 9 10
KNN的例子
姓名 Kristina Jim Maggie Martha Stephanie Bob Kathy Dave Worth Steven 性别 女 男 女 女 女 男 女 男 男 男 身高 1.6 2 1.9 1.88 1.7 1.85 1.6 1.7 2.2 2.1 类别 矮 高 中等 中等 矮 中等 矮 矮 高 高
1.28
0.7
1.04
0.5
0.67
Z / 2
比较两个模型的性能
• 模型 M 1 :检验集 D1 记录数 n1 错误率 e1 • 模型 M 2 :检验集 D2 记录数 n2 错误率 e2 目标是检验 e1 与 e2 的观察差是否是统计显著 的。
比较两个模型的性能
• 令 d e1 e2 表示错误率的观测差,则d服从均 值为 d t ,方差为 d2 的正态分布。d的方差为:
相关文档
最新文档