lecture10

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章模式识别系统的评价

Xuegong Zhang, Tsinghua University 1

10.1 监督模式识别方法的错误率估计

10.1.1 训练错误率

几个同义词:

训练错误率(Training Error Rate或简称作Training Error)

视在错误率(Apparent Error)

重代入错误率(re-substitution error)

经验风险

偏乐观

经验风险与期望风险的关系:《统计学习理论》

Xuegong Zhang, Tsinghua University 2

Xuegong Zhang, Tsinghua University 3 10.1.2 测试错误率

独立的测试集

N k

=εˆ

N :测试集样本数;k :测试集错分样本数

最大似然估计

10.1.3 交叉验证

n倍交叉验证(n-fold cross validation)

Xuegong Zhang, Tsinghua University 4

Xuegong Zhang, Tsinghua University 5 留一法交叉验证(Leave-one-out cross-validation 或简称作LOOCV )

10.1.4 自举法与.632估计

B.632=0.368 x AE + 0.632 x B1

1

AE )1(632.wB w B +-=+

10.2 有限样本下错误率的区间估计问题

10.2.1 问题的提出

例如:怎样比较不同方法的性能或不同数据的可分性?

Xuegong Zhang, Tsinghua University 6

问题:Bengio Y & Grandvalet Y , No unbiased estimator of the variance of k-fold cross-validation, Journal of Machine Learning Research, 5: 1089-1105, 2004

Xuegong Zhang, Tsinghua University 7

10.2.2 用扰动重采样估计SVM错误率的置信区间

Bo Jiang, Xuegong Zhang and Tianxi Cai, Estimating the confidence interval for prediction errors of support vector machine classifiers. Journal of Machine Learning Research, 9:521-540, 2008

Xuegong Zhang, Tsinghua University 8

10.3 特征提取与选择对分类器性能估计的影响

样本数目很少时,CV1可能会导致对分类性能的估计偏乐观,极端情况下可能会引导到错误的结论。

Xuegong Zhang, Tsinghua University 9

10.4 从分类的显著性推断特征与类别的关系

Xuegong Zhang, Tsinghua University 10

Xuegong Zhang, Tsinghua University 11

10.5 非监督模式识别系统性能的评价

紧致性(compactness)或一致性(homogeneity)

连接性质(connectedness)

分离度(separation)

Xuegong Zhang, Tsinghua University 12

Silhouette值:同时反映类内距离和类间距离的指标

Dunn指数(Dunn Index)

Xuegong Zhang, Tsinghua University 13

相关文档
最新文档