lecture10
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章模式识别系统的评价
Xuegong Zhang, Tsinghua University 1
10.1 监督模式识别方法的错误率估计
10.1.1 训练错误率
几个同义词:
训练错误率(Training Error Rate或简称作Training Error)
视在错误率(Apparent Error)
重代入错误率(re-substitution error)
经验风险
偏乐观
经验风险与期望风险的关系:《统计学习理论》
Xuegong Zhang, Tsinghua University 2
Xuegong Zhang, Tsinghua University 3 10.1.2 测试错误率
独立的测试集
N k
=εˆ
N :测试集样本数;k :测试集错分样本数
最大似然估计
10.1.3 交叉验证
n倍交叉验证(n-fold cross validation)
Xuegong Zhang, Tsinghua University 4
Xuegong Zhang, Tsinghua University 5 留一法交叉验证(Leave-one-out cross-validation 或简称作LOOCV )
10.1.4 自举法与.632估计
B.632=0.368 x AE + 0.632 x B1
1
AE )1(632.wB w B +-=+
10.2 有限样本下错误率的区间估计问题
10.2.1 问题的提出
例如:怎样比较不同方法的性能或不同数据的可分性?
Xuegong Zhang, Tsinghua University 6
问题:Bengio Y & Grandvalet Y , No unbiased estimator of the variance of k-fold cross-validation, Journal of Machine Learning Research, 5: 1089-1105, 2004
Xuegong Zhang, Tsinghua University 7
10.2.2 用扰动重采样估计SVM错误率的置信区间
Bo Jiang, Xuegong Zhang and Tianxi Cai, Estimating the confidence interval for prediction errors of support vector machine classifiers. Journal of Machine Learning Research, 9:521-540, 2008
Xuegong Zhang, Tsinghua University 8
10.3 特征提取与选择对分类器性能估计的影响
样本数目很少时,CV1可能会导致对分类性能的估计偏乐观,极端情况下可能会引导到错误的结论。
Xuegong Zhang, Tsinghua University 9
10.4 从分类的显著性推断特征与类别的关系
Xuegong Zhang, Tsinghua University 10
Xuegong Zhang, Tsinghua University 11
10.5 非监督模式识别系统性能的评价
紧致性(compactness)或一致性(homogeneity)
连接性质(connectedness)
分离度(separation)
Xuegong Zhang, Tsinghua University 12
Silhouette值:同时反映类内距离和类间距离的指标
Dunn指数(Dunn Index)
Xuegong Zhang, Tsinghua University 13