机器学习基础篇——均方误差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习基础篇——均方误差
MSE(Mean Square Error 均方误差):
首先先回顾复习几个概念:
1)方差:方差是在概率论和统计方差衡量随机变量或一组数据的离散程度的度量方式,方差越大,离散度越大。
求解方式为,各随机变量与平均值差值的平方和的平均数(先求差,再平方,再平均)
也可以通过下面这个公式求解方差
2)标准差:标准差就是方差的算术平方根,它反映组内个体间的离散程度。
因此它的过程是与平均值之间进行差值计算。
具体公式为:
3)均方根误差(RMSE):均方根误差也称标准误差,其定义为,i=1,2,3,…n。
在有限测量次数中,均方根误差常用下式表示:,式中:n为测量次数;d i为一组测量值与真值的偏差。
从计算形式上讲,其计算公式与标准差类似,这也是很多人误用、混用标准差与均方根误差的原因,也是我先列出标准差概念的原因。
d i的具体计算为(x i-真实值y),但实际上真值y我们无法得到,因此只能用最接近真实值的近似值代替(但不一定是这组数据的平均值)。
因此标准差是来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差,它们的研究对象和研究目的不同,但是计算过程类似。
4)均方误差:均方误差就是均方根误差的平方运算。
注意:
1.误差通常是指测试值与真实值之间的差。
以上几种公式中求平均我们都是除以n,但实际上我们通常除以n-1,也就是求取样本方差。
具体的数学推理公式如下:
总体方差为σ²,均值为μ
S=[(X1-X)2+(X2-X)2......+(X n-X)2]/(n-1)
X表示样本均值=(X1+X2+......+X n)/n
设A=(X1-X)2+(X2-X)2......+(X n-X)2
E(A)=E[(X1-X)2+(X2-X)2......+(X n-X)2]
=E[X12-2X*X1+X2+X22-2X*X2+X2+......+X n2-2X*X n+X2]
=E[X12+X22......+X n2+nX2-2X*(X1+X2+...+X n)]
=E[X12+X22......+X n2+nX2-2X*(nX)]
=E[X12+X22......+X n2-nX2]
而EX i2=D(X i)+[E(X i)]2=σ²+μ²
EX2=D(X)+[E(X)]2=σ²/n+μ²(
,关于这一点,若总体分布为正态分布时,这样计算是精确的;若总体分布未知,或不是正态分布,只有E(X)=μ,D(X)=σ平方,并且n较大时,这样计算是近似的。
这是条件,若是其他情况这样计算是错误的。
首先用一个系列样本和方差计算常规方法,计算得到的结果是指该个系列样本值的一个估计量,若干个系列估计值的期望,就是“样本均值的方差”的期望,也就是一个“样本均值的方差”的估计量,计算可得该估计量是个无偏估计量,其值恰等于“总体方差除以n”。
简单的说,意义上两者无关,只是计算值相等,属于计算的一个简便方法。
)
所以E(A)=E[(X1-X)2+(X2-X)2......+(X n-X)2]
=n(σ²+μ²)-n(σ²/n+μ²)
=(n-1)σ²
所以为了保证样本方差的无偏性
S=[(X1-X)2+(X2-X)2......+(X n-X)2]/(n-1)
E(S)=(n-1)σ²/(n-1)=σ²(无偏性就是指期望值就是真实值)。