数据取对数的意义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据取对数的意义

时间:2013-11-06 01:23 浏览:2238人

平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做就是基于对数函数在其定义域内就是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

平时在一些数据处理中,经常会把原始数据取对数后进一步处理。

之所以这样做就是基于对数函数在其定义域内就是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有: 1、缩小数据的绝对数值,方便计算。

例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率就是非常大的数字。

2、取对数后,可以将乘法计算转换称加法计算。

3、某些情况下,在数据的整个值域中的在不同区间的差异带

来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这就是因为,如果某两个字的频率分别都就是500,频率与为1000,另外两个字的频率分别为200与800,如果单纯比较频率与都就是相等的,但就是取对数后,log500=2、69897, log200=2、30103, log800=2、90308 这时候前者为2log500=5、39794, 后者为log200+log800=5、20411,这时前者的与更大,取前者。因为前面两个词频率都就是500,可见都比较常见。后面有个词频就是200,说明不太常见,所以选择前者。

从log函数的图像可以瞧到,自变量x的值越小,函数值y的变化越快,还就是前面的例子,同样就是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

也就就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也就是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响您决策,但就是您买汽车时相差几百元您会忽略不计了。

4、取对数之后不会改变数据的性质与相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1、2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

5、且所得到的数据易消除异方差问题。

6、在经济学中,常取自然对数再做回归,这时回归方程为lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X,

e l=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好就是弹性的定义。dlnY/dlnX=(DY/Y)/(DX/X)

当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般就是水平量,而不就是比例数据,例如变化率等。

相关文档
最新文档