概率论与数理统计中 方差与协方差 在数据分析中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率论与数理统计中方差与协方差在数据分析中的应用
作者:罗齐
关键字
数据分析概率论与数理统计方差协方差
摘要
在实验过程中,通常会得到大量的原始数据。本文简要介绍了如何使用概率论与数理统计学中的方差以及协方差的概念,对数据进行初步的分析,以从纷乱繁杂的原始数据中,得到相对重要的,低冗余的,可供进一步使用的数据。
正文
在科学实验中,一般情况下,我们会得到大量的复杂的数据。这些数据中来自多个方面,既包含有用的信息,也有噪音和冗余。如何从大量的数据中取出对我们而言有用的信息,从复杂数据中分析出其中隐含的规律和结论,是极其重要的。在下文中,我们使用概率论和数理统计中方差和协方差的概念,分别对噪音和冗余进行简要的分析和讨论。
噪音:
噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能抽取数据中有用的信息。如何衡量一个数据是否是噪音呢?根据相关知识,我们不妨假设,变化较大的信息被认为是信号,变化较小的则是噪音。而一个信息可视作一个随机变量,因此,一个信息的变化程度的大小,即可以转化为对其对应的随机变量的稳定性分析。
由在本学期修读的“概率论与数理统计”课中我学习到,“要进一步的研究问题的实质(分析信息的稳定性),必须了解它(随机变量)的取值与平均值的偏离程度。”
那么,使用什么来表示偏离程度比较合适呢?在这里,我们使用课件中使用的“储蓄所吸收存款额”的例子(具体内容不再列出):“若用随机变量与其数学期望的偏差的期望值来表示这偏离程度”“从计算的结果上看,由于诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差的期望值均为“0”,这样就掩盖了实际偏差的的大小。”
因此,“为了克服诸偏差的正负抵消,真正反映出实际偏差的大小程度,通常采用偏差平方的数学期望来描述随机变量的取值与平均值的偏离程度。”“从计算的结果上看,由于克服了诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差平方的期望值就真正反映出实际偏差的大小程度:甲储蓄所的月吸收存款额比乙储蓄所的月吸收存款额来得“稳定”。”
“通常称用偏差平方的数学期望来描述随机变量的取值与平均值
的偏离程度为“方差”。”
到这里可以得出,衡量一个信号是否是噪音,可通过计算其对应随机变量的方差并与其余信号比较得到。显然的,方差较大,是主信号或主要分量;而方差较小的分布则被认为是噪音或次要分量。
在数据分析中,噪音的衡量有多种方式,最常见的定义是信噪比 (signal-to-noise ratio , SNR),即方差比 :2
noise 2signal
σσ。比较大的信
噪比表示数据的准确度高,而信噪比低则说明数据中的噪音成分比较多。至此,滤除噪音的问题可以简化为,找出一组代表数据,使得其信噪比尽可能大。
冗余
有时在实验中引入了一些不必要的变量,可能会使两种情况:1)该变量对结果没有影响;2)该变量可以用其它变量表示,从而造成数据冗余。从统计学上说,如果两个观测变量是相互独立的,那么可以得到,它们之间的信息没有冗余。但如果两个观测变量相关,那么他们之间肯定存在冗余的信息。剔除高度冗余的信息,对数据的分析是至关重要的一步。而如何判断信息是否存在冗余,以及如何衡量信息之间的冗余程度,使我们接下来要讨论的问题。
在概率论与数理统计课程中,我们引入了协方差的概念:“随机变量的数学期望及方差都只刻画了一个随机变量的某一方面的特征,而协方差与相关系数是刻画两个随机变量之间关系的数字特征。E{[X-E(X)][Y-E(Y)]}.称为随机变量X 与 Y 的协方差,记为:
Cov(X,Y)。”显然,Cov(X,Y)=0,当且仅当X,Y 相对独立。
从协方差的定义中可以打得到,协方差可以表示信息间冗余度的。而在实验中,我们得到的数据往往数量巨大,查阅相关统计学书籍,可得到大量数据协方差的组织表示方法:协方差矩阵。
对于一组具有m 个观测变量,n 个采样时间点的采样数据,将每个观测变量的值写为行向量,可以得到一个m ×n 的矩阵X 。定义协方差矩阵为:T x XX n C 1
1-=。 对协方差矩阵进行分析,容易发现协方差矩阵性质如下:
1.x C 是一个m ×m 的平方对称矩阵。
2.x C 对角线上的元素是对应的观测变量的方差。
3.非对角线上的元素是对应的观测变量之间的协方差。
协方差矩阵包含了所有观测变量之间的相关性度量。更重要的是,
这些相关性度量反映了数据的噪音和冗余的程度。
x C 在对角线上的元素越大,表明信号越强,变量的重要性越高;元素越小则表明可能是
存在的噪音或是次要变量。
x C 在非对角线上的元素大小则对应于相关观测变量对之间冗余程度的大小。
结论
至此,大量信号的分析,通过使用概率论与数理统计中的随机变量,方差,协方差以及矩阵,已经转化成为了对协方差矩阵的优化与分析。
附录
实际上,通过基变换对协方差矩阵进行优化,找到相关“主元”,得到新的基向量所对应的“主元排序”,是PCA(Principal component analysis,主元分析)的主要内容,可以方便的对数据进行光顺、简化处理或是压缩,已有较成熟的理论体系。
本文的相关概念,绝大部分来自概率论与数理统计和数据分析课程。事实上,PCA中的许多相关概念(例如对信号要求为正态分布等),都与概率论与数理统计有密不可分的关系。这进一步表明了概率论与数理统计是日后多种专业学科的不可或缺的一部分。
在学习该门课程半学期之后,对课程中的知识点的应用有一些初步的认识想请老师批评指正,这是本文的撰写目的之一。本文也希望通过使用方差和协方差的基本概念对PCA的一些基础知识的浅显分析,为体现概率论与数理统计这一门学科的重要性和广泛性抛砖引玉。
参考文献
1.《概率论与数理统计》
2.Lindsay I Smith. (2002) “A tutorial on Principal Components Analysis”
3.Jonathon Shlens. (2005) “A Tutorial on Principal Component Analysis”