三种常用的缺失值填充方法_刘爱鹏
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三种常用的缺失值填充方法
刘爱鹏
(华北电力大学 北京 102206)
摘 要: 介绍在遇到蛋白质数据链在同源建模中缺失数据需要填充的时候所使用的常用方法,其中包括线性的KNN 、SKNN 方法和非线性的SVD 方法,以及他们相比较起来的优缺点。
关键词: 缺失值;KNN ;SKNN ;SVD
中图分类号:TP311.13 文献标识码:A 文章编号:1671-7597(2011)1210188-01
在生物学发展中对蛋白质的研究越来越多,各种针对蛋白质的同源建其中*就是缺失的数值。我们的就是要找到一个矩阵Y ,使得它可以把模的结构数据的实验研究也越来越多,可是在我们使用同源建模的方法的数据填满,而且能够尽量的近似于原始的数据。
时候,由于蛋白质演化或变异的时候将会出现缺失值的情况。例如经过因为数据是缺失的,我们没有办法得到数据的平均值,我们以 来表PCA 处理降维处理过的蛋白质链可以分为严格保守部分和非保守部分,严示,代表平均值的最大似然估计。于是我们的问题就是要求 ,使格保守部分基本不缺值,大概占60%左右,而非保守部分则会含有缺失得 最小,其中 。我们先把平均值减值,当我们填补缺失值后将能够把可以利用的蛋白质数据链的百分比提高去,为的是免去位移向量的动作,不过现在平均值不知道,所以当作未知到80%左右,所以缺失值的填充问题很重要。针对生物数据缺失值的填充数一起求解。
问题的处理上要与一般的统计方法处理数据的形式不同,需要利用数据之根据SVD 方法,任何一个 的 矩阵都可以分解成
间的关系来准确的,合理的填充缺失值。
近年来,在处理这个问题上出现了一些填充缺失值比较准确地方法,我们另外令
如K 个最近邻的缺失值填充法(KNN )、有序的K 个最近邻填充法(SKNN )和奇异值分解法(SVD )。在这里,我分别的简单介绍下这三种方法。
1 KNN算法
基于K 个最近邻的缺失值填充算法其实是在考虑了生物蛋白质表达数所以我们就不用求整个的矩阵
据之间的相关性,因而预测结果较为准确。通过选定需要多少个最近邻的所以现在我们要求的有三个向量,分别是 , 和 ,蛋白质数据链,根据这些个近邻蛋白质链提供的信息,对缺失数据的目标而且我们只能根据已知的资料求解。我们把问题改成下面的样子:
蛋白质链的缺失值进行预测和估计。
首先我们要计算目标蛋白质链(也就是包含有缺失值的链)与其他链之间的欧式距离,然后在所有计算出来的距离中找到距离目标蛋白质链距离最小的K 个最近邻的蛋白质链,然后对选择出的K 个最近邻蛋白质链赋予与 相比,我们现在要把X 中有值的输入进去,去累加他的误差,并相应的权值,其相应位置(即目标链的缺失值位置)的加权平均值即为目使得误差最小。其实 就是 。
标蛋白质缺失值的估计值。
我们可以把有值的部分拉成一个向量,举个例子:
这个方法的好处就是简单、快速,缺点就是在对缺失数据较多的链填充的时候,性能和准确度不高。
2 SKNN算法
有序的最近邻的缺失值填充算法SKNN 是在KNN 算法的基础上提出而来显然,如果Y 中有P 个位置是有值的,那么我们就会得到一个向量
的,总的来说,两者在选择最近邻的蛋白质链和计算邻近蛋白质链加权系 其中 。当然,经过这样的调整,数的方法都是相同的。不同之处主要是SKNN 算法首先要根据数据集中的各 也必须重新定义为
条链的缺失率进行排序,从缺失率最小的蛋白质链开始填充。还有就是SKNN 算法不仅利用数据集中原有的蛋白质链,它还会将经过填充的蛋白质链也加入到相似的蛋白质的选择范围内。
SKNN 算法是KNN 算法的改进算法,在数据缺失率比较大的情况下具有继续上个例子,如果该矩阵相对应的 是平均值,而且假设
较好的填充效果。
,则 。同时我们也需要对v 和u 做出一点修正
上面的两种方法都是基于线性的方法,在实际应用的时候,都是比较简单,方便的,但是填充精度比其非线性的方法来说都低了很多。
3 SVD算法(wiberg’s method)
这个方法主要是在使用pca 的时候,数据是需要完整的,如果出现了缺失怎么办,那就使用wiberg ’s method ,也就是SVD 算法。
我们先假设有n 个m 维的数据,分别是x 1,x 2,,x n ,令X=
,只是我们还无法直接拿X 来用,因为里面很多的缺失值。给个具体的例子,我们可能要处理这样的数据。
定义B 和G
(下转第165页)
美研制出硼氮基液态储氢材料
美国化学家研制出一种硼氮基液态材料科学研究所的化学教授柳时元(音储氢材料,其能在室温下安全工作,在译)领导的科研团队研制的新储氢材料空气和水中也能保持稳定。
是一个圆环形的名叫硼氮甲基环戊烷的美国化学家研制出一种硼氮基液态硼氢化合物。该材料能在室温下工作、储氢材料,其能在室温下安全工作,在性能稳定。除此之外,该材料还能放空气和水中也能保持稳定,这项技术进氢,放氢过程环保、快速且可控;而步为科学家们攻克现今制约氢经济发展且,在放氢的过程中不会发生相变。该的氢存储和运输难题提供了解决方案。材料使用常见的氯化铁作为催化剂来放相关研究发表在《美国化学学会会刊》
氢,也能将放氢使用的能量加以回收利用。
重要的是,新储氢材料为液态而非固态。柳时元表示,液体氢化物储氢技氨硼烷会形成一个更大的分子并释放出术具有储氢量大,储存、运输、维护、氢气。但氨硼烷是一种固体材料,因保养安全方便,便于利用现有储油和运此,他们通过将环的数量从6环减少到5环输设备,可多次循环使用等优点。这将等结构修改,成功地制造出了这种液态减少全球从化石燃料过渡到氢能经济的的储氢材料,其蒸汽压比较低,而且,成本。“目前,科学家们研制出的储氢材释放氢气并不会改变其液体属性。
料基本上都是金属氢化物、吸附剂材料柳时元表示,新材料适合用于由燃以及氨硼烷等固体材料。液态储氢材料
料电池提供能量的便携式设备中,但这项在线版上。
不仅便于存储和运输,也可以利用现在技术还需要不断改进,主要是提高氢气的氢被人们视作化石燃料的最佳替代流行的液态能源基础设施。”柳时元说。
产量并研制出能效更高的再生机制。
物,但制氢、储氢和氢气的运输一直是研制出该液态储氢材料的关键是化制约氢能发展的重要环节。俄勒冈大学
学方法。刚开始,柳时元团队发现6环的
《科技日报》之,固定另外一边,就可以求出 。反复进行相同的步骤,直到收敛为止。当我们求出 和 的时候,数据重建的工作其实也就大功告成了。
由于SVD 方法是非线性的,它的填充精度比较高,不过区别于线性的权值加成,SVD 是通过迭代完成填充的,在过程中会改变原有的数据,甚至有可能出现不收敛的情况,所以使用的时候要注意收敛的情况。
国家自然科学基金项目(项目批准号:10904111)
为了求 最小,我们将 分别对 和 做偏微分,得
参考文献:
[1]BUTTE AJ,YE J,NIEDERFELLNER G,etal Determining significant fold differences in gene epression analysis[J].Pac.Symp.Biocomput,20
01,6:6-17.
[2]AL IZADEH AA,EISEN MB,DAVIS RE,etal Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling[J].Nature,其中的 和 分别是B 和G 的广义逆矩阵。
2000:403,503-511.
所以当我们真的开始填充数值的时候,我们需要首先猜测一组 、[3]KI-YEOL KM,BYOUNG-JN KM,GWAN-SU YI Reuse of imputed data in 和 并分成两边,一边是 和 ,另一边只放 。开始填充的时候要先固microarray analysis increases imputation efficiency[J].BMC Bioinforma 定其中的一边,假设是 ,那么我们可以算出G ,进而可以求出 。反
Tics 2004,5:160.
(上接第188页)