化学计量学在生物信息和代谢组学数据分析中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
化学计量学在生物信息和代谢组学数据分析中的应用
本文作者对生物信息学研究以及多维代谢组学数据分析领域中的一些难点问题进行深入研究后,提出了多种化学计量学解决策略,并应用于实际体系的研究。本论文的内容主要涉及到以下几个方面:1.细胞中大部分蛋白质都会同时定位于多个亚细胞器中。
分离蛋白质的混合亚细胞定位分布模式对理解蛋白质功能和其它重要的细胞过程十分关键。对此,我们提出一种非线性建模技术首次用于蛋白质亚细胞定位模式分离。
变量加权支持向量机(variable-weighted support vector machine,VW-SVM)是一种稳健的建模技术,能够实现灵活合理的变量筛选。全局随机优化技术,粒子群优化算法(particle swarm optimization algorithm,PSO),对变量加权值以及支持向量机 SVM模型参数进行协同调节和优化,使VW-SVM成为一种无参数调节的自适应建模方法。
非线性VW-SVM建模方法对大规模荧光蛋白标记图像实现亚细胞定位模式自动分离。结果表明,基于粒子群PSO优化的VW-SVM能够改变建模变量尺度而有效表征亚细胞定位模式。
相比传统支持向量机SVM和现有的模式分离方法,非线性VW-SVM显著改善多位点蛋白质亚细胞定位模式分离性能。2.现代生物成像技术的发展使充分展示多位点蛋白质同时跨越不同亚细胞器的定位分布成为可能。
量化蛋白质在每个亚细胞器中的分布比例有助于理解蛋白质的功能和细胞机理。然而,成像质量会受特定细胞类型影响,导致与蛋白质亚细胞定位模式相关的信息丢失。
为了提高模式识别能力,我们提出了一种新的基于纹理特征描述符的变量加权建模方法。该方法主要提取图像中感兴趣子区域的空间结构特征,有效表征多位点蛋白质亚细胞定位分布模式。
另外,为了实现模型自动化,粒子群算法(PSO)用于优化变量权值和模型结构参数。这样一种无参数调节的计算模型,分别结合线性偏最小二乘PLS和非线性支持向量机SVM两种方法,对细胞荧光显微图像集进行模式分离研究。
结果表明,提出的新计算模型采用空间结构描述符有效表征蛋白质亚细胞定位分布,大大提高了分离精度,在蛋白质的定位分布以及相关研究中显示了巨大的潜力。3.核酸适配体在科学研究、临床医学以及工业中展示了巨大的潜力。
实现这些应用的关键步骤是能够筛选出与感兴趣靶目标具有高亲和力和强特异性的适配体。为了有助于指数富集配体系统进化(systematic evolution of ligands by exponential enrichment,SELEX)实验筛选适配体,我们提出了一种新的核酸序列编码方法,通过重点分析二级结构中环形子结构,实现候选适配体的结构特征提取。
由于环形结构与适配体和靶目标之间的结合亲和力密切相关,因此直接对序列的中心环形子结构编码能够有效表征与适配体亲和力相关的特征。另外,在新的核酸序列编码方法中,序列的核酸组成成分也作为变量以减少序列特征描述的相似性。
采用人肝癌细胞为靶目标,进行高亲和力适配体的识别研究,以验证提出的方法对序列编码的可行性。结果表明,与现有的序列编码方法相比,新提出的编码方法能够显著提升各种模式识别模型的性能。
同时,我们还设计了一组新的非SELEX实验筛选的适配体序列,采用提出的
编码方法结合支持向量机SVM模型进行亲和力预测。5条与SELEX实验筛选的最高亲和力相当的序列的获得,更进一步地证明了新提出的核酸序列编码方法的巨大潜力,以简洁、省时、低成本的计算方式有效地辅助高性能适配体设计和优化,促进与适配体相关的研究和应用发展。
4.基于GC-MS的尿液代谢组学分析结合化学计量学方法用于新生儿代谢缺陷(inborn errors of metabolism,IEMs)的早期诊断。新生儿代谢缺陷IEMs是一种遗传疾病,会导致严重的精神和身体损伤,甚至是婴儿猝死。
正交偏最小二乘判别分析(orthogonal partial least squares discriminant analysis,OPLS-DA)是一种有效的多元统计方法,广泛用于代谢组学数据分析。然而,代谢组学数据不断增长的规模和复杂度通常会降低正交偏最小二乘判别分析OPLS-DA模型的性能。
为此,我们提出了一种新的算法HPSO-OPLSDA,利用混合粒子群算法(hybrid particle swarm optimization,HPSO)同时筛选最优变量子集以及相关的变量权值,同时确定最合适的正交成分个数,以提升OPLS-DA模型的性能。对两种新生儿代谢缺陷IEMs疾病,甲基丙二酸血症(methylmalonic acidemia,MMA)和异戊酸血症(isovaleric acidemia,IVA)进行研究,结果表明相比传统的OPLS-DA模
型,HPSO-OPLSDA新算法显著提升疾病婴儿尿液样本与正常婴儿尿液样本的鉴别能力。
并且,HPSO-OPLSDA方法筛选的标志性代谢物有助于新生儿代谢缺陷IEMs的临床诊断,其中甲基丙二酸血症MMA的标志物为甲基丙二酸、甲基枸橼酸和3-羟基丙酸,异戊酸血症IVA的标志物为异戊酸。5.代谢数据复杂度的不断增加使得化学计量学成为提取相关重要信息不可或缺的工具。
正交偏最小二乘判别分析(OPLS-DA)是目前代谢组学数据分析最有效方法之一。但是,OPLS-DA的实际建模性能通常因过多的变量和过少的样本而受到影响。
为了改善这种情况,混合粒子群算法(HPSO)自动配置OPLS-DA的结构,同时
确定合适的样本权值、筛选最优变量子集,以及最好的正交成分个数,形成新算法以提高OPLS-DA的建模性能。结合基于气相色谱-质谱联用GC-MS的代谢组学,
新算法用于识别新生儿代谢缺陷(IEMs)患者与健康婴儿。
结果表明,相比传统的OPLS-DA,新算法不仅显著提高识别率,而且确定了有
助于诊断甲基丙二酸血症(methylmalonic acidemia,MMA)和异戊酸血症(isovaleric acidemia,IVA)的潜在标志性代谢物,包含甲基丙二酸、甲基枸橼酸、3-羟基丙酸和异戊酸。