基因表达谱数据分析技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场

革命，通过它可以同时观测成千上万个基因的表达水平，从而能够在基因组水平上以系统的、

全局的观念去研究生命现象及其本质。还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等，因此对基因表达谱的研究具有重要的理论价值和应用意义。微阵列基因表达数据具有维数高、样本小、非线性的特点，这对一些传统的机器学习方法提出了新的挑战，对其数据的分析已成为生物信息学研究的焦点。

1基因表达数据采集

基因表达数据采集可分为三个步骤：微阵列设计、

图像分析和数据获取、过滤、标准化。基因芯片（gene chip ），简称为微阵列,就是指固着在载体上的高密度

DNA 微点阵，具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。mRNA （信使核糖核酸）的表达水平的获得是通过选取来自不同状态的样本（如正常组织与肿瘤组织、不同发育阶段组织，或用药之前与用药之后组织等，一种称为实验样本，另外一种称为参考样本），在逆转录过程中,实验样本和参考样本RNA （核糖核酸）分别用不同的红、绿荧光染料去标记，并将它们混合，与微阵列上的探针序列进行杂交，经适当的洗脱步骤与激光扫描仪对芯片进行扫描，获得对应于每种荧光的荧光强度图像，通过专用的图像分析软件，可获得微阵列上每个点的红、绿荧光强度（Cy5和Cy3），其比值（Cy5/Cy3）表示该基因在实验样本中的表达水平。在通常情况下，考虑Cy5和Cy3的数值时，还应考虑相应的背景数值，如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低，则该基因的表达水平无法确定。为了方便数据处理，常

孟令梅等：一种基于DCT 变换的图像认证算法文章编号：1005－1228（2010）06－0017－03

基因表达谱数据分析技术

刘

玲

（江苏财经职业技术学院，江苏淮安

223001）

摘

要：人类基因组计划的研究已进入后基因组时代，后基因组时代研究的焦点已经从测序转向功能研究，主要采用无监

督和有监督技术来分析基因表达谱和识别基因功能，通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示，说明生命功能在基因表达层面的展现，对目前基因表达谱数据分析技术及它们的发展，进行了综述性的研究，分析了它们的优缺点,提出了解决问题的思路和方法，为基因表达谱的进一步研究提供了新的途径。关键词：基因表达谱；分类；无监督；有监督；基因调控网络中图分类号：Q81；TP181

文献标识码：A

Gene Expression Data Analysis

LIU Ling

（Jiangsu Vocational College of Finance &Econimics ，huai ’an 223001,China ）

Abstract ：As the work of sequencing the genome of the human has been fully finished,the post-genomic era has begun.Scientists are turning their focus toward identifying gene function from sequencing.Clustering technology,as one of the important tools of analyzing gene expression data and identifying gene function,has been used widely.Transcriptive regulatory networks are the global representation of multiple interactions between genes and their products ,which can help us understand the cell ’s function at the level of gene expression In this paper we discuss main clustering technology about gene expression data at present,analyze their advantages and disadvantages ,present the methods to solve the problems and given approaches to study gene expression data.

Key words:gene expression profile ；

classification ；gene regulatory network Vol．18No．6Dec 2010

第18卷第6期2010年12月

电脑与信息技术Computer and Information Technology

收稿日期：

2010-06-09项目资助：

江苏省淮安市科技发展计划项目(HAG08015）作者简介：

刘玲（1964-），山东胶州人，副教授，硕士，主要研究方向:生物信息。

电脑与信息技术2010年12月

以数值1表示该基因的表达水平，或直接以Null（即缺省值）表示。在做具体数据分析时，可通过降低维数办法来处理缺省值。另外，为了反映某个基因表达水平在实验样本和参考样本中的倍数关系，通常对上述比值进行以2为底的对数变换即以log2（Cy5/Cy3）表示该基因的表达水平。通过基因芯片所获得的多个基因在不同生理过程中的一组表达数据,即为基因表达谱，通常表达数据用矩阵形式保存。

2基因表达数据分析

总的来说，基因表达数据分析可分三个层次[4]：单基因分析，找出差异基因表达；多基因分析，按基因的共同功能、相互作用等进行分析；系统水平分析，建立基因调控网来分析和理解生命现象。研究方法有两种类型：一种是以聚类分析为代表的无监督的方法,不需要附加的类别信息，从距离矩阵出发将相似的模式聚为同类,从而实现对原始数据结构的概括和提炼；另一种是有监督的方法,除了基因表达谱数据之外,还需要知道研究对象的类别信息,如基因的功能分类或样品的病理分类。有监督方法将基因表达数据视作对象的特征观察值通过构建分类器来预测由这些特征决定的类别标签。图1是基因芯片数据分析处理过程。

图1基因数据分析和处理流程图

2.1无监督分析方法

聚类分析是一种典型的无监督学习方法[5-6]，在基因表达谱研究中，常用的数据聚类方法有分层聚类、K 均值聚类、自组织图、主成份分析等。

分层聚类[7]是应用最多的非监督基因表达谱聚类分析方法之一。分层聚类方法是将基因表达谱矩阵的每一列或者每一行看作一个向量（高维空间的一个点），根据这些向量之间的距离或者某种相关性度量进行聚类。

K均值聚类[8]是一种传统的统计聚类方法。该算法的基本思想是首先任意设定K个类中心的初始值,然后分别计算每个样本与各个类中心的欧氏距离，并将它归到距离最近的类中心代表的那一个类，再计算每个类中样本点的平均点,并以此取代原来的类中心，依次下去，直到类中心都不再变化，算法终止，并得到了分类结果。

自组织图分析[9]是人工神经网络应用于聚类分析中的例子。实际上，非监督聚类方法远非这3种方法，许多非监督聚类方法都被应用到基因表达谱数据的分析上，例如基于密度的DBSCAN算法、OPTICS算法、DENCLUE算法等，基于网格的STING算法、CLIQUE 算法、WAVE-CLUSTER算法。尽管在对疾病或生物特性方面已经取得了许多有意义的结果，但传统的非监督聚类方法在基因表达谱分析中却存在着下述3点不足：（1）当对不同样本进行实验获得基因表达谱时，存在着噪声的干扰，但现在对于噪声还没有很好的处理方法，仅能做的就是对每个样本的基因表达谱进行归一化处理。

（2）在对基因表达谱数据进行聚类时，不管对基因还是对样本，所考虑向量的维数都相当高,而样本个数却相对较少，对于这种情况，很多方法是无法使用的，而且即使能够直接使用，其效果也很不稳定，并且分类的性能也很难评价。

（3）传统的非监督聚类都需要给定数据中的类别个数，否则聚类是无意义的。而实际中会出现数据中的类别数是隐含的，很难明确知道这一信息，这种情况下的聚类就变得相当困难。

这3点是目前非监督聚类方法无法或难于克服的问题。因此基因表达谱的分析迫切要求建立新的更有效的有监督分析方法。

2.2有监督的分析方法

有监督的表达谱分析方法[10-11]的任务是构建一个分类器来预测表达谱数据的类别，具体方法有线性判别、决策树、神经网络和支持向量机（SVM）[12]等。例如对于两种不同类型的肿瘤，常规的形态学分型方法无法区别，但是利用有监督的方法可以按照他们的表达谱数据构建一个有较好区分度的分类器，这对于肿瘤的诊断是非常有意义的。一般来讲，分类器的构建过程是首先设计一个机器学习算法的模型，用类别已知的训练数据集来训练这个模型的参数，使训练好的分类

器对训练数据集具有较低的回代错误率，对未知样本·18·