基因表达数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第8章基因表达数据分析

基因芯片或DNA微阵列等高通量检测技术的发展,可以从全基因组水平定量或定性检测基因转录产物mRNA,获取基因表达的信息。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。基因表达数据中蕴含着基因调控的规律,可以反映细胞当前的生理状态,例如(??)是否恶化、(??)是否对药物有效等。对基因表达数据的分析是生物信息学的重大挑战之一,也是DNA微阵列能够推广应用的关键环节之一。

基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。通过对数据矩阵的分析,回答一些生物学问题,例如,基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发生了显著改变,这些基因受到哪些基因的调节,或者调控哪些其它的基因?哪些基因的表达是条件特异性的,根据它们的行为可以判断细胞的状态(正常或癌变)????等等。对这些问题的回答,结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学(Systems Biology,在附录中增加解释条目!)研究的核心内容。目前,对基因表达数据的分析主要是在三个逐渐复杂的层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,该基因表达水平的变化,来判断它的功能,例如可以确定肿瘤类型特异基因。采用的分析方法可以是统计学中的假设检验等。2、考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络,从机理上解释观察到的基因表达谱。多采用反工程的方法。

本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方法,即表达差异分析和聚类分析;最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。

8.1 基因表达数据的获取

基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平(转录??),这些数据可以用于分析哪些基因的表达发生了改变,它们有何相关性,在不同条件下基因是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析(Serial analysis of gene expression,SAGE)、RT-PCR、EST测序等。目前,最主要的表达数据来自于基因芯片或cDNA微阵列,它们的原理是相同的,利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单链形成双链,这个过程被称为杂交。基本技术是:在一个约1cm2大小的玻璃片上,将称为探针的核苷酸片段固定在上面,这个过程称为芯片制备;从细胞或组织中提取mRNA,通过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交后的芯片,获取荧光强度,分析细胞中的mRNA的相对水平。

8.1.1 cDNA微阵列

cDNA微阵列最早是在1995年,由斯坦福大学研制并应用于基因表达分析的。首先将细胞内的mRNA逆转录成cDNA并分离,然后将分离得到的所有或部分cDNA(通常大于200bp)作为探针,用机器手点到玻璃片上,玻璃片上的每一个点包含一种cDNA分子,这样就制成了cDNA微阵列。固定在玻片上的cDNA探针可以通过测序得到序列或者其来源是已知的。在使用cDNA微阵列时,首先是提取组织或细胞系的mRNA样本,逆转录成cDNA 并用荧光素标记;然后把标记混合物加到cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;然后用激光扫描仪扫描并获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。荧光强度值定量反映了样本中存在的与探针互补的mRNA量,也就是反映了探针对应基因的表达水平。

在制造cDNA微阵列时,点样点的大小是不能保证完全一样的,点的排列也是不规则的,这样要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光系统来纠正点之间的差异。在制备样本时,使用两个样本,一个称为控制样本或对照样本,其cDNA 用红色(Cy5)或绿色(Cy3)荧光素标记,另一个为测量样本,其cDNA用与对照样本不同的绿色或红色荧光素标记。这两个样本按1:1的比例混合,同时与微阵列杂交,杂交后用不同波长的激光扫描,分别获取荧光强度,并成像。来自两个样本的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。因此,cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。通常,在cDNA微阵列实验中对获取的原始图像数据必须进行归一化,例如基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等,通常这些工作由与微阵列扫描系统配套的软件自动完成。为什么要进行归一化?如果用不同荧光素标记的是相同的样本,那么比率Cy5/Cy3(ratio值)的期望值为1,但由于Cy3和Cy5的标记效率不相等,或存在系统噪声等原因,得到的Cy5/Cy3往往不等于1,所以通过归一化可以使之回到1,并调整其它的测量值。归一化方法包括总密度(假设两个样本中的总RNA是相等的)、线性回归、Ratio统计、迭代log(ratio)平均值中心化等。

cDNA微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧光信号强度的比率或者比率取对数,这是一个无量纲的值,可用于比较一组实验中的基因相对表达水平。如果对照样本的信号非常低,那么这个比率就可能很大,因为可能主要是噪声信号,因此它很可能是无意义的,对于这些数据往往看作是不确定的,在后续分析时要注意这些数据,根据需要确定是否保留以及如何赋值。(是否是自己的语言???,或用我们的文章,陆老师)

8.1.2 寡核苷酸芯片

又称为基因芯片、DNA芯片。它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是在片原位合成的。现有产品中应用最广泛的是Affymetrix公司制造的GENECHIP®芯片,它使用一种光掩模技术和传统的DNA合成化学的组合以非常高的密度制造寡核苷酸阵列。例如,Affymetrix公司的Human Genome U133芯片包含了100万个不同的寡核苷酸探针,代表了33000个人类基因。寡核苷酸芯片主要用于DNA多态性检测和基因表达分析,还可以用于微生物基因组的再测序。

寡核苷酸探针的长度通常为20-25bp,在检测mRNA表达水平时可能存在寡核苷酸之间的非特异性交叉杂交的冗余信息,可能会掩盖杂交信号;此外,对于特定的寡核苷酸,信号

相关文档
最新文档