基因芯片实验设计的影响因素
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因芯片实验设计的影响因素
基因芯片对于同时研究成千上万的基因表达是一个强有力的技术,这种新技术在生物学、农学、医学等都有重要的应用,但严谨的实验设计是充分发挥基因芯片技术优势的基础[1]。基因芯片实验同其它实验设计一样需要考虑因素与水平,但基因芯片实验又有它的特殊性,因此为了减少基因芯片实验和数据分析的误差,仔细地进行实验设计显得尤为重要。我们以自己研究的经验为基础结合国外研究动态对基因芯片实验设计探讨如下。
1研究目的是实验设计的基础
基因表达谱的差异包括三层[2],一是生物差异(上层):生物差异是所有生物的内在本质,除遗传和环境因素影响外与样本有密切的关系。如不同人群中的个体差异、同一个体不同标本之间的差异。二是技术差异(中层):技术差异是由于样本的提取、标记和杂交等引起的差异,如同样的mRNA样本不同标记反应之间的差异等。三是测量误差(下层):测量误差是与阅读荧光信号相关,因为荧光信号可能被芯片上的灰尘等所影响。基因表达谱的研究目的就是要寻找生物差异,故实验设计的目的是尽量减少技术差异和测量差异对实验的影响,从而使数据的分析和结果的解释尽可能简单有力。基因芯片实验设计的问题包括决定样本标记什么样的染料?那些样品在同一张芯片上杂交?另外如果RNA样本有限,或者芯片数目有限制(如研究经费不足),我们又应当如何设计实验等一系列问题。但基因芯片设计最重要取决于研究的目的,只有当研究的设计与目的一致时我们才可能达到我们的研究目的[3,4],基因芯片实验的研究目的包括如下三方面。
1.1 类别比较(class comparison)
类别比较是指对一些类别已经明确的实验样本之间进行基因表达谱的比较。比如Hedenfalk et al[5]比较Brca1基因突变乳腺癌、Brca2基因突变乳腺癌以及没有上述基因突变的乳腺癌之间的差异基因表达谱。Golub et al [6]对急性淋巴细胞白血病和急性粒细胞白血病之间的基因表达差异。Ross et al [7]比较了来源于不同组织的癌细胞的差异表达等。人们通过这些实验主要想达到三个目的:一是这些不同种类样本之间是否存在差异基因表达谱,二是哪些基因在不同种类样本之间存在差异表达;三是通过筛选基因的表达水平对不同样本进行判断,从而降低误判率。
1.2 预兆预报(prognostic prediction)
一些芯片研究是为了探测在基因表达谱和临床结果之间是否存在关系,以便进一步研制基于基因表达谱基础上的预兆预报系统[8]。例如一些药物遗传学研究企图知道那些患者在有效剂量内可能中毒等。1.3 类别找寻(class discovery)
基因芯片研究的另一个目的就是类别找寻,这是基于样本之间存在重要的生物学差异,比如临床和形态上的相似可能在分子上获得区别[9]。又如肿瘤通常以原发的器官而命名,亚型是以细胞的类型进行分类。通常以形态学和组织学不能探测起源细胞。很多有关癌症的基因芯片研究目的就在于肿瘤的分类,这些研究可能揭示疾病的生物特点,通过鉴定治疗的分子靶标为改进疾病的治疗铺平道路。
2 基本的实验设计方案
2.1 单因子实验设计(single-factor experiment design)
单因子实验是指整个试验中只比较一个试验因子不同水平的试验。单因子试验方案由该试验因子的所有水平构成。基因芯片的单因子实验设计包括直接与间接比较,所有的双色基因芯片检测都是成对比
较,比如治疗和非治疗之间、突变和野生型生物或者来源于不同组织的细胞之间的比较等。如图1,假如我们想比较样本T 和C 的基因表达水平,就可以在同一张基因芯片上进行比较。差异基因表达可以通过Log 2T/C 来计算,Log 2T 和Log 2C 的值来自样本T 和C 。由于它们来自于同一杂交,我们称之为直接比较。另外Log 2T 和Log 2C 可以在2个杂交中获得,T 和C 的检测都通过与另一样本R 的比较获得,Log 2T/C 值为Log 2(T/R)-Log 2(C/R)所代替。由于Log 2T 和Log 2C 值来自于2个杂交,故称为间接比较。具体可分为如下3类[10]。
2.1.1 参照设计(common reference resign)
由于每一检测样本与参照样本配对杂交,故样本量等于芯片数,参照样品作为内参标准。检测样本标记为一种颜色,参照样品标记为另一种颜色。如图2所示A 组样本A1、A2和B 组样本B1、B2都标记为红色,对照品R 标记为绿色。因为通常没有生物学意义的参照样品都在每张芯片测量,故增加了实验的干扰降低了实验的灵敏性;但它的优点是利于任何分组样本的差异基因表达分析,另外如果没有大的实验技术上的差异,使用相同参照的不同实验理论上可以相互比较。如果将欲比较的一方样本混合后再与另一方各样本比较则称为混合样本的参照设计(pooled reference sample ),混合样本参照对于小量RNA 样本的比较是有利的,不同基因的表达量在样本混合后将起到平均的作用,缺点是混合样本掩盖了生物的多样性。
2.1.2 平衡区组设计(balanced block design)
平衡设计多用于二组样本之间的比较,首先对两组样本进行任意配对,用红色、绿色染料交替标记二组检测样本,如图3,A1、A2、A3、A4分别标记为红色、绿色、红色、绿色。B1、B2、B3、B4则分别标记为绿色、红色、绿色、红色。芯片数目是参照设计的一半。其缺点是如果二组之间样本不相等或者比较的样本超过二组,则必须进行复杂的修改。如果研究者想进行诸如聚类等分类,芯片引入了人为的相关性因素可能会影响聚类分析的结果。以肿瘤和正常组织比较为例,如果我们不考虑正常组织之间的差异,则平衡设计是研究正常组织与肿瘤组织之间差异的好方法。
2.1.3 环形设计(loop design)
环形设计要求每一个样本都标记二种颜色(红色、绿色),并分别与另外二个样本杂交(图4),它要求和参照设计同样的芯片数目。如果芯片数目固定,则环形设计就不如平衡设计效率高;但是如果只有二组样本时,则比参照设计效率高。环形设计不适合于聚类分析,而且由于实验技术的原因导致某些芯片数据的不可靠就会打断环形,寻找合适的统计方法就变得非常困难,所以一般尽量不选用环形设计。
参照设计、平衡设计和环形设计都能够提供客观的差异基因表达,但是它们的效率不是一样的,实验设计的有效率是与统计的要求的精度是相关的[11]。实验设计的选择依赖于样本的数目和芯片的数量,比如只能负担20张芯片,应当如何设计芯片实验;如果只有12
个样本,又应当怎样设计芯片实验?Dobbin 红色 绿色红色 绿色