小样本情况下差异表达基因鉴别的参数统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Fold change
n
! log2( R ( i ) / G ( i ) )
i= 1
n
( 1)
m
! log2( R i ( i ) / G ( i ) )
=
i= 1
m
-
n
! log2( R c( i ) / G ( i ) )
i= 1
n
( 2)
其中, R ( i ) 和 G ( i ) 分别为基因 i 在实验和参照中的
荧光强度。
通过设定特定的临界值判定基因是否具有差异表
达, 如差异表达超过两倍定义为有意义, 在以 2 为底的
对数表达比上为大于 1 或小于- 1。由于差异表达倍
数受极端值的影响, 有研究提出采用强度特异性临界 值作为判断的标准。
2 t 检验( t t est ) t 检验建立在重复测量的基础上, 误差方差的估
本研究中数据的分析采用软件 MAT LAB 6 5 完 成。
结果与分析 1 模拟数据集残差方差的反伽马分布情况
图 1 模拟数据残差方差倒数的伽马 分布拟合直方图
图 1 为其中一个数据集残差方差分布情况, 直方 图为 6000 个基因实际的残差方差倒数的频数分布, 光 滑曲线为根据实际残差估计的伽马分布的参数( v = 3 1868, a= 0 4793) 而构造的理论伽马分布。残差方
差, 即为全局 t 检验( g lobal t test ) 。另外, 介于简单 t
检验和全局 t 检验之间的方法使用两种误差方差的加
* 第二军医大学青年基金资助项目( 2003 SQ 19) 1 第二军医大学卫生统计学教研室( 200433) 2 D ep art ment of M i crobiol ogy & I mmu nology , Wei ll M edi cal Coll ege of Cornell U niv ersi ty, N E W YO RK , USA
其中, y ij 为基因 i 在序列 j 上的对数表达比, xj 为针对
样品的设计向量( 如处理和对照、不同的时间点等) , i
为基因的系数向量, 如对于处理和对照两种状态, 其对
应基因 i 在两种状态下的平均表达水平, ij 为残差, ij
~ N ( 0, - 2 ) 。在贝叶斯分析中, 通常选择反伽马分
设计采用间接设计, 即两组基因表达水平的测量值是
以相同的参照样品为对照得到的。原始实验数据可在
ht tp: / / w w w - stat - class stanford edu/ SAM/ SAM
Servlet 下载。
( 1) 原始资料分析及参数的估计
通过对原始实验资料的分析, 拟合残差方差的分 布参数, 本研究选择反伽马分布作为残差方差的理论
Bg =
log
p 1- p
1 1+ nc
a+
s2g +
M
2 g
a+
s2g+
M
2 g
1+ nc
v+
n 2
( 9)
其中, a 和 v 为方差反伽马先验分布的超参数, c 为非
零均数正态先验分布的超参数, n 为重复数, p 为设定
的差异表达基因的比例。
对数后验比的缺点在于要预先给定差异表达基因
的比例, 但 研究表明 它通常 并不影 响统计 量 B 的顺 序。
)
( 8)
对于绝大多数基因 ∀i = 0( Ig = 0) , 只有极少的一小部 分基因 ∀i % 0( Ig = 1) 。基因 g 为差异表达基因的对
数后验比为Bg =
log
Pr Pr
(Ig= (Ig=
1| 0|
( (
M ij M ij
)) ))
,
通过假设基因
方差和非零均数的联合先验分布, 可以得到
d=
^∀1- ^∀2 ^ p ooled + s 0
( 7) ,
s 0 为样本残差标准误的校正值, 它在基因特异性
t 检验的分母中加入一个较小的正值, 使差异表达具
有较小变化的基因不会因为具有很小的标准误而被误
判为差异表达基因, 减小了基因特异性 t 检验的不稳 定性, 有 效 降低 了 假 阳性 率。T usher, T ibshirant 和 Chu 提出了基于统计量的变异系数最小化的 s0 估计 方法: 在对照基因或染色体规模的微阵列实验中具有 差异表达的基因只占很小的比例, 而大多数基因的表 达都没有差异, 因此这些基因的统计量 d 的变异应很 小, d 的分布应该与基因的表达水平是独立的, 在研究 中选择变异系数, 通过使统计量 d 的变异系数达到最 小而实现对校正值 s0 的估计。Efron, T ibshirani, Goss 和 Chu 采用所有基因样本残差标准误的第 90 百分位 数作为 s 0 的估计取得了较好的结果, 这种方法由于计 算简便而在 SAM 分析中广泛应用。
分布( 这也是 RVM 和对数后验比法的理论基础) , 采
用的估计方法为最大似然估计; 在设定的差异表达比
例下, 分析全部基因在两种状态下的对数表达比的平
均水平及变异情况。
( 2) 理论数据的模拟
用估计的反伽马分布的参数及基因表达的分布参
数, 按照 6% 的差异比例模拟 6000 个基因在两个组别
各 5 次重复的表达比( 本研究模拟间接设计类型) 。具 体方法将另文章详细介绍。
( 5) 对数后验比( 经验贝叶斯对数后验比, empiri
cal Bayes log posterior odds)
假定基因 i 在序列 j 上的对数表达比 Mij 为均数
为 ∀i 、方差为
2 i
正态分布的随机观测值(
经证实这种
假定是合理的) , 即
Mij | ∀i ,
2i ~ N ( ∀i ,
2 i
∀ 142 ∀
Chinese Journal of Health St at ist ics, Jun 2005, Vol. 22, N o. 3
权平均, 即校正 t 检验( regularized t t est ) 。 ( 3) 随机方差模型( random variance model) 不同基因的误差方差不同, 假定它们是某种分布
2) ^ n-
2 p ooled
2) +
+2 2a
b-
1
,
( 6)
^ p ooled =
( n1-
1) 1+ ( n 2n 1+ n 2- 2
1)
2,
自由度 v = n - 2+ 2a
( 4) SAM ( sig nificance analysis of microarrays)
SAM 的检验统计量
形式的随机样本, 通过观察实际资料中每个基因的误 差方差, 估计其分布形式, 然后根据此分布对单个基因 的残差平方和进行调整。这样, 方差的估计建立在多 个基因的基础上, 可以得到给定基因残差方差的较佳 估计, 有效地提高了方差估计的自由度。考虑的模型 形式为
yij = x#j i + ij
( 4)
计为基因特异性的, 即用于检验某基因是否具有差异 表达的 t 值的误差方差的估计仅使用该基因在两种条
件下测量值, 而独立于其他基因。
ti =
( Fold change) i SEi
( 3)
ห้องสมุดไป่ตู้
其中, SE i 为基因 i 对数表达比的标准误。
建立在小样本基础上的误差方差估计的稳定性受
到影响, 有研究在假定所有基因误差方差相等的前提 下, 使用所有基因的误差方差替代基因特异性误差方
∀ 143 ∀
差的实际分布与理论反伽马分布间的符合情况较好, 拟合 优度检验 的 P > 0 05 ( 统 计量 # 2 = 49 32, v = 39) 。另外, 在对另外 4 个数据集的分析中也发现同样 的规律, 因此可以用反伽马分布拟合残差方差分布。
2 各统计量的特征 采用 5 种方法对数据集进行分析, 图 2 中 5 个直 方图显示了针对其中一个数据集 5 个统计量的分布, 除 B 统计量外, 其余四个统计量的分布都近似正态分 布, 只是分布的右侧拖尾比较明显, 这部分拖尾数据是 差异表达基因形成的, 而其余的绝大部分分布为非差 异表达基因, 图 2 的右下子图为 B 统计量, 它的分布 呈凹型下降, 另外通过与无差异表达基因的分布比较, 发现它同样具有较为明显的拖尾现象。因此, 从统计 量的分布来看, 它们基本反映了数据集中是否包含差 异表达基因及其比例的信息, 但仅从直方图上尚不能 比较几种方法的优劣。图 2 左上子图为 该数据集中 6000 个基因的差异表达倍数相对于标准误的散点图, 用于说明数据的基本特征, 在各标准误水平上基因在 差异倍数为 0 上下较为均匀地分布, 而设定的差异表 达基因在此散点图上也得以较为明显的体现, 即图中 最上部与整体脱离的点。
关键词 差异表达基因 随机方差模型 SA M 对数后验比法
微阵列技术可以同时测量成千上万条基因的表达 水平, 具有较广泛的应用领域, 如了解基因间的相互作 用, 寻找不同表型的差异表达基因, 及检测疾病或药物 刺激因素下基因表达的变化规律等。但由于微阵列实 验的影响因素众多, 其技术重复性较差, 且通常的芯片 试验中的生物学重复数又较少。最传统的差异表达基 因的鉴别方法为倍数法、t 检验/ F 检验, 倍数法通过 对基因在两种状态下的对数表达比界定一个界值来判 断其是否具有差异表达; t 检验/ F 检验是指对每个基 因在两种/ 多种状态下的表达的差异进行独立的统计 学检验; 两种方法简单而直观, 但倍数法受极端值的影 响较大, 而极端值是微阵列实验中的常见现象; t 检验 / 方差分析在样本标准误较小的情况下, 即使表达均数 间的差值并不大, 也可能得到很大的 t 值而被判断为 差异表达, 造成假阳性, 而大量基因中不可避免有部分 基因的标准误很小。于是基于一定的理论提出了一些 新的差异表达基因的鉴别方法。本文以实际实验资料 为背景进行理论数据模拟, 在此基础上较为系统地探 讨了随机方 差模型、SAM ( signif icance analysis of mi croarray) 和对数后验比法的特征和性能, 并与倍数法 和 t 检验进行了比较。
中国卫生统计 2005 年 6 月第 22 卷第 3 期
∀ 141 ∀
小样本情况下差异表达基因鉴别的参数统计分析*
贺宪民1 武建虎1 贺 佳1 X iang Zhaoy ing 2
提 要 目的 探索小样本情况下基于不同理论的统 计方法在 鉴别差 异表达 基因时 的性能。方 法 以 实验资 料
为基础, 估计残差方差的分布参数、基因的平均表达及差异表达水平, 按照一定差异比例模拟理 论数据, 用于分析 倍数法、 t 检验、随机方差模型、SAM 及对数后验比法的性 能及特 征。结果 随机 方差模 型、SAM 及对数 后验比 法在鉴 别差异 表 达基因的准确性上 相近, 均高于 t 检验和倍数 法, t 检 验又稍高 于倍数法。结 论 倍数 法的性能受 极端值的 影响严重, t 检验在基因特异性标准误较小情况下增加鉴别的假阳性率, 而随机方差模型、SA M 和对 数后验比 法由于统计 量的计算 建 立在多基因的基础上, 鉴别的准确性较高 。
共建立 5 个模拟数据集: 每个数据集都包含 6000
个基因在两个条件下的各 5 次重复测量, 差异基因的
比例为 6% 。
( 3) 不同方法差异表达基因的鉴别及性能比较 分别采用 5 种差异表达基因鉴别方法对 5 个模拟
中国卫生统计 2005 年 6 月第 22 卷第 3 期
数据集进行分析, 比较不同方法的特点和鉴别差异表 达基因的性能。
2 研究步骤
针对具体资料进行的不同方法性能的比较, 结果
的可信性和结论的泛化性能必然受到影响, 而建立在
完全模拟数据基础上的方法探讨又往往脱离其生物学
背景, 本文根据实验数据估计相应的参数, 为模拟数据
参数的 选择 提供依 据。原 始实验 设计 的背 景: 检测
6000 个基因中在 2 种条件下有差异表达的基因, 试验
原理与方法
1 差异表达基因的鉴别方法 ( 1) 倍数法( f old change) 倍数法是鉴别差异表达基因最简单的方法。差异 表达倍数通常使用基因在两种条件下的表达比或对数 表达比表示, 当有重复时, 为重复观测上的均数。对于 直接和间接试验设计, 差异表达的倍数分别为
直接设计:
Fold change = 间接设计:
布作为方差的先验分布, 即
P(
- 2= x ) ~
G
(
x
,
a,
b)
∃
x a-
1ex p( - x !( a) ba
/
b)
(
5)
在随机方差模型中,
比较均数为
^∀1
和
^∀2、方差为
^
2 1
和 ^ 22、例数为 n 1 和 n2 的两个样本差异的统计量
t = ^∀1- ^∀2 ,
1 n1
+
1 n2
=
(
n
(
n
! log2( R ( i ) / G ( i ) )
i= 1
n
( 1)
m
! log2( R i ( i ) / G ( i ) )
=
i= 1
m
-
n
! log2( R c( i ) / G ( i ) )
i= 1
n
( 2)
其中, R ( i ) 和 G ( i ) 分别为基因 i 在实验和参照中的
荧光强度。
通过设定特定的临界值判定基因是否具有差异表
达, 如差异表达超过两倍定义为有意义, 在以 2 为底的
对数表达比上为大于 1 或小于- 1。由于差异表达倍
数受极端值的影响, 有研究提出采用强度特异性临界 值作为判断的标准。
2 t 检验( t t est ) t 检验建立在重复测量的基础上, 误差方差的估
本研究中数据的分析采用软件 MAT LAB 6 5 完 成。
结果与分析 1 模拟数据集残差方差的反伽马分布情况
图 1 模拟数据残差方差倒数的伽马 分布拟合直方图
图 1 为其中一个数据集残差方差分布情况, 直方 图为 6000 个基因实际的残差方差倒数的频数分布, 光 滑曲线为根据实际残差估计的伽马分布的参数( v = 3 1868, a= 0 4793) 而构造的理论伽马分布。残差方
差, 即为全局 t 检验( g lobal t test ) 。另外, 介于简单 t
检验和全局 t 检验之间的方法使用两种误差方差的加
* 第二军医大学青年基金资助项目( 2003 SQ 19) 1 第二军医大学卫生统计学教研室( 200433) 2 D ep art ment of M i crobiol ogy & I mmu nology , Wei ll M edi cal Coll ege of Cornell U niv ersi ty, N E W YO RK , USA
其中, y ij 为基因 i 在序列 j 上的对数表达比, xj 为针对
样品的设计向量( 如处理和对照、不同的时间点等) , i
为基因的系数向量, 如对于处理和对照两种状态, 其对
应基因 i 在两种状态下的平均表达水平, ij 为残差, ij
~ N ( 0, - 2 ) 。在贝叶斯分析中, 通常选择反伽马分
设计采用间接设计, 即两组基因表达水平的测量值是
以相同的参照样品为对照得到的。原始实验数据可在
ht tp: / / w w w - stat - class stanford edu/ SAM/ SAM
Servlet 下载。
( 1) 原始资料分析及参数的估计
通过对原始实验资料的分析, 拟合残差方差的分 布参数, 本研究选择反伽马分布作为残差方差的理论
Bg =
log
p 1- p
1 1+ nc
a+
s2g +
M
2 g
a+
s2g+
M
2 g
1+ nc
v+
n 2
( 9)
其中, a 和 v 为方差反伽马先验分布的超参数, c 为非
零均数正态先验分布的超参数, n 为重复数, p 为设定
的差异表达基因的比例。
对数后验比的缺点在于要预先给定差异表达基因
的比例, 但 研究表明 它通常 并不影 响统计 量 B 的顺 序。
)
( 8)
对于绝大多数基因 ∀i = 0( Ig = 0) , 只有极少的一小部 分基因 ∀i % 0( Ig = 1) 。基因 g 为差异表达基因的对
数后验比为Bg =
log
Pr Pr
(Ig= (Ig=
1| 0|
( (
M ij M ij
)) ))
,
通过假设基因
方差和非零均数的联合先验分布, 可以得到
d=
^∀1- ^∀2 ^ p ooled + s 0
( 7) ,
s 0 为样本残差标准误的校正值, 它在基因特异性
t 检验的分母中加入一个较小的正值, 使差异表达具
有较小变化的基因不会因为具有很小的标准误而被误
判为差异表达基因, 减小了基因特异性 t 检验的不稳 定性, 有 效 降低 了 假 阳性 率。T usher, T ibshirant 和 Chu 提出了基于统计量的变异系数最小化的 s0 估计 方法: 在对照基因或染色体规模的微阵列实验中具有 差异表达的基因只占很小的比例, 而大多数基因的表 达都没有差异, 因此这些基因的统计量 d 的变异应很 小, d 的分布应该与基因的表达水平是独立的, 在研究 中选择变异系数, 通过使统计量 d 的变异系数达到最 小而实现对校正值 s0 的估计。Efron, T ibshirani, Goss 和 Chu 采用所有基因样本残差标准误的第 90 百分位 数作为 s 0 的估计取得了较好的结果, 这种方法由于计 算简便而在 SAM 分析中广泛应用。
分布( 这也是 RVM 和对数后验比法的理论基础) , 采
用的估计方法为最大似然估计; 在设定的差异表达比
例下, 分析全部基因在两种状态下的对数表达比的平
均水平及变异情况。
( 2) 理论数据的模拟
用估计的反伽马分布的参数及基因表达的分布参
数, 按照 6% 的差异比例模拟 6000 个基因在两个组别
各 5 次重复的表达比( 本研究模拟间接设计类型) 。具 体方法将另文章详细介绍。
( 5) 对数后验比( 经验贝叶斯对数后验比, empiri
cal Bayes log posterior odds)
假定基因 i 在序列 j 上的对数表达比 Mij 为均数
为 ∀i 、方差为
2 i
正态分布的随机观测值(
经证实这种
假定是合理的) , 即
Mij | ∀i ,
2i ~ N ( ∀i ,
2 i
∀ 142 ∀
Chinese Journal of Health St at ist ics, Jun 2005, Vol. 22, N o. 3
权平均, 即校正 t 检验( regularized t t est ) 。 ( 3) 随机方差模型( random variance model) 不同基因的误差方差不同, 假定它们是某种分布
2) ^ n-
2 p ooled
2) +
+2 2a
b-
1
,
( 6)
^ p ooled =
( n1-
1) 1+ ( n 2n 1+ n 2- 2
1)
2,
自由度 v = n - 2+ 2a
( 4) SAM ( sig nificance analysis of microarrays)
SAM 的检验统计量
形式的随机样本, 通过观察实际资料中每个基因的误 差方差, 估计其分布形式, 然后根据此分布对单个基因 的残差平方和进行调整。这样, 方差的估计建立在多 个基因的基础上, 可以得到给定基因残差方差的较佳 估计, 有效地提高了方差估计的自由度。考虑的模型 形式为
yij = x#j i + ij
( 4)
计为基因特异性的, 即用于检验某基因是否具有差异 表达的 t 值的误差方差的估计仅使用该基因在两种条
件下测量值, 而独立于其他基因。
ti =
( Fold change) i SEi
( 3)
ห้องสมุดไป่ตู้
其中, SE i 为基因 i 对数表达比的标准误。
建立在小样本基础上的误差方差估计的稳定性受
到影响, 有研究在假定所有基因误差方差相等的前提 下, 使用所有基因的误差方差替代基因特异性误差方
∀ 143 ∀
差的实际分布与理论反伽马分布间的符合情况较好, 拟合 优度检验 的 P > 0 05 ( 统 计量 # 2 = 49 32, v = 39) 。另外, 在对另外 4 个数据集的分析中也发现同样 的规律, 因此可以用反伽马分布拟合残差方差分布。
2 各统计量的特征 采用 5 种方法对数据集进行分析, 图 2 中 5 个直 方图显示了针对其中一个数据集 5 个统计量的分布, 除 B 统计量外, 其余四个统计量的分布都近似正态分 布, 只是分布的右侧拖尾比较明显, 这部分拖尾数据是 差异表达基因形成的, 而其余的绝大部分分布为非差 异表达基因, 图 2 的右下子图为 B 统计量, 它的分布 呈凹型下降, 另外通过与无差异表达基因的分布比较, 发现它同样具有较为明显的拖尾现象。因此, 从统计 量的分布来看, 它们基本反映了数据集中是否包含差 异表达基因及其比例的信息, 但仅从直方图上尚不能 比较几种方法的优劣。图 2 左上子图为 该数据集中 6000 个基因的差异表达倍数相对于标准误的散点图, 用于说明数据的基本特征, 在各标准误水平上基因在 差异倍数为 0 上下较为均匀地分布, 而设定的差异表 达基因在此散点图上也得以较为明显的体现, 即图中 最上部与整体脱离的点。
关键词 差异表达基因 随机方差模型 SA M 对数后验比法
微阵列技术可以同时测量成千上万条基因的表达 水平, 具有较广泛的应用领域, 如了解基因间的相互作 用, 寻找不同表型的差异表达基因, 及检测疾病或药物 刺激因素下基因表达的变化规律等。但由于微阵列实 验的影响因素众多, 其技术重复性较差, 且通常的芯片 试验中的生物学重复数又较少。最传统的差异表达基 因的鉴别方法为倍数法、t 检验/ F 检验, 倍数法通过 对基因在两种状态下的对数表达比界定一个界值来判 断其是否具有差异表达; t 检验/ F 检验是指对每个基 因在两种/ 多种状态下的表达的差异进行独立的统计 学检验; 两种方法简单而直观, 但倍数法受极端值的影 响较大, 而极端值是微阵列实验中的常见现象; t 检验 / 方差分析在样本标准误较小的情况下, 即使表达均数 间的差值并不大, 也可能得到很大的 t 值而被判断为 差异表达, 造成假阳性, 而大量基因中不可避免有部分 基因的标准误很小。于是基于一定的理论提出了一些 新的差异表达基因的鉴别方法。本文以实际实验资料 为背景进行理论数据模拟, 在此基础上较为系统地探 讨了随机方 差模型、SAM ( signif icance analysis of mi croarray) 和对数后验比法的特征和性能, 并与倍数法 和 t 检验进行了比较。
中国卫生统计 2005 年 6 月第 22 卷第 3 期
∀ 141 ∀
小样本情况下差异表达基因鉴别的参数统计分析*
贺宪民1 武建虎1 贺 佳1 X iang Zhaoy ing 2
提 要 目的 探索小样本情况下基于不同理论的统 计方法在 鉴别差 异表达 基因时 的性能。方 法 以 实验资 料
为基础, 估计残差方差的分布参数、基因的平均表达及差异表达水平, 按照一定差异比例模拟理 论数据, 用于分析 倍数法、 t 检验、随机方差模型、SAM 及对数后验比法的性 能及特 征。结果 随机 方差模 型、SAM 及对数 后验比 法在鉴 别差异 表 达基因的准确性上 相近, 均高于 t 检验和倍数 法, t 检 验又稍高 于倍数法。结 论 倍数 法的性能受 极端值的 影响严重, t 检验在基因特异性标准误较小情况下增加鉴别的假阳性率, 而随机方差模型、SA M 和对 数后验比 法由于统计 量的计算 建 立在多基因的基础上, 鉴别的准确性较高 。
共建立 5 个模拟数据集: 每个数据集都包含 6000
个基因在两个条件下的各 5 次重复测量, 差异基因的
比例为 6% 。
( 3) 不同方法差异表达基因的鉴别及性能比较 分别采用 5 种差异表达基因鉴别方法对 5 个模拟
中国卫生统计 2005 年 6 月第 22 卷第 3 期
数据集进行分析, 比较不同方法的特点和鉴别差异表 达基因的性能。
2 研究步骤
针对具体资料进行的不同方法性能的比较, 结果
的可信性和结论的泛化性能必然受到影响, 而建立在
完全模拟数据基础上的方法探讨又往往脱离其生物学
背景, 本文根据实验数据估计相应的参数, 为模拟数据
参数的 选择 提供依 据。原 始实验 设计 的背 景: 检测
6000 个基因中在 2 种条件下有差异表达的基因, 试验
原理与方法
1 差异表达基因的鉴别方法 ( 1) 倍数法( f old change) 倍数法是鉴别差异表达基因最简单的方法。差异 表达倍数通常使用基因在两种条件下的表达比或对数 表达比表示, 当有重复时, 为重复观测上的均数。对于 直接和间接试验设计, 差异表达的倍数分别为
直接设计:
Fold change = 间接设计:
布作为方差的先验分布, 即
P(
- 2= x ) ~
G
(
x
,
a,
b)
∃
x a-
1ex p( - x !( a) ba
/
b)
(
5)
在随机方差模型中,
比较均数为
^∀1
和
^∀2、方差为
^
2 1
和 ^ 22、例数为 n 1 和 n2 的两个样本差异的统计量
t = ^∀1- ^∀2 ,
1 n1
+
1 n2
=
(
n
(