NGSv1.0(FBAT部分)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

FBAT 软件
1. 背景
目前，人们对单基因病以及复杂疾病的关联研究主要是采用基于人群的GW AS 分析（case-control study ）。

但是，GW AS 分析往往价格昂贵，而且对于一些稀有的疾病来说，很难找到足够的病人样本来进行GW AS 分析。

而这些疾病往往具有家族遗传性，因此，基于家系的关联研究关联分析技术在这个时候就显得尤为重要。

由哈佛大学和Golden Helix INC 联合开发的FBAT 软件是目前应用最为广泛的基于家系的统计分析工具。

[1]它可以将病人的家系信息应用到关联分析中来，而且可以处理父母基因型丢失、多重性状、数量性状等复杂情况。

下载地址：/~fbat/fbat.htm
从上面可以选择不同的操作系统版本下载软件。

下面的几个文件是软件说明，比较长，但提供信息很详实。

2. 基本原理
2.1 传递不平衡检验(Transmission Disequilibrium Test, TDT)
本质上，TDT 检验的是病患子女某个位点的基因型频率和按照孟德尔遗传规律的预期
值之间的差异。

举例说明，父亲的基因型是AA ，母亲的基因型是AB ，则子女的基因频率预期为()12P AA =，()1P AB =。

观察值和预期值之间就可以运用不同模型做统计检验。

TDT 分析的优势在于可以排除人群混杂对于关联分析的影响, 其弱点在于其发现阳性关联的检验效能低于相同样本量的病例对照研究。

2.2 FBA T/PBA T
FBAT 是基于TDT 原理的一个升级版分析软件。

将多家系和大家族等因素考虑到模型
之中，大大增强了实用性。

假设我们有N 个家系，以下标i 来编号，家系中有i n 个后代，以1,2,3...i j n =编号。

对于某个位点有，零假设0H ：本家系中，该位点和疾病没有关联。

以X 代表基因型（0/1/2编码；如果是多碱基杂合的情况，转换成向量；下面统一以向量处理），根据父母的基因型，基于零假设，我们可以推断出病患子女在这个位点基因型的概率，记为()()j P g P g g ==；T 代表性状（ij ij T Y μ=-，ij Y 代表原始的性状信息，可以是数量也可以是0/1编码；μ为一参数，数量性状是μ应取各样品的平均值），定义
1
i
n i ij ij j S X T ==∑
[()]i i i U S E S =-∑ ()()i i V Var U Var S ==∑[2]
2
2FBAT U V χ=
在样品量足够大的时候，近似地22
~(1)FBAT χχ[3]，由此我们就可以做统计检验，并计
算p-value ，再根据p 值去判断某个位点是否与疾病相关。

而PBAT 相当是FBAT 的升级版
本，除了提供质量性状（Qualitative trait ）和数量性状（Quantitative trait ）的关联分析，也能提供相关的功效计算。

3. 使用方法及其实例
以下以windows 版本的FBAT 软件 (v2.0.3) 为例说明一下它的使用方法。

3.1 输入文件
一般输入文件为*.ped格式，具体格式如下：
格式说明：第一行是SNP位点编号。

从第二行开始，每一行代表一个样本的信息。

每一列的内容分别代表的意思是：家庭编号，样本编号，父亲编号，母亲编号（这两个如果没有就用0表示），性别（1=男，2=女），患病程度（2 = affected, 1 = unaffected, 0 = unknown），第一个marker基因型（1、2表示显、隐性，0表示missing，每个marker的基因型占两个数字，比如1 1表示显性纯合）
格式英文版：
3.2使用界面
FBAT设计了一个命令行界面，所有操作都由命令完成。

3.3 设置输出文件(log)
通过这个设置，所有屏幕显示内容将被保存在screensave.txt这个文件里面。

3.4 输入文件(load)
通过这个操作，可以输入CAMP.ped文件，下面是系统读取的文件信息。

3.5开始分析(fbat)
输入fbat命令开始分析。

屏幕显示的就是分析结果，输出结果会将每个位点的显、隐性等位基因分别显示。

fam#指的是在这个位点能提供有效数据的家庭数。

3.6 帮助(?)
这里将显示所有命令及其意义。

3.7 退出(quit)
退出，程序窗口将自动关闭。

4.参数
4.1
4.2 参数意义及修改
Displayp (默认p值) p值高于这个值的位点将不予显示
Minsize (最小家庭数) 提供信息的家庭数小于这个值的位点将不予显示
Model (？) &……%￥
Mode (模式选择) *****
Trait (&&&) ((&*(&*(
修改参数方法：输入命令——参数名，空格，新参数值。

修改参数后，再次输入fbat 即可用新的参数重新计算。

5. 影响因素
5.1. 数据规模
理论上，可以提供信息的父母子三角大于10，就能满足
22~(1)FBAT χχ[3],但是在统计学上，不清楚具体分布的情况下，使用中心极限定理，通常要求抽样超过30次[4]，此处应
理解为可以提供信息的父母子三角数大于30。

而数据规模会对家系分析的效率（Power ）有所影响。

下面是一个模拟的实验，观察可以提供信息的家庭的数目（假设每个家庭都是由父母子组成的trio ）对基于家系的关联分析效率的影响。

假设在理想状态，即遗传标记于致病基因上，流行病的流行率0.1K =，致病等位基因频率0.078A f =，相乘模型，贡献度0.25AF =；罕见病的流行率0.05K =，致病等位基因频率
0.05A f =，相乘模型，贡献度0.25AF =。

我们可以看到，随着家庭数目的增加，FBAT/PBA T 的功效有一个比较明显的提高。

另一方面，我们可以看出基于家系的关联分析对罕见疾病的功效相对明显。

如果以Power=0.8作为标准，我们不难看出FBAT/PBAT 分析对于样本量大小的要求分别为：90 Families (Common Disease), 70 Families (Rare Disease).
5.2. 家系成员
每个家系的组成成分对基于家系的关联分析有着潜在的影响，因为当父母缺失的时候，我们需要多子女来弥补这个缺失，下面我们的power 估算将会围绕这一因素展开。

罕见疾病：流行率0.05K =，相乘模型，致病等位基因频率0.05A f =，贡献0.25AF =，
（相对风险1 4.655rr =，2
16.76rr =）。

显著限0.01α=。

[5]
流行疾病：流行率0.1K =，相乘模型，致病等位基因频率0.078A f =，贡献0.25AF =，
（相对风险1 3.555rr =，224.76rr =）。

显著限0.01α=。

[5][3] 三种家系类型分别为，经典的核心家庭（trio, 病患后代以及其父母），患病兄弟对（DSP ，兄弟姐妹俩，没有父母，必须其中一人患病，另一人无病），三患病后代无父母，三小孩无父母（一人患病）。

我们利用PBAT 自带的0/1性状功效计算器，使用Monte-Carlo 模拟得到功效值。

我们可以看到，如果一个家庭有三个小孩患病而没有父母信息，我们可以从中得到很高功效的结果。

但是这种情况往往并不常见，更多的三口之家的家庭结构功效略低于前者。

而如果有三个小孩中，其中只有一个患病，通过对这三个小孩的测序，也可以达到与trio相仿的功效。

值得一提的是，如果父母的基因型缺失，如果我们能够得到患病兄弟对的基因型，通过FBAT/PBAT的分析也仍然可以得到具有相当功效的结果，只是对兄弟对的数量有一定的要求。

5.3. 特殊家系
医学上，一些非常罕见的遗传疾病，如Schinzel-Giedion Syndrome等疾病，无法进行大规模的人群研究，那么就只能着眼于几个情况比较特殊的家庭，例如父母无病而后代得病的情况。

由于取样的特殊性，可以大大地提高TDT检验的功效，在较小样本量的情况下也能有效地检测出高风险的基因。

[7]
6. 讨论
2006年4月，由Alan Herbert等人通过基于家系的关联分析，轰动一时的肥胖基因INSIG2得以被发现。

[8]从此之后关于这个基因的争论也从未停息。

2007年Smith等人，已经证明了INSIG2在高加索人、加勒比黑人、印度人与肥胖无关。

[9]至于INSIG2是否与肥胖有关，还有待进一步的验证。

基于家系的关联分析所得到的SNP位点在人群无法被验证，已经是屡见不鲜。

疾病的成因有很多，包括遗传因素和环境因素。

SNP得不到验证，本质问题不在基于家系还是人群，而是在于GW AS。

关联分析是基于CVCD[10]假说，根据连锁不平衡原理。

所以关联分析环境和条件控制不好也可以得到一些荒谬的结论。

[11]
6.参考文献
[1]复杂疾病全基因组关联研究进展——遗传统计分析; 严卫丽; DOI: 10.3724/SP.J.1005.2008.00543
[2] The family based association test method: computing means and variances for general statistics; Steve Horvath, Xin Xu, Nan M. Laird
[3] Family-based designs in the age of large-scale gene-association studies; Nan M. Laird, Christoph Lange; Nature Reviews Genetics, May 2006, V ol 7, 385-194
[4] 统计学（第三版）；贾俊平，何晓群，金勇进；ISBN 7-300-07751-X/F·2635
[5]Power Calculations for a General Class of Family-Based Association Tests: Dichotomous Traits；Christoph Lange, Nan M. Laird; American Journey Human Genetics 71:575–584, 2002 模拟实验参数
[6]/~purcell/gpc/dtdt.html功效计算器
[7] De novo mutations of SETBP1 cause Schinzel-Giedion syndrome; Nature Genetics: Published online 2 May 2010; doi:10.1038/ng.581
[8] A Common Genetic Variant Is Associated with Adult and Childhood Obesity; Alan Herbert, Michael F. Christman; SCIENCE VOL 312 14 APRIL 2006 P279-283
[9] INSIG2 gene polymorphism is not associated with obesity in Caucasian, Afro-Caribbean and Indian subjects; A J P Smith, J A Cooper, L K Li and S E Humphries; International Journal of Obesity (2007) 31, 1753–1755; doi:10.1038/sj.ijo.0803645
[10] CVCD=common variation, common disease
[11]遗传学中的统计方法;李照海，覃红，张洪；。