主基因+多基因混合遗传模型分析步骤-2012

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

有些同学来问如何运用主基因+多基因混合遗传模型来做遗传分析，虽然这种分析在今天看来更多的被QTL所替代，但是还是有同学分析会用到，所以我把个人使用的心得小结出来，与大家交流分享。

主基因+多基因混合遗传模型可以确定控制性状的基因数目，估计遗传效应值及遗传率。

这个软件可以对单个分离世代进行分析，也可以对多个世代进行联合分析。

分析可以分为一步法和两步法。

这个软件都是DOS命令，每个不同分析群体都有各自的分析程序，使用时要依据自己的群体类型选择适合的小程序。

现在，仅以F2单独世代的一步法分析为例说明：
一数据准备
首先，建立一个TXT文件。

比如a.txt
其次，将F2群体每个单株的数据输入txt文件中，可以不必有编号，仅用数据即可。

如下为F2群体的穗粒数数据文本文件格式。

二运行程序
选择应用程序F2_1
双击程序图标，打开，然后按照提示，依次输入期望值（0.0001），群体大小（你自己的群体单株数），文件名及所在路径（F2_1.txt）。

（一定注意输入正确路径及文件的名称及后缀）回车即开始运行。

运行后的数据自动存在该应用程序的同一文件夹下。

下图为程序对话：
程序正在运行中。

下图为运行的结果文件
三结果分析
结果文件中各项内容的说明
文件中共有模型A_0，A_1,A_2,A_3,A_4,B_1...到B_6。

现以一个模型（B_1）为例，说明各项的含义。

这是B_1的输出内容：
model B_1 The esp value = 0.000100
mean[1]=94.032539 mean[2]=73.406349 mean[3]=55.520161 mean[4]=54.413528 mean[5]=54.062317 mean[6]=53.886269 mean[7]=53.780346
mean[8]=53.707722 mean[9]=53.656750
sigma=129.892151
mix[1]=0.059402 mix[2]=0.127216 mix[3]=0.062568 mix[4]=0.125135 mix[5]=0.250271 mix[6]=0.125136 mix[7]=0.062568 mix[8]=0.125136 mix[9]=0.062568
Max-likelihood-value=-1829.820068 AIC=3679.640137
U1= 0.012(0.9130) U2= 0.009(0.9248) U3= 0.002(0.9633)
W = 0.1063 D = 0.0437(n=443,CD(0.05)=0.0648)
The esp value指迭代收敛值：就是之前输入的0.0001
mean[1]等，指各分布成分的平均数（专业说法为分离群体所剖分成的成分分布的平均数）以后估算遗传参数时用得上。

这里由于B_1模型是9个分布成分，所以一共有mean[1]到mean[9] 9个数据。

sigma=129.892151指分布方差为129.892151
mix[1]等指分布成分的比值，（专业说法为最终迭代后不同成分分布所占的比例）它理论上的mean与分布方差的比值。

比如，mix[1]对应的是mean[1]/ sigma=94.032539/129.892151=0.059402，同理，其它的mix[2]- mix[9]都是如此。

这个值在后面的遗传参数估计时也是用的上的。

Max-likelihood-value=-1829.820068 AIC=3679.640137
分别指最大似然值与AIC值。

用于遗传模型的选定。

对于模型的选定是此分析方法的首要任务，只有遗传模型确定了，才能根据选定的遗传模型进行后续的遗传参数的估计。

那么，遗传模型的选定标准是AIC值最小原则，就是依据每个模型对于的AIC值来选定最适的模型。

当然，遗传模型的选定标准还有另一个，就是适合性测验。

下面的数据就是用于适合性测验的。

适合性测验包括三个检验，U12 U22 U32（均匀性检验）nW2（Smirnov检验）和Dn(Kolmogorov检验) ，然后将选择统计量达到显著水平个数最少的模型作为最优模型。

U1= 0.012(0.9130) U2= 0.009(0.9248) U3= 0.002(0.9633)
W = 0.1063 D = 0.0437(n=443,CD(0.05)=0.0648)
这里的U1，U2，U3，W，D 是BIC值，它们都是适合性测验所使用的评判参数。

四整体的分析思路
以上对数据的含义做一个简单的说明，下面大体说一下整体的分析思路：
首先就是最适遗传模型的确定：运用的是Max-likelihood-value=-1829.820068 AIC=3679.640137和U1= 0.012(0.9130) U2= 0.009(0.9248) U3= 0.002(0.9633)W = 0.1063 D = 0.0437(n=443,CD(0.05)=0.0648)数据。

然后对所选定的遗传模型中的mean，sigma，mix值对遗传参数进行估价。

五具体数据举例：
（1）首先，对结果文件中的每个模型的Max-likelihood-value和AIC值汇总为表
表1 F2单个分离世代在不同遗传模型下的极大似然函数值和AIC值
模型Modle 极大似然函数Max-likelihood-values AIC 值AIC values A-0 -1850.662720 3705.325439
A-1 -1838.670288 3685.340576
A-2 -1850.667358 3707.334717
A-3 -1850.664429 3709.32885
A-4 -1838.670288 3685.340576
B-1 -1829.820068 3679.640137
B-2 -1838.668945 3689.337891
B-3 -1850.670044 3709.340088
B-4 -1850.665527 3707.331055
B-5 -1850.664795 3709.329590
B-6 -1850.664795 3707.329590
根据AIC值最小准则，选取AIC值最小及与最小AIC值比较接近的遗传模型作为备选最适
模型。

这里，可以看出B-1模型的AIC值最低，为3679.640137，也可以同时再选出几个与
之接近的模型作为备选模型。

比如A-1模型AIC值相对较低3685.340576，A-4模型AIC值
相对较低3685.340576，B-2模型AIC值相对较低3689.337891，都可以作为备选最适模型。

（2）模型适合性测验：
表2 F2单个分离世代穗粒数分析最适遗传模型是适合性检
模型群体U12U22U32nW2Dn B-1 F2 0.012(0.9130) 0.009(0.9248) 0.002(0.9633) 0.1063(<0.05) 0.0437(>0.05) A-1 F2 0.085(0.7708) 0.418(0.5179) 2.125(0.1449) 0.1564(<0.05) 0.0497(>0.05) A-4 F2 0.085(0.7704) 0.419(0.5175) 2.127(0.1447) 0.1566(<0.05) 0.0497(>0.05) B-2 F2 0.085(0.7708) 0.418(0.5179) 2.126(0.1448) 0.1565(<0.05) 0.0497(>0.05) （U12 U22 U32（均匀性检验）；nW2（Smirnov检验）；Dn(Kolmogorov检验)；U12 、U22、U32
后括号中的数字为概率水平，nW2、Dn后括号中的数字为显著性标准）
利用U12 U22 U32（均匀性检验）nW2（Smirnov检验）和Dn(Kolmogorov检验)对这4个备
选模型的F2世代进行适合性检验（表2），选择统计量达到显著水平个数最少的模型作为最
优模型。

需要注意的是，这里计算结果给出的是U1，U2，U3，W，D的数值，要转化为U12 U22 U32
nW2 Dn，需要做相应的运算（平方，乘积，开方等）后，再进行显著水平的检验。

U12 U22 U32
（均匀性检验）直接看括号里的数值与0.05相比即可，nW2（Smirnov检验）和Dn (Kolmogorov检验)检验需要参考书上（页）的表。

来评定大于或者小于0.05.这样，对于一
个模型来说，做了5个大于或者小于号的判定，最终来比较不同模型哪个大于号最少，哪个
就最适合。

这里，4个模型的大于号都是4个，一样多，所以在适合性测验的结果是一样的，那么就根
据哪个模型的AIC值最小来确定最适模型了。

结果发现4种模型在nW2检验中均达到显著水平（P<0.05），其它统计量均未达到显著水平，
但B-1模型的AIC值最小，因此，B-1模型可以作为该群体的最适遗传模型，说明此群体穗
粒数的遗传是受2对主基因控制的，并且表现为主基因加性-显性-上位性效应。

（3）遗传参数估计
下面列出的这个表，需要根据B-1模型的数值填，这里的分布均值是mean值，分布方差是
sigma，分布权重是分布均值/分布方差的值，在结果中找到对应的数据填到表格里就行了。

写论文的时候需要列出这个表（来凑字数的，嘿嘿），由混合遗传分析得到了2对主基因B-1
遗传模型的各种参数分布（表3）。

从表中可以看出，主基因9成分分布比列为1：2：1：2：4：2：1：2：1，与理论分布比例一致。

表3 最适遗传模型参数表
然后，对最适遗传模型中主基因遗传参数的估计
首先，计算一阶参数，即各遗传效应。

运用Excel 计算即可。

下面的μ1-μ9就是分布均值的成分分布1-9，也是对应的mean[1]到mean[9], μ1 94.03 μ2 73.41 μ3 55.52 μ4 54.41 μ5 54.06 μ6 53.89 μ7 53.78 μ8
53.71 μ9 53.66
根据下面的公式，把μ值代入，即可计算相应的一阶分布参数。

一阶分布参数
群体平均数 m=0.25(μ1+μ3+μ7+μ9) AA 的加性效应 da =0.25(μ1+μ3-μ7-μ9) BB 的加性效应 d b 0.25(μ1-μ3+μ7-μ9)
Aa 的显性效应 ha 0.25(-μ1-μ3+2μ4+2μ6-μ7-μ9) Bb 的显性效应 h b 0.25(-μ1+2μ2-μ3-μ7+2μ8-μ9) 加加效应 i 0.25(μ1-μ3-μ7+μ9)
加显效应 j ab 0.25(-μ1+2μ2-μ3-μ7-2μ8+μ9) 显加效应
j ba
0.25(-μ1+μ3+2μ4-2μ6-μ7+μ9)
显显效应
l 0.25(μ1-2μ2+μ3-2μ4+4μ5-2μ6+μ7-2μ8+μ9) 最后，再计算二阶参数，即遗传方差及遗传率。

将计算出的一阶参数各项的值代入公式即可。

成分分布1 AABB 成分分布2 AABb 成分分布3 AAbb 成分分布4 AaBB 成分分布5 AaBb 成分分布6 Aabb 成分分布7 aaBB 成分分布8 aaBb 成分分布9 aabb 分布均值
94.03 73.41 55.52 54.41 54.06 53.89 53.78 53.71 53.66 分布方差
129.89 129.89 129.89 129.89 129.89 129.89 129.89 129.89 129.89 分布权重
0.06
0.13
0.06
0.13
0.25
0.13
0.06
0.13
0.06
F2群体的主基因遗传方差σ2
σ2= 0.25[ da2+db2+ i2+ (da+jab)2+(db+jba)2+(ha+0.5l)2+(hb+0.5l)2+0.25l2 ]
F2群体的表型方差σ2，是根据表型数据运用Excel或者SAS计算出来的。

我是用SAS计算的结果，σp2= 249.514458
遗传率h2=σmg2/σp2
h2=170.7636492/249.514458=0.68.438=68.438%
终于写完了，其实这个软件用起来很简单，只是我的表述过于啰嗦了，本人也只是较少涉及一些，大家在实际中遇到的很多问题还需要请教精通此领域的老师同学，文中所写错误及不妥之处，请多多指正。

所有的内容都源自盖钧镒先生的书《植物数量性状遗传体系》中，同学们在以后的应用还是要仔细研究此本书才是！。