soap结果格式说明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一 SOAPsnp 介绍
SOAPsnp 是SOAP(短序列分析软件包)的成员之一,它可以根据新测序个体的原
始reads 与已有参考序列的比对结果进行序列的一致性组装,从而达到在全基因组
水平上扫描并检测SNP 的目的。SOAPsnp 根据比对的结果,在综合考虑和分析数据
特征、测序质量以及实验方面存在的影响因素的基础上,利用贝叶斯模型,在实际
观察到的数据基础上计算出每个可能的基因型的似然值,挑选出似然值最大的基因
型作为该测序个体特定位点的基因型,并在此基础上给出一个反映该基因型准确度
的质量值。在一致性序列的基础上,通过筛选和过滤与参考序列存在多态性的位点,
例如要求质量值大于 20,最少有 2 个reads 支持等,来获得可靠的SNP 集合。
二SOAPsnp 参数说明
1.必需参数
-i < 文件型> 输入排序后的SOAP 比对结果。这里的排序有两个意思:一是,输入的文件按照染色体的名字分开,每次只需要输入一个染色体排序的文件;二是,每个文件的内部是按照染色体从小到大的位置排序的。
-d < 文件型> 参考基因组的序列,FASTA格式,和-i 参数染色体的名字对应。
-o < 文件型> 输出一致性序列结果的文件。
2.可选参数([] 中的为默认值)
-z <字符型> 代表质量值的ASCII 码字符,0[@]
-g <双精度型> 整体误差依赖系数,0.0(完全依赖)~1.0 (完全不依赖)[0.9]
-p <双精度型> PCR扩增错误依赖系数,0.0(完全依赖)~1.0 (完全不依赖)[0.5]
-r <双精度型> 新物种纯合SNP 的先验概率[0.0005]
-e <双精度型> 新物种杂合SNP 的先验概率[0.0010]
-t 在先验概率中,设置转换与颠换的比为2 比1
-s <文件型> dbSNPs 信息
-2 指定这个参数会使用dbSNPs信息筛选SNP
-a <双精度型> 如果不知道等位基因的频率信息,优先确认为杂合类型[0.1]
-b <双精度型> 如果不知道等位基因的频率信息,优先确认为纯合SNP[0.05]
-j <双精度型> 如果不知道等位基因的频率信息,不会首先确认为杂合类型[0.02]
-k <双精度型> 如果不知道等位基因的频率信息,不会首先确认纯合类型的频率[0.01]
-u 使用秩和检验计算杂合SNP 的罚分,以提高结果的正确性[off]
-m 单倍体检测模式,这样会确保一致性组装以纯合的形式进行,并且可能需要指定高的纯合率[off]
-n 使用二项式概率检验来确保杂合SNP 类型的准确性[off]
-q 只输出潜在的SNPs。在文本输出模式中使用。[off]
-M <文件型> 输出质量校正矩阵;如果重新运行程序,-l 参数可用来生成新的矩阵。
-I <文件型> 输入已有的质量校正矩阵。该参
数不可以与-M 参数同时使用。
-L <短整型> read的最大长度[45] 。请注意,一旦有些 reads 的长度超过这个参数所设的长度,将导致程序运行的失败。
-Q <短整型> FASTQ文件的最大质量值得分[40] 。
-F <整数型> 输出格式。0:文本型;1:GLFv2 ;2:GPFv2 。[0]
-E <字符串类型> 在GLFv2 格式类型的输出时,标注被指定染色体区域的其他名字。格式如:“ 类型名字1:数据名字1:类型名字2:数据名字2”[]
-T <文件型> 只检测文件中指定范围的一致性序列。这类文件的格式为:
染色体名字\t 起始位点\t 终止位点
染色体名字\t 起始位点\t 终止位点
……
-h 显示以上帮助
三 SOAPsnp 输入格式
该输入文件为SOAP 比对后的排序结果:
82 TTTTCGTATGGTAAAGCCTTGGCCATTTTTGGAGCGTTTTTGGC abbba\aabbba`]aaabaaa^^a_`a`b^aZUD[aZ_^``[YO 72 a 44 + chr2 10 1 C->33G4 44M 33C10
格式说明(从左到右)
1. 编号:read 的编号。
2. read 的序列。如果read 比对上参考序列的负链,会被反向互补为正链。
3. 质量值:序列的质量值,和序列顺序一致,如果 read 反向互补,质量值也会随着改变。
4. 比对上的次数:最优比对的次数。没有比对上的read 将被忽略。
5. a/b:pair-end 比对的标记,表示read 属于来自哪个文件。
6. 长度:read 长度,如果是容缺失的比对,长度将是加上缺失片断的长度。
7. +/-:比对上参考序列的正链或负链。
8. 染色体名称:序列的染色体名称。
9. 位点:第一个碱基在染色体上的位置,从1 开始。
10. 错配的个数。
11. 错配的详细信息 ("C->33G4" 意思是一个错配,在参考序列的位置是第9 列+33 (从0 开始),在参考序列上是C ,read 上是 G,质量值是4。)
12. 比对上的数目("44M" 意思是44个碱基比对上了) 。
13. 对比的细节("33C10" 意思是前33个比对上了,第 34(参考序列上是第九列+34 )个是错配,后面10个还是比对上了)。
四 SOAPsnp 输出格式
1 文本格式
SOAPsnp 输出文件:
chr8 35782 A R 1 A 27 1 2 G 26 1 2 5 0.500000 2.00000 1 5
格式说明(从左到右)
1. 染色体名称。
2. 位点坐标。
3. 参考序列对应位置的碱基。
4. 测序个体的碱基(多种碱基会被写成简并碱基)。
5. 质量值。
6. 似然值最大的碱基(第一碱基)。
7. 似然值最大碱基的平均质量值。
8. 支持该SNP 的read 数 (只包括唯一对比上的reads)。
9. 支持该SNP 的read 数(所有 reads)。
10. 似然值次大的碱基(第二碱基)。
11. 似然值次大的碱基的质量值。
12
. 支持该SNP 的read 数 (只包括唯一对比上的reads)。
13. 支持该SNP 的read 数(所有 reads)。
14. 比对上该位置的所有read 个数。
15. 秩和检验值。
16. 该位点的拷贝数估计值。
17. dbSNP 数据库中是否有该位点,1 表示存在,0 表示不存在。
18. 与此位点最近的另一个SNP 位点的距离。
2 GLFv2 和GPFv2 格式
GLFv2(基因组似然性格式v2)是一个二进制的文件,通常在群体检测 SNP
时使用。
五 程序运行示例
二倍体基因组:
soapsnp -i sortbychr.ch10 -d chr10.fa -o s -M chr10..matrix -u -t -L 100 -s dbSNP.chr10 -2
单倍体基因组(如:性染色体和线粒体)
soapsnp -i sortbychr.ch10 -d chr10.fa -o s -M chrY.matrix -u -t -L 100 -s dbSNP.chr10 -2
群体SNP 检测:
soapsnp -i sortbychr.ch10 -d chr10.fa -o s -M chrY.matrix -L 100 -F 1
说明:-i, -d, -o 为必选参数,其余参数为可选参数,可以根据所研究物种基因组的相关信息进行适当的调整,
如果没有相应的信息建议选择默认参数。例如:通常在跑人类基因组的时候,会使用-s 参数,利用dbSNPs 的信息
来筛选SNP位点;由于 soapsnp 的输出结果文件需要占用很大的存储空间,可以使用-q 参数只输出潜在的SNPs;
-L 参数要设为reads 的最大长度,否则会导致 soapsnp 运行的失败,通常会生成core*文件;群体检测 SNP 时,
使用-F 参数生成glf文件,等等。