samtools stats结果解读

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

samtools stats结果解读
题目:解读Samtools stats 结果
导言:
Samtools 是一个强大的工具,用于对测序数据进行分析和处理。

其中,Samtools stats 是一个常用的功能,用于统计BAM 或SAM 格式文件的各种统计数据。

本文将详细介绍Samtools stats 的结果解读及其在测序数据分析中的应用。

一、Samtools stats 方法及原理
1.1 Samtools 简介
Samtools 是一个处理和分析比对文件的工具集,包括了许多常用的功能,如格式转换、质量控制、序列比对和数据统计等。

1.2 Samtools stats 的作用
Samtools stats 可以对BAM 或SAM 格式的比对文件进行全面的统计分析,并生成统计结果。

通过分析比对文件的各种统计数据,我们可以深入了解测序数据的质量和性能,并为后续的分析和解读提供基础。

1.3 "samtools stats" 命令的使用
可以使用以下命令运行Samtools stats:
bash
samtools stats <input.bam> > <output.stats>
其中,`<input.bam>` 是输入的比对文件(BAM 格式),
`<output.stats>` 是输出的统计结果文件。

1.4 Samtools stats 的原理
Samtools stats 分析比对文件的每一条比对记录,并将各种统计信息聚合在一起。

它会生成两个类型的输出文件:总的统计结果文件和染色体级别的统计结果文件。

总的统计结果文件包含了关于比对数据集中每一条比对记录的总体统计信息,而染色体级别的统计结果文件则记录了每个染色体或参考序列的统计信息。

二、Samtools stats 的结果解读
2.1 总的统计信息
总的统计信息提供了比对文件中各种统计数据的总体概述。

以下是Samtools stats 输出文件中总的统计信息部分的解读示例:
SN raw total sequences: 248247
SN filtered sequences: 0
SN sequences: 248247
SN is sorted: 1
SN 1st fragments: 247032
SN last fragments: 1215
SN reads mapped: 240685
SN reads mapped and paired: 240685 # paired-end specific SN reads unmapped: 6562
SN reads properly paired: 237751 # paired-end specific SN reads paired: 244546 # paired-end specific SN reads duplicated: 0
SN reads MQ0: 23697 # mapping quality 0 SN reads QC failed: 0
SN non-primary alignments: 0
SN total length: 17730425
SN bases mapped: 17251642
SN bases mapped (cigar): 16710056
SN bases trimmed: 0
SN bases duplicated: 0
SN mismatches: 212704
SN error rate: 0.0120e-01
SN average length: 71
SN maximum length: 151
SN average quality: 34.9
SN insert size average: 313.8
SN insert size standard deviation: 324.6
上述结果中列出了一系列的统计数据,以下是一些重要的指标及其解读:- raw total sequences: 总的测序序列数
- filtered sequences: 经过过滤后的序列数,本例中为0,说明没有进行任何过滤
- sequences: 序列数,与raw total sequences 一致
- is sorted: 比对文件是否已排序,1表示已排序,0表示未排序
- reads mapped: 映射到参考序列的测序序列数
- reads mapped and paired: 成对测序序列经过映射的测序序列数
- reads unmapped: 未映射到任何参考序列的测序序列数
- reads properly paired: 成对测序序列经过映射且正确配对的测序序列数
- reads paired: 成对测序序列数
- reads duplicated: 重复的测序序列数
- reads MQ0: 映射质量为0的测序序列数
- total length: 总的序列长度
- bases mapped: 映射到参考序列的碱基数
- mismatches: 错配碱基数
- error rate: 错误率
- average length: 平均序列长度
- average quality: 平均测序序列质量
- insert size average: 插入片段长度的平均值
- insert size standard deviation: 插入片段长度的标准差
2.2 染色体级别的统计信息
染色体级别的统计信息提供了比对数据在每个染色体或参考序列上的详细信息。

以下是Samtools stats 输出文件中染色体级别的统计信息部分的解读示例:
# This file was produced by samtools stats (1.11+htslib-1.11) and can be plotted using plot-bamstats
# This file contains statistics for all reads.
# The command line was: samtools stats NA12878.sorted.bam
# CHK, Checkpoint; INT, Intermediate data structure.
# If the command line was empty, it is likely that the output is an older format.
# Summary Numbers. Use `grep ^SN cut -f 2-` to extract this part.
SN raw total sequences: 248247
SN filtered sequences: 0
SN sequences: 248247
SN is sorted: 1
SN 1st fragments: 247032
SN last fragments: 1215
SN reads mapped: 240685
SN reads mapped and paired: 240685 # paired-end specific SN reads unmapped: 6562
SN reads properly paired: 237751 # paired-end specific SN reads paired: 244546 # paired-end specific SN reads duplicated: 0
SN reads MQ0: 23697 # mapping quality 0 SN reads QC failed: 0
SN non-primary alignments: 0
SN total length: 17730425
SN bases mapped: 17251642
SN bases mapped (cigar): 16710056
SN bases trimmed: 0
SN bases duplicated: 0
SN mismatches: 212704
SN error rate: 0.0120e-01
SN average length: 71
SN maximum length: 151
SN average quality: 34.9
SN insert size average: 313.8
SN insert size standard deviation: 324.6
# First Fragment Qualities. Use `grep ^FFQ cut -f 2-` to extract this part.
FFQ 0 0 0 0
# Last Fragment Qualities. Use `grep ^LFQ cut -f 2-` to extract this part.
LFQ 0 0 0 0
# Read Length Distribution. Use `grep ^RL cut -f 2-` to extract this part.
RL 70 0.0001 0.0002 0.0003 (151)
# Insert Size Distribution. Use `grep ^IS cut -f 2-` to extract this part.
IS -725 0.0000 0.0001 0.0001 (1898)
# Quality Distribution. Use `grep ^QQ cut -f 2-` to extract this part.
QQ 0 11.9e-04 20.2e-04 ... 50.2
# Indel Distribution. Use `grep ^ID cut -f 2-` to extract this part. ID 0 9 0 0 1 (8)
上述结果中,染色体级别的统计信息包括了以下几个部分:
- First Fragment Qualities: 第一片段质量的统计信息
- Last Fragment Qualities: 最后一片段质量的统计信息
- Read Length Distribution: 测序序列长度的分布情况
- Insert Size Distribution: 插入片段长度的分布情况
- Quality Distribution: 测序序列质量的分布情况
- Indel Distribution: 插入/缺失的碱基数的分布情况
通过观察染色体级别的统计信息,我们可以更全面地了解比对数据在测序序列长度、质量、插入片段长度等方面的分布情况。

三、Samtools stats 在测序数据分析中的应用
Samtools stats 提供了丰富的统计信息,对于测序数据的质量控制、比对性能评估以及后续分析的结果解读都具有重要意义。

3.1 质量控制
通过观察总的统计信息中的reads QC failed 数量,可以评估测序数据的质量控制情况。

如果reads QC failed 数量大幅增加,可能意味着测序数据存在质量问题。

3.2 比对性能评估
通过读取总的统计信息中的reads mapped, reads mapped and paired, reads properly paired 等指标,我们可以了解比对的覆盖率、配
对准确性等性能表现。

如果这些指标较低,可能需要调整比对参数或重新处理数据。

3.3 后续分析的结果解读
Samtools stats 输出的染色体级别的统计信息可以帮助我们了解测序数据在各个染色体或参考序列上的分布情况。

例如,Read Length Distribution 可以帮助我们选择合适的截断长度;Insert Size Distribution 可以帮助我们评估测序数据在配对样本中的片段长度分布情况。

结论:
本文详细介绍了Samtools stats 的方法及原理,以及如何解读其结果。

通过对Samtools stats 的结果解读,我们可以全面了解测序数据的质量和性能,并为后续的数据分析和解读提供基础。

同时,本文还简要探讨了Samtools stats 在质量控制、比对性能评估以及后续分析中的应用。

通过合理利用Samtools stats,我们可以更好地了解测序数据并进行深入的分析研究。

相关文档
最新文档