测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响_窦锦壮

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（１）
根据（１）式ｍ＝５，Ｃ＝１０时ＳＮＰ可分型的概率只
有３０％左右，即７０％的真实ＳＮＰ位点因为没有满足最
小等位基因支持度而被当做非多态性位点。可见提高
ＳＮＰ分型的可靠率ｒ和降低ＳＮＰ可分型概率ｑ对ｍ的选择是相互矛盾的。
考虑到ｍ≥２时ｒ≥９８％，为保证有较高的ＳＮＰ可分型概率
第二代高通量测序技术（ＮＧＳ）可以在短的时间内以较低的成本产生大量的测序数据，这些来自于基因组、转录组和蛋白质组等不同层面的数据为从系统水平上了解性状变异提供了基础。单核苷酸多态性（Ｓｉｎ－ｇｌｅｎｕｃｌｅｏｔｉｄｅｐｏｌｙｍｏｒｐｈｉｓｍ，ＳＮＰ）是基因组中分布最广泛，揭示遗传变异理想首选的分子标记，被广泛的应用于重要疾病关联的基因筛选、物种遗传图谱的构建、动植物重要经济性状的ＱＴＬ定位、群体遗传结构和系统演化分析等。
第４３卷第５期２０１３年５月
中国海洋大学学报
ＰＥＲＩＯＤＩＣＡＬＯＦＯＣＥＡＮＵＮＩＶＥＲＳＩＴＹＯＦＣＨＩＮＡ
４３（５）：１２０～１２４Ｍａｙ，２０１３
测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响＊
窦锦壮１，２，赵熙强２，付晓腾１，焦文倩１，王南南２，张玲玲１，胡晓丽１，王师１＊＊，包振民１
而
（） ∑ ∑ Ｐ（ｎ≥ｍ｜ＡＴ）＝Ｐｒ（ｉ｜Ｃ／２）
ｉ≥ｍ
ｌ≥ｍ
ｉｌ
（１－２３ε）ｉ（２３
∑ （） ε）ｉ－ｌ＝ｉ，ｌ≥ｍ
ｉｌ
Ｐｒ（ｉ｜Ｃ／２）（１－
２３ε）ｌ（２３ε）ｉ－ｌ。
所以
（） ∑ ｑ（Ｃ，ｍ，ε）＝１－（ｉ，ｌ≥ｍ
ｉｌ
Ｐｒ（ｉ｜Ｃ／２）（１－
２３ε）ｉ（２３
ε）ｉ－ｌ）２。
Ｌ′１＝ｃ１ｃ２…ｃｋ…ｃｎ，Ｌ′２＝ｄ１ｄ２…ｄｋ…ｄｎ。考虑到重复序列的存在即存在标签ｃｋ（ｄｋ）＝ｃｊ（ｄｊ）的情况，令Ｄｔ代表基因组中所有ｔ拷贝的代表标签构成区域，也就是说Ｄ１代表基因组中单拷贝的标签区域。那么基因组大小
＊基金项目：国家自然科学基金重点项目（３１１３００５４）；国家基础研究发展计划项目（２０１０ＣＢ１２６４０２）；国家高技术研究发展计划项目（２０１２ＡＡ１０Ａ４０５）；教育部新世优秀人才支持计划项目（ＮＣＥＴ－１０－０７６１）资助
ｍ＝２或３是最佳点，例如ｍ＝２，Ｃ＝１０时ｑ＝９２％左右。
２．２重复序列的影响基因组中存在着大量的重复序列，而且处于重复
１２２
中国海洋大学学报
２０１３年
重复序列内的ＳＮＰ一般是在分型的过程中要排除掉的，因为在用于群体遗传学分析或遗传图谱的构建时这样的ＳＮＰ在基因组中的位置的不确定使得无法进行后续的分析。在简化的基因组中
目前针对基于该系列新技术进行ＳＮＰ分型和筛查过程中的测序错误和重复序列的影响的研究更多的体现在对数据的分析验证上。华大基因Ｄｕ等深［１１］入的研究了ＲＲＬｓ技术开发ＳＮＰ的可靠性，用Ｔｓｐ４５１酶切人类基因组进行ＳＮＰ分型的假阳性率为１３．９５％，假阴性率为２５．９％，认为碱基的测序质量值和重复序列的存在分别是造成假阳性率和假阴性率高的主要原因。Ｈｏｈｅｎｌｏｈｅ利［１２］用ＲＡＤ－ｓｅｑ技术开发斑马鱼ＳＮＰ标记过程中利用模拟数据分析了ＳＮＰ分型的可靠性，发现测序错误率较高时，５１％的“堆”是虚假的，而且ＳＮＰ分型的准确率只有８０％左右。
（中国海洋大学１．海洋生命学院海洋生物遗传育种教育部重点实验室，山东青岛２６６００３；２．数学科学学院，山东青岛２６６１００）
摘要：单核苷酸多态性（Ｓｉｎｇｌｅｎｕｃｌｅｏｔｉｄｅｐｏｌｙｍｏｒｐｈｉｓｍ—ＳＮＰ）被认为是揭示遗传变异理想的分子标记，近几年来一系列针对高通量测序平台的技术如ＲＡＤ，ＧＢＳ，ＲＲＬｓ，２ｂ－ＲＡＤ等成为非模式生物尤其是水生动物的ｄｅｎｏｖｏＳＮＰ标记规模开发和大样本群体遗传研究的有利途径。本文从理论上讨论了测序错误和重复序列因素对ｄｅｎｏｖｏＳＮＰ分型的影响，并利用模式生物拟南芥ＲＡＤ模拟数据对理论分析进行了验证。通过理论推导和模拟验证发现测序数据量在１５～２０Ｘ左右时单拷贝区域内ＳＮＰ被检测的概率大于９５％，等位基因的支持度不小于２时能够有效屏蔽掉测序错误对ＳＮＰ分型的影响（假阳性低于２％），这些为实际数据的ｄｅｎｏｖｏＳＮＰ分型提供了理论上的指导。关键词：ｄｅｎｏｖｏＳＮＰ分型；测序错误；重复序列中图法分类号：Ｓ９１７文献标志码：Ａ文章编号：１６７２－５１７４（２０１３）０５－１２０－０５
收稿日期：２０１２－０１－１１；修订日期：２０１２－１０－２０作者简介：窦锦壮（１９８７－），男，博士生。Ｅ－ｍａｉｌ：ｔｈｉｎｋｈｉｇｈｌｙ＠１６３．ｃｏｍ＊＊通讯作者：Ｅ－ｍａｉｌ：ｓｗａｎｇ＠ｏｕｃ．ｅｄｕ．ｃｎ
５期
窦锦壮，等：测序错误和重复序列对ｄｅｎｏｖｏＳＮＰ分型的影响
Ｐ（ｋ｜Ｃ）＝Ｃｋｋｅ！－Ｃ。
表１文中常用符号说明Ｔａｂｌｅ１Ｅｘｐｌａｎａｔｉｏｎｏｆｓｙｍｂｏｌｓ
符号Ｓｙｍｂｏｌ
含义Ｍｅａｎｉｎｇ
ε
测序错误率
ｈ
基因组杂合率即某个位点是ＳＮＰLeabharlann Baidu的概率
ｄ
覆盖基因组中某一位置的所有序列条数
ｍ
ＳＮＰ位点中等位基因频率比较低的覆盖深度
之一是有些ＳＮＰ位点因为低频等位基因深度ｎ２＜ｍ（测序不均匀导致）而不能够进行分型，这就造成了假
阴性。（３）式给出了低频等位基因深度ｍ下单拷贝区
域内ＳＮＰ能够被分型的概率表达式推导如下
Ｐ（ｎ２＜ｍ，ｎ１ ≥ｍ｜ＡＴ）＝１－Ｐ（ｎ２ ≥Ｍ，Ｎ１ ≥ｍ｜ＡＴ）＝１－Ｐ（ｎ２ ≥ｍ｜ＡＴ）Ｐ（ｎ１ ≥ｍ｜ＡＴ）＝１－｛Ｐ（ｎ≥ｍ｜ＡＴ）｝２，
１２１
度下测序错误和重复序列的综合影响，并利用了拟南芥ＲＡＤ－Ｓｅｑ模拟数据进行了验证。
１ＤｅｎｏｖｏＳＮＰ分型原理
４种碱基字母集合 ∑ ＝｛Ａ，Ｔ，Ｇ，Ｃ｝，对于二倍
体物种而言由于有２套单倍染色体Ｌ１，Ｌ２，不妨记ＤＮＡ信息Ｌ１＝ａ１ａ２ …ａｋ …ａＮ，Ｌ２＝ｂ１ｂ２ …ｂｋ …ｂＮ（ａｋ，
的假阴性。（２）基因组中重复序列的存在。［８］当有参照基因组时，短的序列可以直接比对到基因组上，处于重复序列区域的就会出现“一对多”的情况，当做“候选多拷贝序列”而被过滤掉［９］。ｄｅｎｏｖｏＳＮＰ分型则需要３０～１００ｂｐ的序列进行 “聚类”。此时处于基因组中不同位置的序列可能会聚在一起，因而产生大量假阳性ＳＮＰ［１０］。
ｂｋ∈ ∑ ）。
ＳＮＰ位点定义为（ａｋ，ｂｋ）｜ａｋ ≠ｂｋ，在分型时所产生的测序数据是短的含有特定序列结构的标签，因此从标签的角度来看Ｌ１＝ｃ１Ｎ１ｃ２Ｎ２…ｃｋＮｋ…ｃｎ，Ｌ２＝ｄ１Ｎ１ｄ２Ｎ２…ｄｋＮｋ…ｄｎ，其中ｃｋ（ｄｋ）是长度为ｌ的含有特定结构序列标签；Ｎｋ是任意长度的序列片段。通过ＲＡＤ－Ｓｅｑ技术后可以得到简化的基因组Ｌ′１＝ｃ１ｃ２…ｃ…ｃｎ，Ｌ′２＝ｄ１ｄ２…ｄｋ…ｄｎ，生成的测序数据集Ｄ＝｛ｃ１…ｃ１，ｃ２…ｃ２，…，ｃＮ，ｄ１…ｄ１，ｄ２…ｄ２，…，ｄＮ …ｄＮ｝，标签在测序数据集中的数目服从泊松分布［１４］
图１测序错误和重复序列对ｄｅｎｏｖｏＳＮＰ分型影响示意图Ｆｉｇ．１Ｅｆｆｅｃｔｏｆｓｅｑｕｅｎｃｉｎｇｅｒｒｏｒａｎｄｒｅｐｅｔｉｔｉｖｅｓｅｑｕｅｎｃｅｏｎ
ｄｅｎｏｖｏＳＮＰｃａｌｌｉｎｇ
从图１中可以看出测序错误所产生的假阳性ＳＮＰ的特点是最小等位基因支持度ｍ较小，重复序列区域内的ＳＮＰ的特点是ｃｌｕｓｔｅｒ深度ｄ较高。
２测序错误和重复序列对ＳＮＰ分型影响
２．１测序错误的影响假设测序平均深度为Ｃ，测序错误率为ｅ，如果观
测到某位点的低频等位基因深度为ｍ那么杂合位点与
纯和位点概率之比
（）ｒ＝ＰＰ（（ｎｎ２２＝＝ｍｍ｜｜ＡＡＴＡ））＝Ｐｒ（ｍε｜ｍＣ／２）＝
Ｃ２ε
ｍｅｍ－Ｃ！／２。
针对该新技术进行ｄｅｎｏｖｏＳＮＰ分型时关于测序错误和重复序列因素影响的理论分析未见报道，仅有文献［１３］针对４５４等技术进行ＳＮＰ分型时讨论测序覆盖度下测序错误和重复序列的各自的影响，本文在［１３］的基础上给出了ｄｅｎｏｖｏＳＮＰ分型时不同测序深
无参照基因组ＳＮＰ分型（ｄｅｎｏｖｏＳＮＰ分型）在所研究的物种的参照基因组缺乏的前提下进行ＳＮＰ的分型和筛查。近几年来一系列基于高通量测序平台的 “简化基因组”的方法如ＲＡＤ，ＧＢＳ，ＲＲＬｓ，２ｂ－ＲＡＤ［１－７］等成为非模式生物尤其是水生动物的ｄｅｎｏｖｏＳＮＰ规模开发和大样本群体遗传研究的有利途径。这一系列技术的共同特点是通过限制性内切酶酶切基因组中的特定序列，来达到低成本特定目标序列高覆盖度的效果。由于参照基因组的缺乏，来源于基因组中相同位置的短序列通过聚类建成堆（ｃｌｕｓｔｅｒ），然后进行ＳＮＰ分型。ｄｅｎｏｖｏＳＮＰ分型的数据分析中的２个困难：（１）测序错误的干扰。高通量测序平台的较高的测序错误率使得序列的质量值比较低而当做无用序列过滤掉，这会造成部分等位基因的丢失因而造成ＳＮＰ分型
一般情况下，设测序错误率在Ｃ＝２０，ｍ＝１时ｒ＝
６．７４，即分型所得到的ＳＮＰ是杂合的概率是纯和概率的６．７４倍。ｍ＝２时ｒ＝３３６９，可见ｍ越高理论上ＳＮＰ的分型可以基本上排除测序错误的干扰，即所得
到的杂合位点是真实的ＳＮＰ而不是由于测序错误导致的。虽然ｍ≥２时可以有效的排除测序错误对杂合位点ＳＮＰ分型的影响，这一条件限制带来的不利结果