测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响_窦锦壮
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)
根据(1)式 m=5,C=10 时 SNP 可分 型 的 概 率 只
有30%左右,即70%的真实SNP 位点因为没有满足最
小等位基因支持度而被当做非多态性位点。可见提高
SNP 分型 的 可 靠 率r 和 降 低 SNP 可 分 型 概 率q 对 m 的选择是相互矛盾的。
考虑到 m≥2时r≥98%,为保证有较高的SNP 可 分型概率
第 二 代 高 通 量 测 序 技 术 (NGS)可 以 在 短 的 时 间 内 以较低的成本 产 生 大 量 的 测 序 数 据,这 些 来 自 于 基 因 组、转录组和蛋 白 质 组 等 不 同 层 面 的 数 据 为 从 系 统 水 平 上 了 解 性 状 变 异 提 供 了 基 础 。 单 核 苷 酸 多 态 性 (Sin- gle nucleotide polymorphism,SNP)是 基 因 组 中 分 布 最广泛,揭示遗传变异理想首选的分 子 标 记,被 广 泛 的 应用于重要疾 病 关 联 的 基 因 筛 选、物 种 遗 传 图 谱 的 构 建、动植物重要经 济 性 状 的 QTL 定 位、群 体 遗 传 结 构 和系统演化分析等。
第 43 卷 第 5 期 2013 年 5 月
中国海洋大学学报
PERIODICAL OF OCEAN UNIVERSITY OF CHINA
43(5):120~124 May,2013
测序错误和重复序列对无参照基因组单核苷酸 多态性分型的影响*
窦锦壮1,2,赵熙强2,付晓腾1,焦文倩1,王南南2,张玲玲1,胡晓丽1,王 师1**,包振民1
而
() ∑ ∑ P(n≥m|AT)= Pr(i|C/2)
i≥m
l≥m
i l
(1- 23ε)i(23
∑ () ε)i-l= i,l≥m
i l
Pr(i|C/2)(1-
23ε)l(23ε)i-l。
所以
() ∑ q(C,m,ε)=1- ( i,l≥m
i l
Pr(i|C/2)(1-
23ε)i (23
ε)i-l)2。
L′1=c1c2…ck…cn, L′2=d1d2…dk…dn。 考虑到重 复 序 列 的 存 在 即 存 在 标 签ck (dk)= cj (dj)的情况,令 Dt代 表 基 因 组 中 所 有t 拷 贝 的 代 表 标 签构成区域,也就是说 D1代 表 基 因 组 中 单 拷 贝 的 标 签 区域。那么基因组大小
* 基金项目:国 家 自 然 科 学 基 金 重 点 项 目 (31130054);国 家 基 础 研 究 发 展 计 划 项 目 (2010CB126402);国 家 高 技 术 研 究 发 展 计 划 项 目 (2012AA10A405);教 育 部 新 世 优 秀 人 才 支 持 计 划 项 目 (NCET-10-0761)资 助
m=2 或 3 是 最 佳 点,例 如 m =2,C=10 时 q= 92% 左 右 。
2.2 重复序列的影响 基因组中存 在 着 大 量 的 重 复 序 列,而 且 处 于 重 复
122
中 国 海 洋 大 学 学 报
2 0 1 3 年
重复序列内 的 SNP 一 般 是 在 分 型 的 过 程 中 要 排 除 掉 的,因为在用于 群 体 遗 传 学 分 析 或 遗 传 图 谱 的 构 建 时 这样的 SNP 在 基 因 组 中 的 位 置 的 不 确 定 使 得 无 法 进 行后续的分析。在简化的基因组中
目前 针 对 基 于 该 系 列 新 技 术 进 行 SNP 分 型 和 筛 查过程中的测序错误和重复序列的影响的研究更多的 体现在对数据的分析验 证 上。 华 大 基 因 Du 等 深 [11] 入 的研究 了 RRLs技 术 开 发 SNP 的 可 靠 性,用 Tsp 451 酶 切 人 类 基 因 组 进 行 SNP 分 型 的 假 阳 性 率 为 13.95%,假阴性率 为 25.9%,认 为 碱 基 的 测 序 质 量 值 和重复序列的存在分别是造成假阳性率和假阴性率高 的主要 原 因。Hohenlohe 利 [12] 用 RAD-seq 技 术 开 发 斑马鱼 SNP 标记过程 中 利 用 模 拟 数 据 分 析 了 SNP 分 型的可靠性,发现测序错误率较高 时,51% 的“堆”是 虚 假的,而且 SNP 分型的准确率只有80%左右。
(中国海洋大学 1.海洋生命学院海洋生物遗传育种教育部重点实验室 ,山东 青岛 266003;2.数学科学学院,山东 青岛 266100)
摘 要: 单核 苷 酸 多 态 性 (Single nucleotide polymorphism—SNP)被 认 为 是 揭 示 遗 传 变 异 理 想 的 分 子 标 记 ,近 几 年 来 一 系列针对高通量测序平台的技术如 RAD,GBS,RRLs,2b-RAD 等成为非模式生物尤其是水生动物的 de novo SNP 标 记 规 模开发和大 样 本 群 体 遗 传 研 究 的 有 利 途 径 。本 文 从 理 论 上 讨 论 了 测 序 错 误 和 重 复 序 列 因 素 对 de novo SNP 分 型 的 影 响, 并利用模式生物拟南芥 RAD 模拟数据对理论分析进行了验证。通过理论推导和模拟验证发现测序数据 量 在 15~20X 左 右时单拷贝区域内 SNP 被检测的概率大于95%,等位基因的支持度不小 于 2 时 能 够 有 效 屏 蔽 掉 测 序 错 误 对 SNP 分 型 的 影响(假阳性低于2%),这些为实际数据的 de novo SNP 分型提供了理论上的指导。 关键词: de novo SNP 分型;测序错误;重复序列 中 图 法 分 类 号 : S917 文 献 标 志 码 : A 文 章 编 号 : 1672-5174(2013)05-120-05
收 稿 日 期 :2012-01-11;修 订 日 期 :2012-10-20 作 者 简 介 :窦 锦 壮 (1987-),男 ,博 士 生 。E-mail:thinkhighly@163.com ** 通讯作者:E-mail:swang@ouc.edu.cn
5期
窦锦壮,等:测序错误和重复序列对 de novo SNP 分型的影响
P(k|C)=Ckke!-C 。
表 1 文 中 常 用 符 号 说 明 Table 1 Explanation of symbols
符号 Symbol
含义 Meaning
ε
测序错误率
h
基因组杂合率即某个位点是 SNPLeabharlann Baidu的概率
d
覆盖基因组中某一位置的所有序列条数
m
SNP 位点中等位基因频率比较低的覆盖深度
之一是有些 SNP 位 点 因 为 低 频 等 位 基 因 深 度 n2 <m (测序不均匀导 致 )而 不 能 够 进 行 分 型,这 就 造 成 了 假
阴性。(3)式给出了 低 频 等 位 基 因 深 度 m 下 单 拷 贝 区
域内 SNP 能够被分型的概率表达式推导如下
P(n2 <m,n1 ≥m|AT)=1-P(n2 ≥M ,N1 ≥m|AT)= 1-P(n2 ≥m|AT)P(n1 ≥m|AT)=1- {P(n≥m| AT)}2,
121
度下测序错误 和 重 复 序 列 的 综 合 影 响,并 利 用 了 拟 南 芥 RAD-Seq模拟数据进行了验证。
1 De novo SNP 分型原理
4种 碱 基 字 母 集 合 ∑ = {A,T,G,C},对 于 二 倍
体物 种 而 言 由 于 有 2 套 单 倍 染 色 体 L1,L2,不 妨 记 DNA 信息 L1 =a1a2 …ak …aN ,L2 =b1b2 …bk …bN (ak,
的假阴 性。(2)基 因 组 中 重 复 序 列 的 存 在 。 [8] 当 有 参 照基因组时,短的序列可以直接比 对 到 基 因 组 上,处 于 重复序列区域的就会出现“一对多”的情 况,当 做“候 选 多拷贝序列”而被过滤掉[9]。de novo SNP 分型则需 要 30~100bp的序列进 行 “聚 类”。 此 时 处 于 基 因 组 中 不 同位置的序列 可 能 会 聚 在 一 起,因 而 产 生 大 量 假 阳 性 SNP[10]。
bk∈ ∑ )。
SNP 位点定义 为 (ak,bk)|ak ≠bk,在 分 型 时 所 产 生的测序数据 是 短 的 含 有 特 定 序 列 结 构 的 标 签,因 此 从标签的角度来看 L1=c1N1c2N2…ckNk…cn,L2=d1N1d2N2…dkNk…dn, 其中ck(dk)是 长 度 为l 的 含 有 特 定 结 构 序 列 标 签;Nk 是任意长度的序列片段。通过 RAD-Seq技术后可以 得到简化的基因组 L′1=c1c2…c…cn,L′2=d1d2…dk…dn, 生成的测序数据集 D={c1…c1,c2…c2,…,cN ,d1…d1,d2…d2,…,dN …dN }, 标 签 在 测 序 数 据 集 中 的 数 目 服 从 泊 松 分 布 [14]
图1 测序错误和重复序列对 de novo SNP 分型影响示意图 Fig.1 Effect of sequencing error and repetitive sequence on
de novo SNP calling
从图1中可以看出测序错误所产生的假阳性 SNP 的特点是最小等位基 因 支 持 度 m 较 小,重 复 序 列 区 域 内的 SNP 的特点是cluster深度d 较高。
2 测序错误和重复序列对 SNP 分型影响
2.1 测序错误的影响 假设 测 序 平 均 深 度 为 C,测 序 错 误 率 为e,如 果 观
测到某位点的低频等位基因深度为 m 那么杂合位点与
纯和位点概率之比
( ) r=PP((nn22==mm||AATA))=Pr(mε|mC/2)=
C 2ε
m em-C!/2 。
针对该新技术进行de novo SNP 分 型 时 关 于 测 序 错误和重复序 列 因 素 影 响 的 理 论 分 析 未 见 报 道,仅 有 文献[13]针 对 454 等 技 术 进 行 SNP 分 型 时 讨 论 测 序 覆盖度下测序 错 误 和 重 复 序 列 的 各 自 的 影 响,本 文 在 [13]的基础上给出了de novo SNP 分型时 不 同 测 序 深
无参照基因组 SNP 分型(de novo SNP 分型)在所 研究的物种 的 参 照 基 因 组 缺 乏 的 前 提 下 进 行 SNP 的 分型和筛查。近几年来一系列基于高通量测序平台的 “简化基因组”的方法如 RAD,GBS,RRLs,2b-RAD[1-7] 等成为非模式生物尤其是水生动物 的 denovo SNP 规 模开发和大样本群体遗传研究的有利途径。这一系列 技术的共同特点是通过限制性内切酶酶切基因组中的 特定序列,来达 到 低 成 本 特 定 目 标 序 列 高 覆 盖 度 的 效 果。由于参照 基 因 组 的 缺 乏,来 源 于 基 因 组 中 相 同 位 置的短序列通 过 聚 类 建 成 堆 (cluster),然 后 进 行 SNP 分型。de novo SNP 分 型 的 数 据 分 析 中 的 2 个 困 难: (1)测序错 误 的 干 扰。 高 通 量 测 序 平 台 的 较 高 的 测 序 错误率使得序列的质量值比较低而当做无用序列过滤 掉,这会造成部分等位基 因 的 丢 失 因 而 造 成 SNP 分 型
一般情况下,设测序错误率在 C=20,m=1 时r=
6.74,即分型所得到的 SNP 是 杂 合 的 概 率 是 纯 和 概 率 的6.74 倍。m =2 时r=3 369,可 见 m 越 高 理 论 上 SNP 的分型可以 基 本 上 排 除 测 序 错 误 的 干 扰,即 所 得
到的杂合位 点 是 真 实 的 SNP 而 不 是 由 于 测 序 错 误 导 致的。虽然 m≥2时 可 以 有 效 的 排 除 测 序 错 误 对 杂 合 位点 SNP 分型的影响,这 一 条 件 限 制 带 来 的 不 利 结 果