数学问题杂谈 (4)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Numbers Tested STS UniGene cDNA 2845 23279 907
Coverage 92.4% 92.1% 90.8%
Sequence generated Fly (D. melanogaster ) Thalecress (A. thaliana) Rice (O. sativa 93-11)
拼接软件的新需求
能充分利用正反向测序的配对信息, 避免 重复序列造成的错误拼接 能处理数以百万甚至千万计的数据
程序并行化 高效率比对 能逐步拼接
水稻基因组拼接步骤:
采用数学模型识别重复序列 把重复序列屏蔽掉后,根据是否具有 重叠部分进行分组 采用大型计算机并行拼接 恢复重复序列,延伸contig 构建scanfold
Methodology
cDNAs Mis-assemblies 1.1% 0.2% 1.1%
120 Mb 13x whole-genome 1889 115 Mb clone-by-clone 4804 359 Mb 4.2x whole-genome 907
进一步工作的设想
新拼接程序
步骤: •利用覆盖深度模型纠正测序错误 •采用严格比对快速确定所有可能的重叠 •利用图论或线性代数方法完成拼接
Байду номын сангаас
P3 j = P2 j − C ⋅ Pj + ⋅ Pj − LLL Pij = P( i −1) j − C
i −1 n
⋅ Pj +
i −1
⋅ Pj −
n −i +1
n次抽样,其中i次以上深度在j 以上则认为是repeat,此时犯 两类错误的概率 α , β 为:
设repeat在基因组中的比例为b,出现概 率为P,非repeat出现概率为P* ,则:
KKK Pj + = 1 − P0 − P L − Pj −1 1
n次抽样,其中i次以上 深度在j以上的概率Pij
设一次抽样深度在j以上和以下的概率分 别为:Pj-,Pj+;
P j = 1 − Pj − 1
n 1 n n −1 n−2
P2 j = P j − C ⋅ Pj + ⋅ Pj − 1
2 n 2
识别重复序列的数学模型
1, Yik = 0, 第i个点的覆盖深度为k 其它
k N
L k L N −k P(Yik = 1) = C ( ) (1 − ) G G G L − ( − )( N − k ) L L G k L k = C N ( ) (1 − ) G G L( N − k ) k L k ) = C N ( ) exp(− G G
基于BAC的方法
全基因组DNA 随机打成大片段 选择并克隆 大片段排序,选择
再打碎,克隆,测 序,拼接
全基因组鸟枪法
基因组DNA
随机打碎
测序并拼接
近来测序技术的进展
从基于BAC的策略转向全基因组鸟枪法
毛细管自动测序仪的广泛使用
全基因组鸟枪法测序的拼接
困难:
数据量极大 大量重复序列造成拼接途径的不确定
若repeat有m个拷贝,且已知随机序列覆盖深度为0,1, 2……的概率:g0 , g1 , g2 ,……,则一次抽样repeat 覆盖深度为0,1,2,……的概率P0, P1, P2,……为:
m P0 = g 0 1 m P = Cm ⋅ g1 ⋅ g 0 −1 1 2 m 1 m P2 = Cm ⋅ g1 ⋅ g 0 − 2 + Cm ⋅ g 2 ⋅ g 0 −1 2 3 m 2 1 m 1 m P3 = Cm ⋅ g13 ⋅ g 0 −3 + Cm ⋅ C2 ⋅ g1 ⋅ g 2 ⋅ g 0 − 2 + Cm ⋅ g 3 ⋅ g 0 −1
L k L( N − k ) E (Yk ) = E (∑Yik ) = G ⋅ C ( ) exp(− ) G G i =1 特别地, L( N − 1) E (Y1 ) = NL exp(− ) G L( N − 1) ∴G = log(NL) − log(E (Y1 ))
G k N
重复序列识别:
α = 1 − Pij β=
b ⋅ Pij b ⋅ Pij + (1 − b) ⋅ P
* ij
MDR (Mathematically-Defined Repeat) vs. BDRs (Biologically-Defined Repeats) MDR
(42.2%)
BDR’
(~25%)
BDR
(~50%?)
人与水稻基因组中重复序列分布的差别
Quality: 546 bp at Q20
Contigs:127,550 (N50=6,688 bp)
Scaffolds: 102,444 (N50=11,764 bp)
93-11 (indica) basic shotgun data est. genome size [Mb] number of reads Q20 read lengths [bp] shotgun coverage exact 20-mer repeats fraction masked, by size fully-masked reads sequence assembly total contig size [Mb] N50 contig size [Kb] total scaffold size [Mb] N50 scaffold size [Kb] un-assembled data fully-masked reads [Mb] ALL other reads [Mb] 464 3,565,386 546 4.2 42.2% 18.7% 359 6.69 360 11.76 78 26
测序中的数学问题
李松岗 北京大学 2002/04/04
生物信息学是数据导向的科学, 大规模测序 是其最重要的数据来源之一
大规模测序与实验室测序的不同
实验室测序: 手工操作,效率低,结果是第一位的 大规模测序: 流水线操作,自动化 追求稳定、高效、低成本
两种测序策略:
基于BAC的方法: 先把基因组打碎成200-300kb的片段 并制成BAC文库,再选择一些BAC进一步 打碎成3kb左右的小片段,测序并拼接。 全基因组鸟枪法: 把基因组直接打碎成3kb左右的小片段, 测序并拼接。
纠正测序错误
对6X左右鸟枪法测序数据,统计所有20碱 基长小片段出现次数; 对每一个read,顺序标出它的小片段出现 次数; 若有连续一串1出现,则可能有测序错误存 在,应进行纠正。
消除测序错误的好处:
可区分部分重复序列; 可采用严格比对的方法,提高计算速度; 有利于简化拼接算法; 有利于后期数据分析,例如SNP识别等。
相关文档
最新文档