兰州大学生物信息学课件:6-基因组组装- 王明成

合集下载

《基因组概论》课件

《基因组概论》课件

基因组测序技术
基因组大数据分析
随着基因组数据的积累,未来将需要 更强大的计算和分析能力来挖掘其中 的价值,有望推动基因组学研究的深 入发展。
随着测序技术的不断进步,未来测序 成本将进一步降低,速度将更快,有 望实现个性化医疗和精准诊断。
基因组学在精准医学中的应用前景
个性化治疗
通过基因组学研究,可以深入了解个体差异,为患者量身定制最 合适的治疗方案,提高治疗效果并减少副作用。
单核苷酸变异是最常见的遗传 变异类型,与人类疾病的发生 和发展密切相关。
插入/缺失变异会导致基因结 构的改变,影响基因的表达和 功能。
染色体变异包括染色体数目异 常和染色体结构异常,与遗传 疾病和肿瘤发生有关。
表观遗传学研究方法
DNA甲基化是指在DNA序列上添加甲基基团的 过程,影响基因的表达和功能。
比较基因组学
通过比较不同物种的基因组,研究生物进化和物 种差异。
功能基因组学
利用基因组技术分析基因表达、调控和互作等过 程,揭示生物体的复杂行为和代谢过程。
05
CATALOGUE
未来展望
基因组技术的未来发展
基因组编辑技术
随着CRISPR等基因编辑技术的发展, 未来基因组编辑将更加精确和高效, 有望用于治疗遗传性疾病和传染病。
基因组技术的应用
基因组在医学中的应用
01
02
03
基因诊断
利用基因组技术检测和诊 断遗传性疾病、癌症等疾 病,为个性化医疗提供依 据。
药物研发
通过基因组技术筛选和验 证药物靶点,加速新药研 发进程。
基因治疗
利用基因组技术修复或替 换缺陷基因,治疗遗传性 疾病和某些癌症。
基因组在农业中的应用

生物信息学教学培训课件PPT模板

生物信息学教学培训课件PPT模板

03
数据处理
蛋白质样品中蛋白质 的分离过程。
使用质谱技术对蛋白 质进行鉴定和定量的 过程。
对质谱数据进行处理 和分析的过程。
8
代谢组学概述
01
代谢物是生物表现
代谢物可以反映生物体内的 代谢状态。
02
代谢组学研究内容
代谢物的筛选、特征鉴定和 定量分析。
03
代谢组学应用于诊 疗
为疾病的早期诊断和治疗提 供新的手段。
5
02
蛋白质组学和代谢组学
蛋白质组学概述
蛋白质组学定义及对象
研究蛋白质组成、结构、功能、互作、调控等方面的学科
蛋白质组学技术
包括质谱技术、蛋白质芯片技术、蛋白质互作组学技术等
蛋白质组学在疾病中应 用
Байду номын сангаас
用于疾病的早期诊断、病理机制的研究、药物研发等方面。
7
蛋白质组学分析技术
01
蛋白质分离
02
质谱分析
3
结果可视化
展示分析结果,并方便我们对结果进行观察和分析
14
04
生物信息学的应用和前景
生物信息学在基因治疗中的应用
01
基因治疗优势前景
用生物信息学进行基因治疗的设计和 优化,以达到最佳的治疗效果。
02
基因治疗限制
介绍基因治疗的安全性和有效 性的限制。
03
生物信息学在 治疗中应用
生物信息学可以监测和调控基因表达,以及 评估基因治疗的效果和安全性。
9
代谢组学分析技术
01
样品收集制备
介绍代谢组学分析技术中的样 品收集和制备过程
02
代谢产物检测分离
介绍代谢组学分析技术中的代 谢产物检测分离过程

基因组学概论PPT课件

基因组学概论PPT课件

3. 比较基因组学
研究不同物种之间在基因组结构和功能 方面的亲源关系及其内在联系的学科。
比较基因组学的研究内容:
(1)绘制系统进化树,显示进化过程中最主要的 变化所发生的时间及特点。据此可以追踪物种的 起源和分支路径。 (2)了解同源基因的功能。
(3)对序列差异性的研究有助于认识产生大自然生 物多样性的基础。
1. 基因(Gene)
基因(gene)是1909年丹麦植物学家W.Johannsen 根 据希腊文单词genos(birth,给予生命)创造的。
现代分子生物学的基因概念:
基因是储存和表达某一多肽链信息或RNA分析 信息所必需的全部核苷酸序列,即一个基因不仅 包括编码蛋白质或RNA的核酸序列,还应包括为 保证转录所必ቤተ መጻሕፍቲ ባይዱ的调控序列。
(三)基因组学的意义
生物学研究 医学 生物技术 制药工业 社会经济 生物进化 伦理,法律及社会
尤其是人类疾病基因的研究
(1)单基因病疾病基因研究,如血友病等
人类基因组计划使我们了解基因组序列。 现在采用定位候选克隆方法极大地提高了 发现疾病基因的效率。
(2)多基因病疾病基因研究, 例如心脏病,糖尿病,癌症等。
经典遗传学时代
1879年 染色体的发现,并认为染色体最可能是DNA 、 RNA和蛋白质的一种;
1902年 染色体学说的产生,合理解释了Mendel的实验结果;
1910年 发现了遗传学的第三大遗传规律——连锁遗传规律
(决定两对性状的两对基因位于同一对染色体上,就会发生连锁遗传现象)
郑州大学生命科学学院
基因组学
(Genomics)
马珊珊
课程安排
32 学时:16周,2学时/周 考试方式:闭卷考试 考试成绩:30%平时成绩(出勤率 +课堂表现)+70%卷面成绩

基因组测序的原理与方法ppt课件

基因组测序的原理与方法ppt课件
ppt课件.
大规模基因组测序的 原理与方法
1
ppt课件.
“基因组”----生命科学的“元素周期表 ”
元素周期表
元素周期表的发现奠定了二 十世纪物理、化学研究和发展的 基础
人体解剖图奠定了现 代医学发展的基础
“基因组序列图”将奠定二十一世纪生 命科学研究和生物产业发展的基础!
2
ppt课件.
基因组学的基础理论研究
12
PCR(聚合酶链式反应)原ppt课理件.
反应所需物质:DNA模板、引物、DNA聚合 酶、dNTP、缓冲液 每个循环包括:变性(90℃)、退火(54 ℃)、延伸(72 ℃)
13
ppt课件.
Sanger 双脱氧末端终止法测序原理
14
DNA自动测序仪的发展 ppt课件.
自动荧光垂直板凝胶电泳测序仪 代表:ABI公司377型垂直板自动测序仪 96个泳道 读长高达700-800 bp 日分析能力达300个样品
STS图谱是最基本和最为有用的染色体物理图谱之一,STS (Sequence Tagged Site)本身是随机地从人类基因组上选 择出来的长度在200~300bp左右的特异性短序列(每个STS 在基因组中是唯一的,STS图谱就是以STS为路标(平均每 100Kb一个),将DNA克隆片段有序地定位到基因组上。
The genom e D N A
3 ,0 0 0 ,0 0 0 K b p
= 7 .3 7 2 8
29
48 superpools
ppt课件.
每 组 个
共 个
48
8
每8个96孔板组成1个superpool,384个96孔板组成48个superpools
30
ppt课件.

基因组信息分析PPT课件

基因组信息分析PPT课件
GC含量
碱基G、C相对于A、T的丰度很早就被看作是区分细菌基因组的特征之一 .不同的原核生物中,GC含量(GC content)从25﹪到75﹪,变化非常大。 大部分细菌是通过从其它生物体大规模获得基因(长度为几万甚至几十万个核苷酸)而进化的(水平转移).简而言之,许多细菌基因组表现为具有不同GC含量的区域的组合物,这些区域反映了细菌的进化历史。
G
0.1751306272192
T
0.3248693727808
酵母基因组核苷酸出现频率
在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。
核苷酸
频率
A
0.344
C
0.155
G
等值区
定义:具有一致碱基组成的长区域 特征 :等值区基因组序列的长度超过1,000,000对碱基虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡 人类基因组大约可以划分为五个不同类型的等值区:a) L1和L2,平均GC含量分别为39﹪和42﹪(欠GC)) b) H1、H2和H3,GC含量平均值分别为46﹪、49﹪和54﹪ (丰GC)
科学家对这本天书了解最多的部分就是遗传密码 或者说掌握了DNA对蛋白质编码的规律 关于密码子(1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用G、C;反之亦然。 如果三位都用G、C,则配对容易,分解难; 三位都用A、U,则相反。 一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分手也快。
基因结构复杂
基因转录调控方式复杂
真核基因的表达涉及多种RNA聚合酶。与原核生物只使用一种由多个蛋白聚合而成的RNA聚合酶不同,真核生物至少使用由8到12个蛋白组成的三种不同类型的RNA聚合酶。RNA 聚合酶I和III负责转录生成RNA分子,这些分子本身执行重要的功能,在所有的真核细胞中需要始终保持相当恒定的水平。RNA聚合酶II专门负责转录编码蛋白质的基因。 RNA聚合酶II识别的启动子序列的多样性反映了区别基因的复杂程度,即在特定类型的细胞中和在特定的时间,区别哪些基因该表达而哪些基因不该表达。

基因组学生物信息学方法PPT课件

基因组学生物信息学方法PPT课件

45
46
47
48
49
在线生物信息学资源简介
常用生物信息学数据库
核酸一级数据库:
GenBank、EMBL、 DDBJ、NDB 核苷酸二级数据库:
• 在线免疫遗传学数据库IMGT • 基因调控转录因子数据库TransFac • 真核生物启动子数据库EPD • 单核苷酸多态性数据库dbSNP
ORF Finder at NCBI.
DNA sequence translation into protein tool at ExPaSy (Switzerland).
57
问答环节
Q|A 您的问题是? ——善于提问,勤于思考 58
结束语
感谢参与本课程,也感激大家对我们工作的支持与积极 的参与。课程后会发放课程满意度评估表,如果对我们
50
蛋白质数据库
蛋白质功能位点数据库Prosite 蛋白质序列指纹图谱数据库Prints 蛋白质序列模块数据库Blocks 蛋白质序列家族数据库Pfam 免疫球蛋白数据库DIP 酶类数据库ENZYME 多肽酶类数据库MEROPS 蛋白质结构分类数据库SCOP 蛋白质分类数据库CATH 蛋白质直系同源簇数据库COGs
➢ 以基因组DNA序列信息分析作为源头,找到基因组序列中 代表蛋白质和RNA基因的编码区;
➢ 阐明基因组中大量存在的非编码区的信息实质,破译隐藏 在DNA序列中的遗传语言规律。
➢ 在此基础上,归纳、整理与基因组遗传信息释放及其调控 相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、 分化、进化的规律。
27
28
29
键入 blastall –i test.seq –d EST.seq –p blastn –e 1e-10 –o test.out

基因基因组及基因组学ppt课件

基因基因组及基因组学ppt课件

ppt课件.

44
基因组测序策略
❖ 有了高密度的基因组图谱,就可以开始全 基因组测序了
❖ 测序的技术飞速发展,现在可以全自动化 ❖ 测序的策略有两个:
鸟枪法 克隆重叠群法
ppt课件.
45
鸟枪法
ppt课件.
46
采集5个自愿者的DNA样品t课件.
34
遗传图谱的构建方法
❖ 理论基础: 连锁与交换 ❖ 基本方法: 两点测验法和三点测验法
ppt课件.
35
物理图谱
遗传图所表现的是通过连锁分析确定的各基因间的相 对位置;物理图则表现染色体上每个DNA片段的实际 顺序,是指以已知核苷酸序列的DNA片段(序列标签 位点,sequence-tagged site,STS)为“路标”,以碱 基对(bp,kb,Mb)作为基本测量单位(图距)的基 因组图。
简称分子标记,以DNA序列的多态性作为遗 传标记 随着分子生物学的发展,相继建立 了RFLP、TRS、SNP等多种分子遗传标记检 测技术,开创了遗传标记研究的新阶段。
优点:
❖ 不受时间和环境的限制 ❖ 遍布整个基因组,数量无限
❖ 不影响性状表达
❖ 自然存在的变异丰富,多态性好 ❖ 共显性,能鉴别纯合体和杂合体
ppt课件.
2
假基因
来源于功能基因但已失去活性的DNA序列 产生假基因的原因有: 1. 由重复产生的假基因; 2. 加工的假基因, 由RNA反转录为cDNA 后再整合
到基因组中; 3. 残缺的基因。
ppt课件.
3
重叠基因:
同一段DNA 能携带两种不同蛋白的信息.
重迭基因有以下几种情况:
*一个基因完全在另一个基因内部 *部分重叠 * 两个基因共用少数碱基对

5-高通量测序技术【兰州大学生物信息学】

5-高通量测序技术【兰州大学生物信息学】
均一 覆盖
偏好 覆盖
PacBio 可以解决NGS哪些困扰?
Accuracy Increase With Sequencing Coverage
PacBio 可以解决NGS哪些困扰?
PacBio第三代测序技术原理
特制的DNA聚合酶
介孔分子筛
-- 反应速度快 在体外工作时3bp/s -- 准确率高,是PCR用聚合酶的1000倍 -- 链置换特性(即可以循环进行复制反应) -- 每一个SMART cell中有15万个ZMW孔
EAS139 136 FC706VJ 2 2104 15343
197393
1
Y
18 ATCACG
the unique instrument name the run id the flowcell id flowcell lane tile number within the flowcell lane ‘x’-coordinate of the cluster within the tile
孔底垂直发射激光
激光激发4序数据的基本处理
数据样式,质量值,比对的过程,原理和常用软件
FASTQ格式
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质 量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示, 目前已经成为高通量测序结果的事实标准。
0 when none of the control bits are on, otherwise it is an even number index sequence
质量值
Phred quality scores Q are defined as a property which is logarithmically related to the base-calling error probabilities P.

9-基因家族分析【兰州大学生物信息学】

9-基因家族分析【兰州大学生物信息学】

3.3 内含子及相位
内含子相位内含子插入密码子的位置 内含子相位的差异可能会导致功能差异 可以手工绘制
3.4 可变剪切
有些基因的一个mRNA前体通过不同的剪接方式(选择 不同的剪接位点)产生不同的mRNA剪接异构体
1.可变剪切对基因功能具有很大的影响 2.基因家族鉴定的基因都是去可变剪切的 3.内含子可能参与转录导致基因功能分化
染色体定位图
circle图
2.5 基因起源
Segmental and Tandem Duplication
A:两个片段的共线性区域 B:进化树orthologs
根据A,B和绿色和蓝色标记基因序列差异
C:推测这些基因起源
基因结构
1. 外显子数量 2. 某段序列的差异 3. 碱基的差异 4. 启动子区域的差异 5. 内含子相位
基因起源的方式:Segmental and Tandem Duplication
2.3 染色体定位
制图方法: 跟据gff文件得到基因的位置信息 A. 软件(没有好用的) B. SVG脚本(已有) C. 手工绘制
染色体定位通常与 基因来源方式 共线性 结合起来
ห้องสมุดไป่ตู้
2.4 共线性分析
软件:McscanX
➢ MYB成员多,少选物种 ➢ 亚家族分类 ➢ 同源基因,功能预测 ➢ 基因家族各个分支的扩张与收缩 ➢ 某物种特有分支(标红)
2.1 进化树分析
在本分支上极大的扩张
基因家族在各个物种中的成员 少于10个,选了57种植物,12 种动物 亚家族分类 同源基因,功能预测
2.2 基因数量分析
1. 基因的扩张(segmental and tandem duplication) 2. 基因的丢失 3. 基因只在某支上的扩张 4. 某物种特有的分支

基因组学基本知识ppt课件

基因组学基本知识ppt课件
基因组(Genome):生物体配子中所包含的全部 染色体及其基因,包括细胞质基因组,为物种全部 遗传信息的总和。也指某一生物的所有DNA。
物种遗传信息的“总词典”、控制发育的“总程序”、 生物进化历史的“总档案”
ppt课件.
3
基因组学研究的最终目标
获得生物体全部基因组序列 鉴定所有基因的功能 明确基因之间的相互作用关系 阐明基因组的进化规律
析基因的大小、数量,基因排列顺序,编码序列与非编码 序列的特征等,以揭示物种进化关系,克隆重要性状基因 和进行遗传研究和性状改良。
ppt课件.
18
四、基因组学的应用
确定物种特有的序列 研究物种的遗传多样性 研究物种的起源及系统进化 进行新基因的克隆(染色体步移) 进行基因功能的预测 获得功能分子标记
子机制 ➢ 确定人类基因组中转座子、逆转座子和病毒残余序列 ➢ 研究染色体和个体之间的多态性
ppt课件.
10
(5)研究进展 ➢ 1996年,完成标记密度为0.6cM的人类基因组遗 传图谱,100kb的物理图谱 ➢ 2000年,人类基因组框架草图绘制完成 ➢ 2001年2月,人类基因组精细图谱的完成 ➢ 2002年,完成测序工作
(3)研究目的 找出所有人类基因,破译出人类全部遗传信息, 使得人类在分子水平上全面认识自我 将基因用于改善人类的生活质量 解决人类疾病、健康的问题
ppt课件.
9
(4)研究意义
➢ 确定人类基因的序列、物理位置、产物及功能 ➢ 理解基因转录与转录后调节 ➢ 研究空间结构对基因调节的作用 ➢ 发现与DNA复制、重组等有关的序列 ➢ 研究DNA突变、重排和染色体断裂等,了解疾病的分
与病原基因组中的直接或间接作用的结果。 “全基因组”信息记录着一个人有关生、老、

6-基因组组装【兰州大学生物信息学】

6-基因组组装【兰州大学生物信息学】

Overlap:
contig
Ge+en+no+om+mi+ic+cs Genomics
Pair-end: scaffold
nom Genome
sem Genome****assembly assembly
22
De bruijn graph construction
Reads : AGATCTTGTTATT
2.If the Kmer is already existent,merge the links of it with the first one's.
De bruijn graph
2、Graph simplification
AGATC
ATCTT TCTTG GATCT
TGATC TTGAT
CTTGT ATTGA
GTTATTGATCTCC
AGATC
ATCTT TCTTG CTTGT GATCT
TGATC TTGAT ATTGA
TTGTT TATTG
TGTTA TTATT
GTTAT
ATCTC TCTCC
1.liding to take Kmer from reads,storing the links between neighboring Kmers.
Read 1 and read 2 of two paired-end reads that were completely identical (and thus considered to be the products of PCR duplication).
Error correction before assembly

生物信息学中的基因组组装方法

生物信息学中的基因组组装方法

生物信息学中的基因组组装方法基因组组装是生物信息学中的核心技术之一,它是将DNA序列片段重新组合成完整基因组的过程。

通过基因组组装,我们能够获得基因组的完整信息,进而深入研究基因功能、系统进化以及遗传变异等重要问题。

在生物信息学领域,目前存在多种基因组组装方法,如下所述。

1. 叠加法(Overlap-based Assembly)叠加法是最早也是最简单的基因组组装方法之一。

该方法基于序列片段的相互重叠关系,通过比对序列片段的重叠区域将它们拼接成长序列。

然而,这种方法无法解决高覆盖度的测序数据,且对于含有重复序列的基因组也存在困难。

2. De Bruijn图法(De Bruijn graph)De Bruijn图法是目前应用最广泛的基因组组装方法之一。

该方法将DNA序列片段切割成较短的k-mers(常见的长度为20~25bp),然后通过构建De Bruijn图来表示k-mers之间的连接关系。

最后,通过分析和连接De Bruijn图的路径来重构基因组。

这种方法可以解决高覆盖度的测序数据,并且具有较好的计算效率。

3. 重叠布朗运动方法(Overlapping Brownian motion)重叠布朗运动方法是一种基于概率模型的基因组组装方法。

它通过根据DNA片段之间的相对位置概率来预测和重构连续序列。

这种方法可以解决高覆盖度的测序数据和复杂基因组的组装问题,并且对于含有重复序列的基因组也能得到较好的结果。

4. 来回跳跃法(Jumping Library)来回跳跃法是一种结合多种测序策略的基因组组装方法。

它通过使用不同长度的DNA文库进行多轮测序,从而解决了含有重复序列的基因组组装问题。

该方法的优点在于提高了测序的准确性和连续性,但是需要较高的测序覆盖度。

5. 混合组装方法(Hybrid Assembly)混合组装方法结合了不同测序技术和组装策略的优点,从而提高了基因组组装的质量和准确性。

例如,可以将叠加法和De Bruijn图法相结合,先将DNA序列片段通过叠加法拼接成较长序列,然后通过De Bruijn图方法进行细化和修正。

05 兰州大学生物信息学DNA序列分析及基因功能预测

05 兰州大学生物信息学DNA序列分析及基因功能预测

该方法适合对待测样品进行初步筛选, 目前已广泛被实时定量PCR替代。
2.实时定量PCR
常用于mRNA的定量分析 实时定量PCR (Real-time Quantitative Polymerase chain Reaction,RQ-PCR)是定量分析mRNA的最通用、最快速、 最简便的方法,该方法是对PCR反应进行实时监测,具
第五章. DNA序列分析, 基因表达及功能分析
第一节 DNA序列分析 第二节 基因表达的分析策略 第三节 生物信息学在预测基因功能中的应用
第四节 基因的生物学功能鉴定技术
第一节. DNA序列分析
DNA序列分析
——基因序列 ——基因表达调控信息 寻找基因牵涉到两个方面的工作 : 识别与基因相关的特殊序列信号 预测基因的编码区域 结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因的上游区域,在组成上具有 一定的特征,可以通过序列分析识别这些特征。

功能位点示意
基因组序列中若干个相邻的功能位点组合
形成功能区域(functional region)。
功能位点分析的任务
发现功能位点特征 识别功能位点
利用共有序列搜索功能位点
共有序列(consensus)又称一致性片段
共有序列是关于功能位点特征的描述,它描述了
功能位点每个位置上核苷酸进化的保守性 例如: NTATN
对于酵母基因组
PA=0.3248 PAA=0.1193
=0.1193/(0.3248*0.3248) =1.131 > 1 表明在两个连续位置上“A”的出现不是独立 的,而是相关的。 PAA’
三联核苷酸——基因密码子
在进行编码区域识别时,常常需要对三联
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1) Close gap by pair-end information (One end mapped on the contig, the other end fall in the gap)
(2)Do a local assembly using the reads fall in the gap to get a sequence connect with the both edges of two contigs. Note: Gap closure here also means extend contigs.
GTTATTGATCTCCБайду номын сангаас
AGATC
ATCTT TCTTG CTTGT GATCT
TGATC TTGAT ATTGA
TTGTT TATTG
TGTTA TTATT
GTTAT
ATCTC TCTCC
1.liding to take Kmer from reads,storing the links between neighboring Kmers.
Read 1 and read 2 of two paired-end reads that were completely identical (and thus considered to be the products of PCR duplication).
Error correction before assembly
2.If the Kmer is already existent,merge the links of it with the first one's.
De bruijn graph
2、Graph simplification
AGATC
ATCTT TCTTG GATCT
TGATC TTGAT
CTTGT ATTGA
L/G is very small, the n_r is very large, this is obey to Poisson distribution. So,
d_k = (L-K+1)/G*n_r n_k = (L-K+1)*n_r then, G =n_k/d_k
Quality control and filtering
◦基因组组装
王明成 2015.10.29
一、Genome survey
Kmer: a continuous nucleic acid sequences, the length is K bp.
Suppose the genome is unique to K, we can get G different kmers. when generate a read, the possibility of a certain kmer be sequenced is (L-K+1)/G.
二、SOAPdenovo algorithm
SOAPdenovo was developed to assemble large genomes, such as human, it also works well for small genomes like bacteria. Include five major steps:
Overlap:
contig
Ge+en+no+om+mi+ic+cs Genomics
Pair-end: scaffold
nom Genome
sem Genome****assembly assembly
22
De bruijn graph construction
Reads : AGATCTTGTTATT
TTGTT TATTG
TGTTA
TTATT
GTTAT
ATCTC
TCTCC
AGATC 1
2
GATCT ATCTTGTTATTGATC
4 3
ATCTCC
Read1:AGATCTTGTTATT Read2:GTTATTGATCTCC
set -R parameter
Contigs: GATCTTGTTATTGATCT GATCTCC AGATCT
Contigs: AGATCTTGTTATTGATCTCC
3、Pair-end mapping to contig
4、Construct scaffolds
Note: 1. For mate-pair(>=2Kb), the order is just opposite. 2. A reliable link will be built between two contigs, when pair-end/mate-pair reads
• De bruijn graph construction • Graph simplification and obtain contigs • Pair-end reads mapping to contigs • Construct scaffolds • Gap filling with pair-end reads
1、De bruijn graph construction
Sequence assembly refers to aligning and merging fragments to a much longer DNA sequence in order to reconstruct the original sequence.
support larger than the number be set. 3. The gap size is estimated from the insert size of each reads pair.
5、Gap closure
• Get reads located in the gap and then do local assembly.
Reads having a ‘N’ over 10% of its length.
Reads from short insert-size libraries having more than 65% bases with the quality ≤ 7, and the reads from large insert-size libraries that contained more than 80% bases with the quality ≤ 7.
相关文档
最新文档