比较基因组学原理和应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Fig.3 Roche 454 GS FLX 平台
Fig.4 Illumina Solexa平台
Fig.5 ABI SOLiD平台
参考文献:
DNA测序技术的发展历史与最新进展, 解增言 等;
DNA测序技术发展及其展望, 孙海汐等。
(3)第三代测序技术 以单分子测序为特点;
如: BioScience Corporation的HeliScope Single Molecular Sequencer; Pacific Biosciences的Single Molecule RealTime (SMRT)DNA sequencing technology (正在研制);Oxford Nanopore Technologies Ltd的纳 米孔单分子测序技术。
依此确定能自我复制的细胞必需的一套最 少的核心基因。 • 流感嗜血杆菌的基因组为1.83MB,尿殖道支 原体的基因组只有0.58Mb,二者相差3倍多, 那么,基因组是大小影响了基因的数目还 是基因的尺度?
• 流感嗜血杆菌的基因大小平均900bp,尿殖道支 原体的基因为1040bp,他们基因大小差不多
使比对序列的相似度达到整体最大
Needleman-wunsch全局比对算法
首先构建具有m行n列的矩阵M,根据残基配对的函数, 给每个矩阵单元格赋值,将矩阵初始化。再进行变换操作, 规则是将某单元格右下方路径中的最大值叠加到该单元格 即
M(I,j)=M(I,j)+max[M(i+1,j+1);M(i+1,j+2,…,jmax)-gap penalty ; M(i+2,…,imax,j+1)-gap penalty] 使用最简单的打分系统进行比对,残基相同时分值是1, 不同时分值为0,空位罚分。
第二代测序技术
第三代测序技术
ຫໍສະໝຸດ Baidu
(1)测序技术的出现及第一代测序技术 1)测序技术的出现 1975年,Sanger和Coulson发明了“加减法” 测定DNA序列;1977年,又引入ddNTP,发明了双脱 氧终止法; 1977,Maxam和Gilbert发明了化学降解法测 定DNA序列。
Fig1. 双脱氧终止法测序
1. 已完成的测序
比较基因组学从一开始就是人类基因组计划 的一部分。
人类基因组计划的原始计划是测定人类和一 部分模式生物(如细菌,酵母,果蝇,秀丽隐杆 线虫,小鼠等)的全基因组序列。
Homo sapiens Pan troglodytes Mus musculus Rattus norvegicus Drosophila melanogaster Escherichia coli Saccharomyces cerevisiae Ciona intestinalis
数据库搜索使用的最广泛的算法:
FASTA算法和BLAST算法。
FASTA算法运用一种包括四个连续阶段的 启发式方法来检测被查序列与一组序列是相 似性。
BLAST算法采用非常快的算法来查找数据 库中与预查询序列最相似是序列。基本思想 是:两个同源序列即使有很大的差异,也有 可能共有高分值的相似片段,这使我们可以 理解可靠的区分相关和非相关的序列。
基因组序列分析的计算方法
1. 引言 2. 点阵图 3. 两序列比对 4. 多序列比对 5. 数据库搜索
朱琳
引言
人类基因组计划(HGP) 遗传图、物理图、序列图和转录图
区分两个概念: 同源性 ---------共同的祖先
相似性 ---------定量特征 高度相似很可能是同源序列;相似性很低的序列也可能具
比较基因组学 原理及应用
成员:韩柳 阎永伟 黄继 马寿光 朱琳 姜南 李春丽
比较基因组学 相关概念
韩柳
基因组学概念及范畴
基因组(genome) 泛指一个有生命体、病毒或细胞器的全部
遗传物质;在真核生物,基因组是指一套染色 体(单倍体)DNA。
基因组学(genomics) 就是发展和应用DNA制图、测序新技术以
2)第一代测序技术 传统的化学降解法、双脱氧链终止法以及在它
们的基础上发展来的各种DNA测序技术统称为第一 代DNA测序技术。
第一代测序技术在分子生物学研究中发挥过重 要的作用,如人类基因组计划主要基于第一代DNA 测序技术。
目前基于荧光标记和Sanger的双脱氧链终止 法原理的荧光自动测序仪(如ABI 3730XL)仍被 广泛地应用。
模式生物
• 基因进化上的保守往性和遗传密码的通用性,从某一生物 得到的有关基因性质或功能方面的信息往往也适用于其他 生物。
• 个体小,易操作,易培养,繁殖快。 • 病毒,大肠杆菌,酵母,线虫,果蝇,斑马鱼,小鼠,拟
南芥
种间比较基因组学研究
马寿光 黄继
• 通过对不同亲缘关系物种的基因组序列进行 比较,能够鉴定出编码序列、非编码调控序列 及给定物种独有的序列。而基因组范围之内的 序列比对,可以了解不同物种在核苷酸组成、 同线性关系和基因顺序方面的异同,进而得到 基因分析预测与定位、生物系统发生进化关系 等方面的信息。
阎永伟
比较基因组学是在基因组图谱和测序的基础上, 利用某个基因组研究获得的信息推测其他原核生 物、真核生物类群中的基因数目、位置、功能、 表达机制和物种进化的学科。
该学科的发展及所取得的成果与序列的积累相 同步,尤其是人类全基因组序列的分析与比较使 比较基因组学成为整个生物学领域最新、最重要、 进展最快和影响最大的学科之一。
此外还有Smith-waterman 算法
基因组比对
只能对序列密切相关或非常相似的基因 组比对,序列太长,既有的算法无能为力
方法:suffix tree 数据结构
软件MUMer 能找出两个基因组的DNA序列 上最大且唯一的匹配区域,然后除去序列中用 Smith-waterman 最佳局部比对算法对大量插 入序列、重复序列、短变异区域进行局部鉴定 时插入的空位,完成这两个基因组序列的比对。
2.测序技术概述
绝大多数生物的遗传物质为DNA,然而遗传信 息却仅仅由四种碱基——A,T,C,G排列组合而成。
自从DNA的双螺旋结构被发现以后,能够知道 DNA分子上四种碱基的顺序就成为了一个新的热点。
于是,继蛋白质和RNA测序之后,又出现了 DNA测序。
自1977年出现DNA测序技术至今, 第一代测序技术
• 1 全基因组的比较研究 • 2 系统发生的进化关系分析
1.全基因组的比较研究
• 比较基因组学的基础是相关生物基因组的 相似性。两种具有较近共同祖先的生物, 它们之间具有种属差别的基因组是由祖先 基因组进化而来,两种生物在进化的阶段 上越接近,它们的基因组相关性就越高。 如果生物之间存在很近的亲缘关系,那么 它们的基因组就会表现出同线性(synteny), 即基因序列的部分或全部保守。
蛋白质序列分析
对新蛋白质序列进行分析的第一步是用BLAST进行数 据库搜索。
如果有明显相似性可以推测其序列的功能 如果没有,可用模式识别方法根据特定的结构域或蛋白 质家族的特征进行搜索。
-----模式数据库已经成为识别新序列的特 定功能活性的重要工具。InterPro数据库是最重要的蛋白 质模式数据库之一。
及计算机程序,分析生命体(包括人类)全部基 因组结构及功能。
基因组学概念
比较基因组学概念
• 定义:比较基因组学(Comparative Genomics)是 基于基因组图谱和测序基础上,对已知的基因和 基因组结构进行比较,来了解基因的功能、表达 机理和物种进化的学科。
• 研究内容:种间的比较基因组学 和 种内的比较 基因组学
HGP完成以后:
Gallus gallus Bos taurus Canis familiaris Apis mellifera Anthocidaris crassispina Macaca mulatta
鸡
Blattner et al. 2004 ,
牛
Elsik et al. 2009,
狗
Lindblad-Toh et al. 2005,
蜜蜂 Lindblad-Toh et al. 2006,
紫海丹
Sodergren et al. 2006
恒河猴
Gibbs et al. 2007
测 序 完 成 情 况 统 计
In Entrez Genome,1000 complete Prokaryotic Genomes are available!
此外还有
• 蛋白质信号肽的识别及亚细胞定位的预测 • 预测卷曲螺旋和螺旋-转角-螺旋结构 • 蛋白质折叠的识别与分类等
种内比较基因组学 模式生物
姜南
• 种内基因组的比较
• 同种群体内基因组存在大量的变异和多态性,正是这种基 因组序列的差异构成了不同个体与群体对疾病的易感性和 对药物与环境因子不同反应的遗传学基础。
概念
工具: 1、FASTA 2、BLAST 3、CLUSTAL W
基因组分类: 1、通过比较确知其功能的。 2、在数据库中有相匹配的蛋白,但不知道其
功能。 3、在现有的数据库中找不到任何相匹配的蛋
白质序列的新基因。
部分真核、原核生物基因组成成份分析
通过基因组数据进行比较基因组学研究
• 例子: • 尿殖道支原体带有已知最小的基因组,可
Caenorhabditis elegans
2010年全部完成
Lander et al. 2005 ; Waterston et al. 2002 ; Gibbs et al. 2004 ; Adams et al. 2000 ; Blattner et al. 1997 ; Goffeau et al. 1996 ; Dehal et al. 2002, Small et al. 2007; Stain et al. 2003, Stein et al. 1998 。
多序列比对
三条或多条序列的同时比对是序列的分析中最常用的技 术之一。通过一系列同源序列的全局比对来实现的 递进法:基本思想是同源序列与系统发育相关。 具体步骤:
1、比对所有可能的序列对。 2、用相邻连接法使用两两比对的相似度分值构建(tree)。 3、这种树用于指导递进的多序列比对。
数据库搜索
三大核酸数据库:GenBank、EMBL、DDBJ
杂交测序技术也是第一代测序技术,但是并非 基于以上两种原理。速度快,但是误差大。
Fig.2 ABI 3730XL
(2)第二代测序技术 后基因组时代亦即功能基因组时代的测序技
术,显著特征是高通量、低成本。 主要包括罗氏454公司的GS FLX测序平台、
Illumina公司的Solexa Genome Analyzer测序平 台和ABI公司的SOLiD测序平台。
• 我总结了:
• 凡是能够用来研究同一种群内两个个体基因组的不同的分 子手段都属于种内比较基因组学的范畴。
• 主流方法是分子标记技术:RAPD,RFLP,AFLP,基因 芯片。。。
• 回顾分子标记
水产界举例
• 李太武老师等用20条随机引物对皱纹盘鲍、杂色鲍进行 RAPD分析, 结果均能产生清晰可重复扩增产物, 计算出各 群体扩增位点的多态性比例分别为43.66%和53.05%, 群 体平均遗传杂合度分别为0.1557和0.1686, 群体间的遗传 距离0.2898, 表明皱纹盘鲍与杂色鲍的亲缘关系较远 。
• 流感嗜血杆菌中平均1024bp有一个基因,尿殖 道支原体平均1235bp有一个基因。
• 结论:基因尺度减小并不引起基因密度的增加 和基因本身尺寸的减小。 二者的差别在于基因数量上,流感嗜血 杆菌基因有1743个ORF,而尿殖道支原体只有 470个ORF
比较基因组有助于解决进化距离问题
测序技术与 比较基因组学
中科院北京基因组研究所,2013年,第一台国产样机
3. 测序技术与比较基因组学
DNA测序已经成为分子生物学研究中一种基 本的研究手段与工具,对于这种手段的需要也已 经极大地促进了DNA测序技术的进步与发展。
在此基础上,将会有更多的生物的全基因组 序列被测定,那么针对任何一种生物的比较基因 组学研究将会变得更加简单。
有同源序列
点阵图
A CT GT T A G
A⊙
⊙
C
⊙
T
⊙
⊙⊙
T
⊙
⊙⊙
T
⊙
⊙⊙
A⊙
⊙
G
⊙
⊙
C
⊙
ACTGTTAG | | | |||| AC T- TTAG
两序列比对
面临的问题: 进化的过程中同源序列可经过多次的插
入或缺失,导致它们长度不同,这就给比对 带来了麻烦。
要解决的问题: 最优比对算法-----寻找最佳的缺失方式