生物信息学第七章基因组信息学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
高等、低等真核生物和原核生物的基因组
酿酒酵母
5
基因组作图(mapping genomes)
对生物的基因进行鉴定(测序),以此测定它的染色体 上的特定位置,然后用图示的方式把它表示出来,就形 成了基因图谱。 ▪ 为什么要作图? 主要是为了测序 一次实验一般只能得到<2000bp的序列片断,而直接把片 断拼接起来对于大的基因组易出错。 ▪ 有了图如何测序? 利用图把基因组分成较大片断(105-106bp),并对大片断 用鸟枪法(shotgun)测序(鸟枪法是将目的DNA随机地处 理成大小不同的片段,再将这些片段的序列连接起来的 测序方法),测序后的序列便可正确置于图上。
下数据) ▪ large ▪ contains repeated sequences ▪ has noisy ends ▪ being used for SNP analysis ▪ need vector trimming (矢量微调)
比较基因组学:将不同物种基因组进行比较,其有助于根据同源性
方法分析基因组功能;有助于发现人类和其他生物的本质差异,探索 遗传语言的奥秘。
3
真核生物(eukaryote)的基因组
▪ 动物、植物、真菌(fungi)等真核生物的细胞内包含膜结构的部分,如细胞核、 细胞器(如线粒体,植物的叶绿体),大小107-1011bp
DNA序列,其在待分析的基因组或染色体上是唯一的。 ▪ 特点:数据量大,只能用计算机完成
10
限制作图 FISH
STS
基因组组装(genome assembly)
▪基因组组装:将大量短序列拼装成完整基因组的过程,其核心是序列装配过程 (sequence assembly )。 ▪步骤: Step 1、将所有短序列比对,以查找重叠的部分 Step 2、将重叠部分合并 ▪困难: 1、本身是个很难的计算问题 2、有很多重复序列(repeat) 3、有的重复序列可长达几千bp 4、有些重复序列可出现在几千个不同的地方 5、在拥有巨大基因组的植物和动物中普遍存在以上困难
12
序列装配(sequence assembly)
1、reads/segments 2、assemble 3、contig: A sequence contig is the extended contiguous sequence that is produced by the assembly process that joins overlapping sequences
phred/phrap/consed是什么意思?干什么的? ▪ phred: 准备(basecall) ▪ phrap: 装配(产生consensus sequences/contigs) ▪ consed: 浏览(browse)
15
序列装配软件作业(LasergeneSeqMan)
1、需要破解版 2、运行SeqMan ▪ [新版] SeqMan Pro (含在Lasergene 7.2中)的新特征(能处理如
▪ 重复序列多,LINE(long interspersed nuclear elements,长散布重复序列), SINE(short interspersed nuclear elements,短散布重复序列), LTR, transposon(转座子),微卫星(microsatellite)
▪ 较低等的真核生物基因更紧凑,内含子少
contig 1
contig 2
装配软件
▪ 商业软件 1、sequencher, ATGC (PC) 2、TraceTuner/PGA (workstation) 3、SeqMan [Pro] (DNAStar/Lasergene) ▪ 学术免费软件 1、phred/phrap/consed 2、CAP3
原核生物(prokaryote)的基因组
▪ 细菌和古细(生)菌(archaea)等的细胞内不包含膜结构的部分,多数基因组为单 个环状DNA分子,还可含有环状或线性的质粒(plasmid),大小105-107bp
▪ 基因比低等真核生物更紧凑,有操纵子(operon),无内含子(除少数古细菌外), 重复序列少(只有少数转座子)
生物信息学 第七章 基因组信息学
生物科学与技术学院
本课目录
一、总括 二、基因组组装 三、基因芯片 四、PCR引物设计
2
பைடு நூலகம்
一、总括
基因组(Genome):一个细胞、细胞器或病毒中的所有DNA(或RNA) 功能基因组学:以解释基因组的功能及控制机制为目标,其核心问
题是研究基因组多样性,表达及调节,模式生物
▪ 遗传作图方法: 连锁分析
8
果 蝇 的 遗 传 图 谱
物理作图(physical mapping)
▪ 物理作图:采用分子生物学技术直接检验DNA分子来作图以标示序列特征(基 因等)在基因组上的位置,遗传图的解析度和精确度较低,需物理图补充,单位 为bp。
▪ 物理作图方法(很多,可大致分为3类) 1、限制作图(restriction mapping) 2、FISH (fluorescent in situ hybridization) 3、STS(sequence tagged site) mapping:STS是指一段200-500bp的已知
6
人 的 基 因 图 谱
遗传作图(genetic mapping)
▪ 遗传作图:采用遗传技术(杂交,谱系等)作图以标示序列特征(基因等)在染色体 上,形成遗传连锁图,单位为cM(厘摩,即减数分裂的重组频率为1%)
▪ 遗传标记:遗传图谱上的特征性位置标记。 (1)基因标记 (2)分子/DNA标记: RFLP,SSLP(小卫星/VNTR,微卫星),SNP 遗传标记的特征: (1)个体间存在着多态性(差异),可被识别 (2)多态性可在后代中重演,即可遗传
14
phred/phrap/consed(略)
▪ 对学术用途免费,使用需作者同意 ▪ 至少能计算20万以上短序列(reads)的装配 ▪ 支持系统:Sun Solaris (Sparc) (2.5.1以上)、Sun Solaris (Intel)
(2.8以上)、DEC-Alpha Digital Unix (OSF1 V4.0以上)、HP HPUX (11.0以上)、SGI Irix (6.2以上)、Linux (Redhat 7.1-1以上)
高等、低等真核生物和原核生物的基因组
酿酒酵母
5
基因组作图(mapping genomes)
对生物的基因进行鉴定(测序),以此测定它的染色体 上的特定位置,然后用图示的方式把它表示出来,就形 成了基因图谱。 ▪ 为什么要作图? 主要是为了测序 一次实验一般只能得到<2000bp的序列片断,而直接把片 断拼接起来对于大的基因组易出错。 ▪ 有了图如何测序? 利用图把基因组分成较大片断(105-106bp),并对大片断 用鸟枪法(shotgun)测序(鸟枪法是将目的DNA随机地处 理成大小不同的片段,再将这些片段的序列连接起来的 测序方法),测序后的序列便可正确置于图上。
下数据) ▪ large ▪ contains repeated sequences ▪ has noisy ends ▪ being used for SNP analysis ▪ need vector trimming (矢量微调)
比较基因组学:将不同物种基因组进行比较,其有助于根据同源性
方法分析基因组功能;有助于发现人类和其他生物的本质差异,探索 遗传语言的奥秘。
3
真核生物(eukaryote)的基因组
▪ 动物、植物、真菌(fungi)等真核生物的细胞内包含膜结构的部分,如细胞核、 细胞器(如线粒体,植物的叶绿体),大小107-1011bp
DNA序列,其在待分析的基因组或染色体上是唯一的。 ▪ 特点:数据量大,只能用计算机完成
10
限制作图 FISH
STS
基因组组装(genome assembly)
▪基因组组装:将大量短序列拼装成完整基因组的过程,其核心是序列装配过程 (sequence assembly )。 ▪步骤: Step 1、将所有短序列比对,以查找重叠的部分 Step 2、将重叠部分合并 ▪困难: 1、本身是个很难的计算问题 2、有很多重复序列(repeat) 3、有的重复序列可长达几千bp 4、有些重复序列可出现在几千个不同的地方 5、在拥有巨大基因组的植物和动物中普遍存在以上困难
12
序列装配(sequence assembly)
1、reads/segments 2、assemble 3、contig: A sequence contig is the extended contiguous sequence that is produced by the assembly process that joins overlapping sequences
phred/phrap/consed是什么意思?干什么的? ▪ phred: 准备(basecall) ▪ phrap: 装配(产生consensus sequences/contigs) ▪ consed: 浏览(browse)
15
序列装配软件作业(LasergeneSeqMan)
1、需要破解版 2、运行SeqMan ▪ [新版] SeqMan Pro (含在Lasergene 7.2中)的新特征(能处理如
▪ 重复序列多,LINE(long interspersed nuclear elements,长散布重复序列), SINE(short interspersed nuclear elements,短散布重复序列), LTR, transposon(转座子),微卫星(microsatellite)
▪ 较低等的真核生物基因更紧凑,内含子少
contig 1
contig 2
装配软件
▪ 商业软件 1、sequencher, ATGC (PC) 2、TraceTuner/PGA (workstation) 3、SeqMan [Pro] (DNAStar/Lasergene) ▪ 学术免费软件 1、phred/phrap/consed 2、CAP3
原核生物(prokaryote)的基因组
▪ 细菌和古细(生)菌(archaea)等的细胞内不包含膜结构的部分,多数基因组为单 个环状DNA分子,还可含有环状或线性的质粒(plasmid),大小105-107bp
▪ 基因比低等真核生物更紧凑,有操纵子(operon),无内含子(除少数古细菌外), 重复序列少(只有少数转座子)
生物信息学 第七章 基因组信息学
生物科学与技术学院
本课目录
一、总括 二、基因组组装 三、基因芯片 四、PCR引物设计
2
பைடு நூலகம்
一、总括
基因组(Genome):一个细胞、细胞器或病毒中的所有DNA(或RNA) 功能基因组学:以解释基因组的功能及控制机制为目标,其核心问
题是研究基因组多样性,表达及调节,模式生物
▪ 遗传作图方法: 连锁分析
8
果 蝇 的 遗 传 图 谱
物理作图(physical mapping)
▪ 物理作图:采用分子生物学技术直接检验DNA分子来作图以标示序列特征(基 因等)在基因组上的位置,遗传图的解析度和精确度较低,需物理图补充,单位 为bp。
▪ 物理作图方法(很多,可大致分为3类) 1、限制作图(restriction mapping) 2、FISH (fluorescent in situ hybridization) 3、STS(sequence tagged site) mapping:STS是指一段200-500bp的已知
6
人 的 基 因 图 谱
遗传作图(genetic mapping)
▪ 遗传作图:采用遗传技术(杂交,谱系等)作图以标示序列特征(基因等)在染色体 上,形成遗传连锁图,单位为cM(厘摩,即减数分裂的重组频率为1%)
▪ 遗传标记:遗传图谱上的特征性位置标记。 (1)基因标记 (2)分子/DNA标记: RFLP,SSLP(小卫星/VNTR,微卫星),SNP 遗传标记的特征: (1)个体间存在着多态性(差异),可被识别 (2)多态性可在后代中重演,即可遗传
14
phred/phrap/consed(略)
▪ 对学术用途免费,使用需作者同意 ▪ 至少能计算20万以上短序列(reads)的装配 ▪ 支持系统:Sun Solaris (Sparc) (2.5.1以上)、Sun Solaris (Intel)
(2.8以上)、DEC-Alpha Digital Unix (OSF1 V4.0以上)、HP HPUX (11.0以上)、SGI Irix (6.2以上)、Linux (Redhat 7.1-1以上)