第五章基因组序列注释优秀课件

合集下载

第五章真核生物基因组结构

00:28 20
外显子：具有编码意义
结
转录单位
内含子：无编码意义（ 5′GT、
构
基因
非编码区
3′AG；GT -AG法则） TATA框前导区启动子 CAAT框尾部区增强子 GC框：调节转录活动。调控区 mRNA裂解信号终止子回文结构
00:28
21
Interrupted gene
00:28
43
核小体的结构组成

每个核小体含有约200bp的DNA，核心
组蛋白H2A、H2B、H3和H4各2份拷贝， 1份拷贝的H1组蛋白位于核小体外侧。

微球菌核酸酶(micrococcal nuclease) 处理染色体可得到单个核小体。
00:28 44
八聚体染色质小体 (～166bp) 核小体 (～200bp) DNA 连接区 (常为 32～34bp) 图 10-10 核小体的组成 DNA H1
28
内含子(Intron)
选择性剪接：同一基因的转录产物
由于不同的剪接方式形成不同mRNA。
00:28
29
PS DNA
外显子 S
PL外显子 L来自外显子 2外显子 3
50b
2800bp
161bp
4500bp
205bp 327bp
初始转录本：在唾腺中转录成熟 mRNA： 1663nt 初始转录本：在肝中转录成熟 mRNA： 1773nt 图 18-57 小鼠淀粉酶(amy) 基因利用不同启动子产生两个不同的 mRNA
00:28
染色体（ 1400nm，2个染色单体，每个染色体单体含10个螺旋圈）
51
染色质和染色体的概念

染色质(chromatin)：是指细胞周期间期细胞核内由因其易被碱性染料染色而得名。

基因组序列诠释辽宁师范大学PPT课件

①基因间存在大量非编码序列(人类基因组中占70%)；
②绝大多数基因含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子，有些不到50 个密码子甚至更少，因此当读码进入内含子时很快遇上终止密码，难以根据上述的ORF长度来判断哪种读框是正确的。
内含子的出现给计算机判读基因带来不少问题，在编写ORF扫描程序时要作许多修改，必须加入一些相应的规则：
采用RACE方法可获得丢失的cDNA序，可采用cDNA末端快速扩增技术 (rapid amplification of cDNA end，RACE)方法寻找这些丢失的末端顺序。根据残缺cDNA内部顺序先合成一对引物，将mRNA环化后使其与引物复性，再经 PCR扩增。扩增产物再用第二对巢式引物PCR放大，可获得mRNA 5’-和3’-端顺序。
① 当某一基因的转录产物进行可变剪接时，由于连接的外显子不同，会产生好几条长度不一的杂交带。此外，如果该基因是某一多基因家族的成员，也会出现多个信号。这两种现象要设计其他实验进一步区分。
② 基因的表达具有组织专一性及发育阶段的差别，选择的RNA样品有时不一定含有该基因的产物。因此要尽可能多地收集各种发育时期及不同组织器官RNA，以免因人为原因而遗漏。
5.1.2 实验分析确认基因
任何基因都可转录为RNA拷贝，这是实验确证基因的依据。真核生物中许多编码蛋白质的基因其转录的初级产物都有内含子，加工后成为mRNA。根据 mRNA的顺序可以找到外显子的位置以及整个基因的组成。由于mRNA的5’端及3’端各有一段非翻译区，基因的转录起点与终点有时并不准确，但不妨碍整个基因的界定。
③ 不同基因的表达产物丰度差异很大，对低拷贝的表达产物要适当提高RNA的上样量。有些基因表达产物丰度极低，或表达时期短暂不易提取，此时要考虑其他检测方法。例如可根据已知的DNA顺序设计引物从mRNA群体中扩增基因产物，再以DNA为探针与之杂交，这一方法称为拟northern分析。

第5章_基因组序列

●一对酵母的端粒序列
●选择标记 ●克隆位点
高分子量 DNA
TEL
AmpR ARS1 EcoRI ori TRP1 CEN4 URA3
TEL
EcoRI部分消化分子量标准（kb）
EcoRI酶切 EcoRI EcoRI
500 400 300 200
分离400-500 kb的DNA片段
连接
100
PFGE
酵母 (Saccharomyces cerevisiae) 线虫 (Caenorhabditis elegans) 果蝇 (Drosophila melanogater) 鼠 (Mus musculus) 人类 (Homo sapiens)
拟南芥（Arabidopsis thaliana）玉米 (Zea mays) 番茄 (Lycopersicon esculentum) 大麦 (Hordeum vulgare) 水稻 (Oryza sativa) 火炬松 (Pinus taeda)
一个方向不断变换
的电场取代单向电场，使电泳中受阻的DNA 分子在电场改变时扭转迁移方向，小分子
DNA比大分子DNA更
易在凝胶中重新定向，因而迁移速度更快，脉冲场凝胶电泳的原理
达到分离大分子DNA
的目的。
(2) DNA片段的克隆载体
所有的克隆载体都包括三种共同的组成部分，即复制基因（replicator）、选择性标记和克隆位点。选择载体系统时，主要考虑克隆DNA片段的大小。质粒（plasmid）: 5 kb
不同生物基因组中每厘摩的物理距离存在很大
的差异。遗传距离与物理距离的这种关系，反映了
通过遗传作图对基因物理定位的精度。该比率
（Kb/cM，单位遗传距离的碱基数）越小，基因物

基因组序列注释ppt课件

19
5.1.4 基因的命名和分类
迄今为止国际上还没有一个普遍公认的适合所有生物种属的基因命名规则. 由于历史, 习惯以及其它各种原因, 基因命名中常常存在许多同名歧义, 或者同义歧名的现象. 许多基因在生物的不同发育阶段具有不同的功能, 这一点也给准确的基因命名造成了实际困难. 很多科学家都希望基因的命名标准化，曾经在1997年和1999年举行了两次有关基因命名的研讨会，但因研究领域的不同以及基因命名本身存在的复杂问题, 无法达成一个统一的意见。目前不同生物种属的基因命名规则仍由各相关领域的专家讨论分别制定, 然后推荐给研究者选择采用.
24
什么是结构域或功能域 (domain)?

3
密码子偏爱
4
针对个别生物的策略 1) 脊椎动物许多基因的上游都有CpG岛。 2) 水稻基因5’端含有很高的GC含量。

5
5.1.2 同源基因查询

同源查询：利用已存入数据库中的基因序列与待查的基因组序列进行比较，从中查找可与之匹配的碱基序列或蛋白质序列及其比例用于识别基因的方法。同源查询的依据是：现有生物的不同种属之间具有功能或结构相似的同源基因成员，它们在起源上一脉相承，存在保守的序列组成。一般认为氨基酸的一致性或相似性在25%以上可视为同源基因。
效率与准确率比较
-----------------------------------------------------------------------------------------program sensitivity specificity missed exon (%) wrong exon (%) -----------------------------------------------------------------------------------------FGENESH 77.1 65.7 9.6 23.2 GenScan 66.5 44.9 12.0 40.9 HMMGene 69.5 36.6 15.5 55.5 -----------------------------------------------------------------------------------------引自: /berry.phtml 14

第5章真核生物基因组的注释

主讲人：王茂先
第三节重复序列的注释
串联重复序列（tandem repeat）
分为：microsatellite、minisatellite、satellite
软件：Tandem Repeats Finder 散布的重复序列（dispersed repeat）
大多是转座元件（transposable element，TE），是指可以通过转座（transposition）过程在基因组内不同位置间移动的DNA片段。转座机制：剪切和粘贴、复制和粘贴
（二）反式比对
反式比对是使用cDNA或者蛋白质序列与基因组进行比对得到同源位点（比对所用的cDNA或者蛋白质并不来自于这个位点，往往属于同一个基因家族）。常用的反式比对工具有BLAST、Exonerate和
GeneWise 。
主讲人：王茂先
二、从头开始的基因预测
从基因组测序一开始，一个明确的目标就是能够准确地进行从头开始（ab initio）的基因预测，即只依赖蕴含在DNA序列内部的信息来确定基因结构。
（四）EVM基因预测自动整合系统
主讲人：王茂先
（五）基因功能注释
1、寻找同源基因使用BLASTp在UniProt数据库中进行相似性搜索同源基因。
主讲人：王茂先
主讲人：王茂先
2、结构域和GO注释
结构域预测软件：InterPro数据库的InterproScan程序 GO注释：由InterPro的结构域提供
普通高等教育 “十三五”规划教材
生物信息学
Bioinformatics
第五章：真核生物基因组的注释
主讲人：王茂先
第一节蛋白质编码基因的注释
注释策略： (一)、基于证据的注释，即根据已有的实验证据（如cDNA）、表达序列标签（EST）和蛋白质序列进行蛋白质编码基因的注释。 (二)、从头开始（ab initio）的基因预测，即只根据基因组的DNA序列对蛋白质编码基因进行预测。 (三)、重新（de novo）基因预测，即通过与其他物种的基因组进行比较，从而预测一个新基因组中的蛋白质编码基因。

第五章真核生物基因组结构

内含子(Intron)
特点
1.不具有序列特异性 2.保守性 3.决定基因的长度 4.相对性
内含子(Intron)
选择性剪接：同一基因的转录产物
由于不同的剪接方式形成不同mRNA 。
PS
DNA
初始转录本：在唾腺中转录
外显子 S
PL 外显子 L
外显子 2 外显子 3
50b 2800bp
161bp 4500bp 205bp 327bp
五、染色体
染色体结构与类型：
染色单体
随体
着丝点
短臂
长臂
中着丝粒染色体
亚中着丝粒染色体
近端着丝粒染色体
端着丝粒染色体
着丝粒（又叫主缢痕）是染色体最显著的特征，碱性染料着色浅，且表现缢缩，它将染色体分成两个臂（长臂－q和短臂－ p）。功能：
①把两个姐妹染色单体结合在一起。
②是纺锤丝附着于染色体的位点
染色质小体
(～ 166bp)
146bp
DNA 166bp
H1
20bp
DNA连接区
(常为32～ 34bp)
核心颗粒
图10-10 核小体的组成
二、染色质的高级结构模型
DNA链（缩短7倍）→核小体（缩短6倍）→螺线管（缩短40倍）→超级螺线管（缩短5倍） →染色体
从染色质到染色体
① 在真核细胞中，一条成熟的mRNA链只能翻译出一条多肽链，很少存在原核生物中常见的多基因操纵子形式。
② 真核细胞DNA与组蛋白和大量非组蛋白相结合，只有一小部分DNA是裸露的。
③ 高等真核细胞DNA中很大部分是不转录的，大部分真核细胞的基因中间还存在不被翻译的内含子。

基因组注释ppt课件

基因注释软件
1)目前基因注释程序的编写主要依据两种信息内涵:
1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位序列, 多聚嘧啶顺序, 分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好.
对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中, 存在许多可能误判的信号指令. 2) 常用的注释软如 GenScan 主要偏重于内容指令 , 而 FgeneSH则着重于信号指令.由于每种生物都有种属专一性的密码子偏好,也存在某些非保守的信号指令, 因此在超长基因注释中常出现正向错误(false-positive, 多注释)或负向错误(false-negetive, 少注释).
3) EBI: 27 462 (2003, nature 423:576) 4) Genscan: 65 452 许多人倾向于不可能知道人类基因组精确的基因数.
几种模式生物注释的基因总数
大肠杆菌(E.coli): 4 800 酵母(yeast): 6 200 线虫(nematode): 19 000 果蝇(fly): 13 600 拟南芥(Arabidopsis): 25 000 水稻(rice): 60 000 玉米(maize): 59 000 老鼠(mouse): 30 000
76??typesdnachipstypesdnachipsexpressionchipsgenomicchipssequencingchipsdnachips77?基因芯片研制的总体蓝图研制方向的确定基因组序列分析与待检基因探针序列的确定检测样品的制备探针阵列的准备检测设备的研制杂交检测与数据分析78?表达芯片的制备检测流程79表达芯片胞cdna未处理的细胞cdna杂交杂交激光共聚焦扫描发现17个差异表达基因11个被热诱导6个被热抑制发现其中3个为未发现的新基因80蛋白质组定义

基因组序列注释的方法PPT26页

71、既然我已经踏上这条道路，那么，任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远，吾将上下而求索。——屈原 75、内外相应，言行相称。——韩非
基因组序列注释的方法
51、山气日夕佳，飞鸟相与还。 52、木欣欣以向荣，泉涓涓而始流。
53、富贵非吾愿，帝乡不可期。 54、雄发指危冠，猛气冲长缨。 55、土地平旷，屋舍俨然，有良田美池桑竹之属，阡陌交通财富 ❖ 丰富你的人生

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Solexa，SOLiD
▪ microRNA测序(microRNA sequencing)
实验
数据分析
✓ microRNA提取、两头加 Nhomakorabea头、反转录、建库
(Solexa or SOLiD)
✓ 序列预处理（质量控制）
✓ 已知microRNA丰度统计 ✓ 未知microRNA预测及丰度统
计
高通量测序服务
第五章基因组序列注释
基因组测序相关技术发展
Affy launches Gene
Expression microarrays
First microarray publication - on
Arabidopsis
Affy & ILMN both launched 100K genotyping arrays
ILMN bought Roche GS Solexa; FLX launches launched
GA
ILMN HiSeq 2000 launched
2000 2002 2003 2005 2006 2007 2008 2009
2010
In the coming future
Rise of Genbank databases from DNA sequencing
$M
100,000.00 10,000.00 1,000.00 100.00 10.00
13 years ~$3,000,000,000
Moore’s Law
60
1.00
40 20-30Gb
0.10
20 3Gb
6Gb
0.01
0
0.001
2007
2008
2009
2010
1990
2001
2007
更低的价格使得基于测序的科研和临床应用越来越被接受
The 3rd Generation Sequencing will be launched
测序技术的发展带来测序价格的下降
Innovation of NGS throughput
Cost of per Human Genome
Throughput (Gb)
240
120
100
80
200Gb-300Gb
(Solexa or SOLiD)
✓ 序列预处理（质量控制） ✓ 基因组分型技术 ✓ SNP、Indel、CNV、染色体结构变异
及注释
✓ 与表型相关的全基因组关联分析和功能连锁性分析
高通量测序服务
▪ 外显子捕获测序(Target exome capture)
实验
数据分析
✓ >30X的覆盖率 (Solexa or SOLiD)
2010 2012
<2 weeks
~$1,000
成熟的二代测序技术平台
Roche / 454 Genome Sequencer
FLX 500 Mb / run
Illumina / Solexa/GIIx Genetic Analyzer 50~95GB / run
Illumina / Solexa/HiSeq 200GB / run
▪ 元基因组测序 (meta-genome sequencing)
实验
数据分析
✓ DNA提取、建库
✓ 序列预处理（质量控制） ✓ 拼接、注释(功能、代谢通路) ✓ 丰度统计、比较元基因组
▪ 未知病毒检测(Unknown virus detecting)
实验
数据分析
✓ 低量RNA、DNA处理、 ✓ 与宿主、微生物、病毒数据库
Applied Biosystems SOLiD4
100GB / run Applied Biosystems
SOLiD/HQ 300GB / run
高通量测序服务
▪ 未知基因组测序(De novo genome sequencing)
实验
数据分析
✓ Mate Pair 测序构建 Scaffold
SOLiD)
高通量测序服务
▪ 转录组测序 (RNA-seq sequencing)
实验
数据分析
✓ mRNA打断、反转录、 ✓ 序列预处理（质量控制）
加接头
✓ 表达丰度统计
✓ De novo 454 构建转录 ✓ 注释(功能、代谢通路、表达
图谱
差异比较)
✓ Reference barcode建库 ✓ 未知转录本的分析
Project; DNA sequencing goes
industrial
Hapmap 1st phase data
release
ABI SOLiD 1.0 Rise of Launched! Genome Wide Association Studies (GWAS)
SOLiD 3.0: 100GB out of the box!
Human Genome Project & Celera
Genomics completes first draft genome
Low hanging fruit: cystic fibrosis mutation identified
3700 DNA Analyzer in Human Genome
The Sequencing Shake up!!
ABI commercializes first automated DNA sequencer
1981 1986 1989
1991
1994
1998
ILMN launches gene expression
arrays
Hapmap project launched
✓ 30X的覆盖率 (454&(Solexa or SOLiD))
✓ 序列预处理（质量控制）
✓ 基因组拼接（基于reference拼接） ✓ 注释(基因功能、代谢通路、比
较基因组) ✓ SNP发现及注释
▪ 基因组重测序(Whole genome resequencing)
实验
数据分析
✓ 30X以上的覆盖率
✓ 序列预处理（质量控制） ✓ 基因组分型技术 ✓ SNP、Indel、CNV、染色体结构变异
及注释
✓ 与表型相关的全基因组关联分析和功能连锁性分析
▪ 全基因组甲基化测序(DNA methylation sequencing)
实验
数据分析
✓ 30X以上的覆盖 ✓ 序列预处理（质量控制）率(Solexa or ✓ 甲基化位点检测及注释
建库
比较
✓ 未知病毒的发现及预测
学习重点： 1) 基因注释的方法 2) 基因功能的研究方法
基因组序列所包含的全部遗传信息是什么？基因组作为一个整体如何行使其功能？用什么方法寻找基因？用什么方法研究基因的功能?

第五章基因组序列注释优秀课件

第五章真核生物基因组结构

基因组序列诠释辽宁师范大学PPT课件

第5章_基因组序列

基因组序列注释ppt课件

第5章 真核生物基因组的注释

第五章真核生物基因组结构

基因组注释ppt课件

基因组序列注释的方法PPT26页

第5章真核生物基因组的注释