核酸序列分析ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
步 骤:
进入NCBI的电子PCR资源(http://www.ncbi.nlm.nih.gov/sutils/epcr/forward.cgi)
输入待分析的序列
根据提供的STS信息进行定位
2. 利用UniGene数据库进行定位
获得待分析序列对应的UniGene编号,而大部分 UniGene序列已经具有明确的定位信息,可以得 到待分析序列的基因定位。
http://www.ncbi.nlm.nih.gov/unigene
3.利用基因组序列进行定位
将待分析序列输入基因组数据库进行同源性检索; 得到确定的基因组序列后点击“Genome view”观察
基因组结构; 点击红色标记所指示的染色体列表中选择对应的染
色体及区域; 浏览器中将显示详细的基因定位结果。
核酸序列分析
核酸序列分析是生物信息学应用中的一个重 要方面,一般包括:DNA碱基组成、密码子的偏 向、内部重复序列、特殊位点(限制性位点及转 录、翻译和表达调控相关信号)、编码区分析、 一二级结构等。
第一节 核酸序列的检索 第二节 核酸序列的基本分析 第三节 核酸序列的电子延伸 第四节 基因的电子表达、定位分析 第五节 基因识别 第六节 核酸序列的提交
3’
CAAT (-70)
非翻译区
非翻译区
真核基因结构模式图
一、生物信息学识别基因的两种途径
基因组外显子识别
从基因组DNA序别中识别出完整的蛋白质编码序列, 即外显子部分。 外显子与内含子之间无绝对区分;同一基因不同发育 时空,外显子组成不相同;假基因的存在降低预测 的准确率。
EST策略的基因鉴定
BLAST搜索数据库进行基因定位
通过基因组数据库定位---NCBI基因组数据库
基因定位
拟南芥基因组数据库---基因定位
酵母基因组数据库---基因定位
第五节 基因识别
策略:
先寻找并去掉重复的和复杂性较性较低的序列,再 寻找基因及相关调控区域。
步骤:
第一节 核酸序列的检索
一、 Entrez检索系统
(http://www.ncbi.nlm.nih.gov/sites/gquery?itool=toolbar)
二、 SRS 检索系统
(http://srs.ebi.ac.uk)
三、DBGET/LinkDB检索
第二节 核酸序列的基本分析
一、 分子质量、碱基组成、碱基分布
(http://rebase.neb.com)
四、克隆测序的分析
1. 测序峰图的查看
澳大利亚Conor McCarthy开发的Chromas.exe程序, 且BioEdit软件和DNAMAN软件都可以查看。
2. 核酸测序载体序列的识别与去除
测序克隆被宿主菌核酸序列污染,或目的克隆 来自于宿主菌,可通过Blastn直接对GenBank或 EMBL数据库进行相似性分析进行判断。
通过软件,如BioEdit (http://www.mbio.ncsu.edu/BioEdit/)、 DNAMAN (http://www.lynnon.com/)等获得。
二、 序列变换
三、限制性内切酶分析
REBASE(Restriction Enzyme Database)限制酶数据库
终止密码子(TGA、TAA或TAG)数量较少; ORF达到一定的长度; 密码子使用的偏好性,第3个碱基G/C出现的频率较高; 与已知基因比较有序列相似性; 与模板序列的模式相匹配可能指示功能性位点的位置。
http://www.ncbi.nlm.nih.gov/unigene
二、基因的电子定位分析
通过序列标签位点(STS)定位 通过UniGene/RH技术定位 利用基因组序列定位
1. 利用STS数据库进行定位
利用NCBI的电子PCR资源
(http://www.ncbi.nlm.nih.gov/sutils/e-pcr/forward.cgi)
获取目的序列; 预测可能的编码区和非编码区; 通过相关的数据以提高基因识别的准确性(数
据库搜索); 利用生物信息学资源分析序列的功能。
5’
增强子百度文库
GC (-100)
帽位点 TATA (+1) (-30)
ATG
TAA /TAG /TGA
终止 位点
polyA
exon introexon exon
2. 将匹配序列和待分析的序列装配产生新序列;
3. 以新序列作为待分析的序列重复上述过程,直至没 有新的匹配序列,从而生成最后的新序列。
http://blast.ncbi.nlm.nih.gov/Blast.cgi
第四节 基因的表达、定位分析
一、基因的电子表达图谱分析
原理:
将待分析序列与EST数据库进行序列对库检索, 然后用与待分析核酸序列具有高同源性的EST序 列所对应的组织来源进行推断而得到该基因的组 织表达谱。
基本步骤:
1. 通过Blast搜索GenBank的EST数据库,选择与待 分析的序列具有最高同源性比分的EST序列;
2. 从NCBI的UniGene数据库进行检索,得到相应的 UniGene号;
3. 可通过参与形成UniGene Cluster的序列的组织/细 胞来源间接反映待分析序列在哪种组织中表达。
电子克隆最主要的途径是从EST直接寻找新基因。确 定目的EST,构建包含EST的重叠群,再进行ORF的判 定及蛋白结构域等功能域的识别。
二、编码区的分析
编码区是由核糖体翻译成蛋白质的DNA序列
原核基因:编码区是一段不包含终止子的连续序列。 真核基因:编码区是由内含子隔开的若干个可读框架。
编码区的统计特征:
五、重复序列分析
RepBase重复序列数据库
http://www.girinst.org/server/RepBase/
第三节 核酸序列的电子延伸
cDNA文库
EST 较长cDNA 全长cDNA
1.5Kb
500bp
500bp
500bp
500bp
基本过程:
1. 通过Blast搜索GenBank的EST数据库,选择与待 分析的序列具有较高同源性的EST匹配序列;