第八章 序列注释及提交
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BankIt的网址是: http://www.ncbi.nlm.nih.gov/BankIt Sequin的相关网址是: http://www.ncbi.nlm.nih.gov/Sequin/
BankIt提交序列的详细过程:
1、登陆BankIt页面:
http://www.ncbi.nlm.nih.gov/BankIt/ 2、填写表单内容
Unit 3 Submission 序列提交
• 测序工作者可以把自己工作中获得的新序列提交给NCBI,添加 到Genbank数据库。
• 这个任务可以由基于Web界面的BankIt或独立程序Sequin来完
成。
• BankIt是一系列表单,包括联络信息、发布要求、引用参考信
息、序列来源信息、以及序列本身的信息等。 • BankIt适合于独立测序工作者提交少量序列,而不适合大量序 列的提交,也不适合提交很长的序列。 • EST序列和GSS序列也不应用BankIt提交。
其他
其他分析Байду номын сангаас容
系统发育分析
1.ORF的识别
• GENSCAN:
http://genes.mit.edu/GENSCAN.html
2.intor/extro 剪切位点分析
Spidey:http://www.ncbi.nlm.nih.gov/Spidey/
3.选择性剪切分析
ProSplicer: http://prosplicer.mbc.nctu.edu.tw/
基因名称
输出结果(Description,Module,Reference,Related pathway etc.)
点击放大图 片后可以随 意查看路径 中的每一个 酶在代谢中 的位置。
Unit 2 Annotation
基因注释
基因组注释内容
1. 碱基组成分析:
C+G含量分析,CG偏离度分析
Sign-Up For Free
11.蛋白质结构域
InterPro: http://www.ebi.ac.uk/interProScan
输出结果1
详细报表
12.蛋白质三维结构预测 SWISS-MODEL: http://swissmodel.expasy.org//SWIS
S-MODEL.html
包括了260个物种的代谢通路及基 因组数据,其中包括详细注释的 大肠杆菌(E.coli)相关信息的数 据库EcoCyc 。 存放了预先计算的超过200个物种 的代谢通路信息。
BioCyc(11.6 版, 2008年1月)
PUMA2(2008年1月)
BioSilico
整合信息的数据库,提供对多个 代谢数据库的访问。
输出结果
8.限制性核酸内切酶位点分析
Primer ; DNAMan
9.蛋白质理化性质分析
ProtParam:
http://www.expasy.ch/tools/protparam.html
结果输出
• • • • • 氨基酸组成 元素组成 分子量 半衰期 其他
10.蛋白质二级结构预测 PHD: http://www.predictprotein.org/
• 大量的序列提交可以由Sequin程序完成。
• Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的 检查函数来提高序列的质量保证。它还被设计用于提交来自系统 进化、种群和突变研究的序列,可以加入比对的数据。 • 在不同操作系统下运行的Sequin程序都可以在 ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用说明可详见 其网页。
Happy Holiday !!!
Thank you for your attention!
输出结果: E-mail :***.pdb文件
13.分子系统发育分析
2008级生化与分子生物学专业硕士 研究生,《生物信息学》作业:
• 1. 2. 3. 4. 5. 作业格式:论文 前言 方法(主要相关软件或网址) 结果与分析 结论 参考文献
• 在论文中应包含下列内容:
1.利用你所学的数据库检索方法获得一段你感兴趣的DNA序列 (基因或
Chapter 8 Metabolism Pathway ,
Gene Annotation and Submission
第八章 代谢途径、基因注释及提交
Unit 1 Metabolism Pathway 代谢途径分析
常用的代谢数据库
数据库 KEGG(45.0 版, 2008年1月) 信息组织 包括了700个以上物种的代谢、信 号转导、基因调控、细胞过程的 通路。
2. 密码子偏嗜使用分析:
不同物种编码同一氨基酸时对密码子 使用的偏嗜性不同。 3. 开放阅读框鉴定:
open reading frame,ORF 4. 编码序列鉴定
5. 特殊功能序列鉴定: 结构特征、特殊序列等,利用计算 机软件及相应网站等进行鉴定 6. 同源性基因检索:
Blast
7. 直系同源蛋白聚类(COG)分析: 全基因组对全基因组比较
mRNA)。标明序列名称、登录号 (accession #)。下载该基因mRNA和蛋 白的GenBank格式文件。
2. 查找与该基因相关的文献,写出前言并从中总结该基因的研究意义。
3. 查找该基因编码的蛋白质序列特征,包括氨基酸组成、等电点等理化性 质等。
4. 查找该基因是否有已知的三维结构数据,并下载该结构文件。
预测结果
预测结果
4.CpG岛区域分析
CpgPlot/CpGRrport/Isochore:
http://www.ebi.ac.uk/emboss/cpgplot
输
出
结 果
5.核心启动子及转录因子结合位点 PormoterScan:
http://bimas.dcrt.nih.gov:80/molbio/proscan
3、确认表单内容
4、等待电子邮件返回信息。
BankIt界面
精确的碱基数
下 拉
下 拉
填写详细信息
下 拉
如果填写的信息有误会自动返回
如果没有错误,在确认之后等待返回E-mail.
Unit 4 Target Gene Analysis 目标基因分析
序列
分析内容 GC含量/Codon bias 基因编码区组分分析 引物设计 限制性酶切位点分析
5. 利用BLAST工具查找与该基因mRNA和氨基酸序列同源的基因(请征对 nr数据库比较),至少要写出10个同源序列的登录号 (accession #)。下
载同源蛋白的氨基酸序列进行多序列排列,观察有无保守的序列。
6.分析同源蛋白之间的进化关系并绘制进化树。 7. 分析该基因编码的蛋白在代谢中的位置。 8.写出相关的参考文献。
核酸序列分析
基因编码区结构分析
基因结构分析
选择性剪切分析/SNP分 析 基因调控区域分析 蛋白质一级序列分析 蛋白质理化性质分析 蛋白质二级结构预测 蛋白质序列信号位点分析 蛋白质结构域分析 蛋白质三维结构模拟 序列比对注释 多序列比对
蛋白质序列分析
蛋白质二级结构分析
蛋白质超二级结构分析 蛋白质高级结构分析
输出结果
6.转录终止信号的预测 Hcpolya: http://zeus2.itb.cnr.it/~webgene/w wwHC_polya_ex.html
输出结果
7.密码子使用偏好性分析 Codon usage: http://bioinformatiocs.org/sms/inde x.html
• KEGG(京都基因与基因组百科全书)是基因组破译方
面的数据库。
• KEGG提供了Java的图形工具来访问基因组图谱,比
较基因组图谱和操作表达图谱,以及其它序列比较、
图形比较和通路计算的工具,可以免费获取。 • KEGG的网址是:http://www.genome.ad.jp/kegg/
KEGG数据库