如何在genbank中查找一基因的序列

合集下载

相关主题

基因序列查找

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何在genbank中查找一基因的序列
1、在GeneBank 中查找基因序列只要输入accession号就可以了，下面网址就是一个基因的全部序列信息的例子，/Sitemap/samplerecord.html，在记录的末尾有各种记录的详细说明，如果你没有accession号，可以把你手头的编号用source等信息源转换成accession号，中文教程太古老了，如果你是初学者一定要养成看英文文献的习惯，要是特别想看中文翻译的话，书店里随便一本生物信息学书里都会介绍数据库的，不过有些翻译过来的东西真的很别扭，希望对你有帮助。

2、关于在GeneBank中查找序列我有几点体会：
最直接、最简单的方法是手头有基因的accession号；
如果没有就需要明确两个重要的内容，即基因名称及物种信息（如果有最好是拉丁全名），基因名称尽可能详细，避免搜出一些不相关的信息；
搜索的时候建议先用NCBI的Gene数据库搜索，这样得到的accession号是属于NCBI工作人员重新整理过的Refseq的序列，这样会比较可靠；当然这个要看你的分析目的，如果你是要对该序列进行下游的分子生物学操作or分析，选这种序列我觉得会比较好，如果是要进行多序列的分析or其他目的需要全面分析该序列的，可能需要其他序列做补充，但是我觉得序列越多问题越说不清楚，因为毕竟不是自己的序列，如果Gene数据库里没有收录，那就只有在Nucleotide数据库里找了，但是还是建议采用Refseq的序列，Refseq序列特征如下：
Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly
NC_ Genomic Complete genomic molecule, reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa
NW_ Genomic Contig or scaffold, primarily WGSa
NS_ Genomic Environmental sequence
NZ_b Genomic Unfinished WGS
NM_ mRNA
NR_ RNA
XM_c mRNA Predicted model
XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein
YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records
a Whole Genome Shotgun sequence data.
b An ordered collection of WGS for a genome.
c Computed.
其他值得考虑的是，对于真核生物最好找注释为全长的mRNA序列，原核生物最好有起始密码子和终止密码子；
其他未尽事宜大家补充！
3、如何在genbank查找某个细菌的基因序列？
你输入这个细菌的名字直接查，一般会有的~~~~~而且一般第一个会是全基因组序列~~~进入ncbi的首页，database选nucleotide，输入你的关键词,如果库里收录里就会有的
4、如何查找基因序列？——在Genbank
中寻找目的基因的实例
（1）根据文献
搞reasearch肯定要读文献的，如果你曾经在文献中看到过你感兴趣的基因，而且文中还提到了该基因在Genbank中的ID号，那就好办了，直接打开，在Search后的下拉框中选择Nucleotide，把Genbank ID号输入GO前面的文本框中，点“GO”，就可以找到他了。

举例说明，例如：在2003年JBC的文章（Conditional Knock-out of Integrin-linked Kinase Demonstrates an Essential Role in Protein Kinase B/Akt Activation）中出现了“calreticulin (GenBank accession number gi 16151096)”，那么把“16151096”输入GO前面的文本框中，点“GO”，就可以找到该基因了（当然包括基因序列等相关信息）。

在出现了检索结果界面（下图）后，直接点击红箭头所指的AY047586就可以看到基因的相关信息了...（呵呵，是不是有点太......easy了）
这里需要指出一下，在显示基因的页面右侧有一个Link，点击后出现一个小菜单，里面是与该基因相关的链接，很有用的，值得一个一个地去看看，这里我就不多说了。

（2）点击AY047586后出现的界面如下：
如果你只想获得序列（例如去设计PCR引物的时候），那就可以选择FASTA，这样就得到了FASTA格式的序列文件，没有其他数字和格式的干扰。

这就是FASTA格式的序列：
正如路漫漫所说，如果只是知道基因的名字，怎么查序列呢？还是举例说明，比如我想做的基因名称是人的VEGF基因，那么怎么在Genbank中找到它呢？还是一步一步来...
打开/
在search后面的下拉框中选择Gene，然后在中间的文本框中输入基因名称“VEGF”，点击GO...
搜索结果出来了，let me see... 啊，怎么这么多？689条，哪一条是我想要的基因呢？
（作者注：这也许是大多数人对Genbank的第一印象，即东西太多了，不知道是哪个。

）
点击箭头所指的Limits
Limits的意思其实就是高级检索，你可以在这里对检索词进行很多限制，这样能大大精简查询结果。

我们接着来，在Limits这个界面，先选择查询的限定范围。

我们要找什么基因来着？想起来了，是人的VEGF 基因，那就开始选择：先选Gene name(基因名称)；然后再选择Limit by Taxonomy（生物分类限定）中的Homo sapiens（人类），然后再点击“GO”
哇，只有一个结果，是不是搞定了？（呵呵，好有面子哦[]）
直接点击基因名称“VEGFA”就可以看到有关基因的信息了。

需要指出的是，在Genbank中，基因有很多别名（Aliases），和Genbank中记录的名称有可能不一致，大家要睁大眼睛哦。

比如在这里，VEGFA是Genbank中记录的基因名称，而它还有很多别名，比如MGC70609, VEGF（这就是我们要找的基因名称）, VEGF-A, VPF；还有，在这里可以看到该基因在染色体上的位置... 点击VEGFA后出现界面
再往下看，可以看到Genomic regions, transcripts, and products，这里显示了该基因在基因组中的位置，以及转录本的生成情况：
就看见了目的基因的mRNA的链接（如NM_001025366.1）和蛋白质的链接（如NP_001020537.2 ）
这里得说两句，有的基因也许只有一个编码序列，但有的基因有很多的mRNA剪接体，但都是归在一个基因名称下面。

比如，在VEGF基因下面有7个序列，分别是vascular endothelial growth factor A isoform a, isoform c, isoform d, isoform e, isoform f , isoform g, isoform b precursor ，但是哪个是自己想找的基因
呢？这就需要根据你自己查阅的文献以及在这些基因序列后面的解释来确定了。

如果我想找的基因是第一个序列即isoform a, 就可以点击NM_001025366.1，得到如下界面：
说来其实很简单，就是利用Genbank的检索功能。

也许大家的检索文献能力很强，但是面对Genbank这个庞然大物有却些打怵，加之初涉基因，相关知识不足，所以很多时候都是费力无穷却无功而返。

还是那句话，战略上藐视，实践中重视。

多花些时间了解Genbank，不要上来就狂查一通。

先把检索功能学习学习会更容易达到目的，磨刀不误砍柴工嘛，呵呵。